Разбор стандартного robots.txt сайта uCoz
|
|
workman | Суббота, 26 Декабря 2015, 18:19 | Сообщение 1 |
| Чтоб узнать что вообще такое robots, нужно понять, что за что отвечает, не просто прописать стандартный а самому что нужно запретить. И вот основы его, можно настроить под одну поисковую систему, но когда будет первая звездочка, это означает, что разрешено всем поисковым ботам заходить на сайт.
[info]User-agent: * общее обращение ко всем сканерам, читающим файл robots.txt Allow: /*?page разрешение страниц пагинации на главных страницах модулей (связанно со строчкой Disallow: /*? ) Allow: /*?ref= нужна для правильной переиндексации компонентов социальной регистрации Disallow: /*? запрет к индексации поисковых запросов, кода безопасности на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей главной страницы и блога (компоненты кода системы, связанные с сессиями ssid), дубли ссылок на изображения в фотоальбомах, других мусорных компонентов системы Disallow: /stat/ запрет индексации компонента счетчика статистики (картинка с данными) Disallow: /index/1 техническая страница входа Disallow: /index/3 запрет индексации страницы регистрации (локальная регистрация) Disallow: /register запрет индексации страницы регистрации (социальная и uID регистрация) Disallow: /index/5 запрет к индексации аякс окна напоминания пароля в старой форме входа Disallow: /index/7 служебная страница выбора аватара из коллекции Disallow: /index/8 запрет к индексации профилей пользователей (один из способов защиты от спама) Disallow: /index/9 запрет индексации аякс окна Доступ запрещен Disallow: /index/sub/ запрет к индексации локальной авторизации (связано со старой формой входа) Disallow: /panel/ запрет к индексации входа в панель управления Disallow: /admin/ запрет к индексации входа в панель управления Disallow: /informer/ запрет к индексации информеров, вставленных скриптом (при этом содержимое информеров, вставленных системным кодом $MYINF_х$ будет индексироваться свободно) Disallow: /secure/ запрет на индексацию кода безопасности (связано со строчкой Disallow: /*?) Disallow: /poll/ запрет индексации служебной папки опросов Disallow: /search/ запрет индексации страницы поиска, тегов и поисковых запросов (связано со строчкой Disallow: /*?) Disallow: /abnl/ запрет индексации компонентов системного рекламного баннера (для сайтов с не отключенной рекламой) Disallow: /*_escaped_fragment_= запрет технического компонента кода Disallow: /*-*-*-*-987$ запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице Disallow: /shop/checkout/ запрет к индексации корзины и кода оформления заказа для Интернет магазина Disallow: /shop/user/ запрет к индексации пользователей магазина (быстрая регистрация) Disallow: /*0-*-0-17$ запрет к индексации различных фильтров, страниц материалов пользователя, ссылки на последнее сообщение форума, дублей системы и т.д Disallow: /*-0-0- запрет к индексации страниц добавления материалов,списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы Sitemap: http://адрес сайта/sitemap.xml общая карта сайта Sitemap: http://адрес сайта/sitemap-forum.xml карта форума (оставлять в файле, если активирован модуль форум) Sitemap: http://адрес сайта/sitemap-shop.xml карта магазина (прописывать только, если активирован модуль Интернет магазин) Host: адрес сайта без http:// (прописывать, если прикреплен домен для определения главного зеркала. дирректива прописывается в любом месте роботса, предназначена для Яндекса, при этом отдельное обращение к роботам Яндекса не нужно. Google игнорируется)[/info]
| Страна: (RU) |
| |
Kosten | Суббота, 26 Декабря 2015, 21:27 | Сообщение 2 |
| workman, это явно не лишняя информация, от которой зависит ваша индексация.
| Страна: (RU) |
| |
FeStemBer | Воскресенье, 27 Декабря 2015, 03:34 | Сообщение 3 |
| Все это безусловно интересно и поучительно, но все же предпочитаю стандартный и не лезть без надобности в robots.txt сайта uCoz.
| Страна: (RU) |
| |
workman | Воскресенье, 27 Декабря 2015, 09:19 | Сообщение 4 |
| Цитата Tventum ( ) Все это безусловно интересно и поучительно, но все же предпочитаю стандартный и не лезть без надобности в robots.txt сайта uCoz. Тоже правильно, но есть например созданные вами же папки в ФМ, которые не стоит обходить роботу, чтобы ускорить индексацию сайта. Робот наткнется на папку, увидит что она закрыта и пойдет дальше собирать информацию ту которая нужна в поиске
| Страна: (RU) |
| |
workman | Воскресенье, 27 Декабря 2015, 11:25 | Сообщение 5 |
| Хотелось бы конечно понять,стоит ли закрывать картинки дерективами если нет смысла чтобы ПС их индексировали. И увеличится скорость просмотра и перехода робота по ссылкам сайта?
Код Disallow: /_fr/ Disallow: /_ph/ Disallow: /images/
| Страна: (RU) |
| |
Kosten | Воскресенье, 27 Декабря 2015, 22:56 | Сообщение 6 |
| Некоторые вообще закрывают информацию, для чего, это такая тема как ку клукс клан что ли.
Вам незя!
| Страна: (RU) |
| |
workman | Понедельник, 28 Декабря 2015, 13:53 | Сообщение 7 |
| Цитата Kosten ( ) Некоторые вообще закрывают информацию, для чего, это такая тема как ку клукс клан что ли. Ничего не понятно. К чему данное и как понимать?
| Страна: (RU) |
| |
Kosten | Понедельник, 28 Декабря 2015, 14:53 | Сообщение 8 |
| Цитата workman ( ) Ничего не понятно. Это для избранных
Говор. специально закрывают к примеру модуль или тему, прописывая его в ROBOTS для того чтоб был запрет на индексацию.
| Страна: (RU) |
| |
workman | Понедельник, 28 Декабря 2015, 17:31 | Сообщение 9 |
| Цитата Kosten ( ) Это для избранных Понятно.. Но когда им стану то буду понимать ...
| Страна: (RU) |
| |