• Страница 1 из 1
  • 1
Форум » Территория вебмастера » Начинающему вебмастеру » Как использовать файл Robots.txt для сайта (Что такое robots.txt и зачем он вообще нужен на сайте)
Как использовать файл Robots.txt для сайта
Kosten
Дата: Четверг, 19.04.2018, 18:56 | Сообщение 1
Администраторы
Сообщений:17622
Награды: 55


Файл robots.txt - это файл, который похожий на забор вокруг вашего двора. Некоторые заборы позволяют вам видеть, а другие построены, чтобы все убрать. Файл robos.txt находится в корневом каталоге вашего веб-сайта и указывает, какие части вашего веб-сайта вы используете или не хотите, чтобы поисковые роботы просматривали или получали доступ. Только этот файл, обычно весом не более нескольких байтов, может нести ответственность за создание или нарушение отношений вашего сайта с поисковыми системами.

Возможно, вы захотите заблокировать роботов от индексирования частных фотографий, специальных предложений или других страниц, которые вы не готовы для доступа к пользователям. Блокирующие страницы также могут помочь вашему SEO. Robots.txt может решить проблемы с дублирующимся контентом, однако могут быть более эффективные способы сделать это. Когда робот начинает сканирование, они сначала проверяют, установлен ли файл robots.txt, который не позволит им просматривать определенные страницы.

Robots часто встречается в корневом каталоге вашего сайта и существует для регулирования ботов, которые сканируют ваш сайт. Здесь вы можете предоставить или запретить разрешение всем или некоторым конкретным роботам поисковых систем для доступа к определенным страницам или вашему сайту в целом.



Когда следует использовать файл Robots.txt

Необходимо использовать файл robots.txt, если вы не хотите, чтобы поисковые системы индексировали определенные страницы или контент. Если вам нужны поисковые системы, например, Google, Bing и Yahoo, где для доступа и индексации всего вашего сайта, вам не нужен файл robots.txt, также в некоторых случаях люди используют файл robots, чтобы указать пользователям на карта сайта.

Однако, если другие сайты ссылаются на страницы вашего сайта, заблокированные robots.txt, поисковые системы могут по-прежнему индексировать адреса, и они могут отображаться в результатах поиска. Чтобы этого не произошло, используйте метку x-robots-tag, noindex meta tag или rel canonical на соответствующую страницу.

Причины, по которым вам может понадобиться файл robots.txt:

1. У вас есть контент, который вы хотите заблокировать из поисковых систем;
2. Вы разрабатываете сайт, который является живым, но вы не хотите, чтобы поисковые системы его индексировали;
3. Вы хотите точно настроить доступ к вашему сайту от авторитетных роботов;
4. Вы используете платные ссылки или рекламные объявления, для которых требуются специальные инструкции для роботов;
5. Они помогают вам следовать некоторым рекомендациям Google в некоторых ситуациях;

Причины, по которым вы не хотите иметь файл robots.txt:

1. Ваш сайт прост и свободен от ошибок, и вы хотите, чтобы все индексировалось;
2. У вас нет файлов, которые вы хотите или их нужно заблокировать из поисковых систем;
3. Вы не попадаете в ситуации, перечисленные выше, чтобы иметь файл robots.txt;
4. Это нормально, если у вас нет файла robots.txt;

Если у вас нет файла robots.txt, поисковые роботы, такие как Googlebot будут иметь полный доступ к вашему сайту. Это обычный и простой метод, который очень распространен.



Включение Robots.txt для улучшения SEO

Теперь, когда вы понимаете этот важный элемент SEO, проверьте свой собственный сайт, чтобы поисковые системы индексировали страницы, которые вы хотите, и игнорируете тех, кого хотите оставить вне результатов поиска. В дальнейшем вы можете продолжать использовать robot.txt для информирования поисковых систем о том, как они сканируют ваш сайт.



Блокирование дублирующегося содержимого

Вы можете исключить любые страницы, содержащие дублирующийся контент. Например, если вы предлагаете «печатные версии» некоторых страниц, вам не нужно, чтобы Google индексировал повторяющиеся версии, поскольку дублирующийся контент мог повредить вашему ранжированию.

Однако имейте в виду, что люди все еще могут посещать и ссылаться на эти страницы, поэтому если информация является типом, который вы не хотите видеть другим, вам необходимо использовать защиту паролем, чтобы сохранить его конфиденциальным. Это потому, что, вероятно, есть некоторые страницы, содержащие конфиденциальную информацию, которую вы не хотите показывать в SERP.



Как создать файл Robots.txt

Если хотите настроить файл robots.txt, процесс на самом деле довольно прост и включает в себя два элемента, это пользовательский агент, что является роботом, что применяется следующий блок URL, который вы хотите заблокировать. Эти две строки рассматриваются как одна запись в файле, что означает, что вы можете иметь несколько записей в одном файле robots.txt.

Для строки пользовательского агента вы можете указать конкретный бот или применить блок URL ко всем ботам, используя звездочку. Ниже приведен пример пользовательского агента, блокирующего все боты.

User-agent: *

Вторая строка в записи, то она перечисляет конкретные страницы, которые вы хотите заблокировать. Чтобы заблокировать весь сайт, используйте косую черту. Для всех других записей сначала используйте косую черту, а затем перечислите страницу, каталог, изображение или тип файла.

Следующие примеры:

Disallow: / блокирует весь сайт.

Disallow: /bad-directory/ блокирует как каталог, так и все его содержимое.

Disallow: /блокирует страницу.

После создания вашего пользовательского агента и запрета выбора, одна из ваших записей может выглядеть так:

User-agent: *
Disallow: /bad-directory/


Сохраните файл, скопировав его в текстовый файл или блокнот и сохраните как «robots.txt». Обязательно сохраните файл в каталоге самого высокого уровня вашего сайта и убедитесь, что он находится в корневом домене с именем, точно совпадающим с robots.



Как это работает

Проверьте файл robots.txt вашего сайта в инструментах для вебмастеров, чтобы убедиться, что боты сканируют части сайта, который вы хотите и избегаете заблокированных вами областей.

1. Выберите сайт, который вы хотите проверить;
2. Нажмите «Заблокированные URL адреса» в разделе Сканирование;
3. Выберите вкладку Test robots.txt;
4. Вставьте содержимое вашего robots.txt в первый блок;
5. Перечислите сайт для проверки в поле адреса;
6. Выберите пользовательские агенты в списке пользователь агенты;

Имейте в виду, что это проверит только робота Googlebot и других пользовательских агентов Google. Вы можете использовать robots для блокировки файлов ресурсов, таких как неважные изображения, сценарии или файлы стилей. Имейте в виду, если эти файлы необходимы для рендеринга вашего сайта, это может повлиять на доступность вашего сайта. Если файлы заблокированы, искатель не загрузит их, даже если вызывается на странице.
Прикрепления: 3344434.png(41.9 Kb) · 4762363.png(9.2 Kb) · 1333562.png(29.7 Kb) · 2379789.jpg(22.2 Kb) · 9417467.png(47.0 Kb)
Страна: (RU)
Nikas
Дата: Четверг, 19.04.2018, 19:31 | Сообщение 2
Проверенные
Сообщений:224
Награды: 3


код:

Код
User-agent: *
Allow: /*?page
Allow: /*?ref=
Allow: /stat/dspixel
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: http://ваш-сайт/sitemap.xml
Sitemap: http://ваш-сайт/sitemap-forum.xml


Страна: (NL)
Kosten
Дата: Пятница, 20.04.2018, 00:48 | Сообщение 3
Администраторы
Сообщений:17622
Награды: 55


Nikas, можно под поисковые системы поставить.

Код
User-agent: Yandex  
Allow: /*?page  
Allow: /*?ref=  
Allow: /stat/dspixel  
Disallow: /*?
Disallow: /?ssid=
Disallow: /stat/  
Disallow: /index/1  
Disallow: /index/3  
Disallow: /register  
Disallow: /index/5  
Disallow: /index/7  
Disallow: /index/8  
Disallow: /index/9  
Disallow: /index/sub/  
Disallow: /panel/  
Disallow: /admin/  
Disallow: /informer/  
Disallow: /secure/  
Disallow: /poll/  
Disallow: /search/  
Disallow: /abnl/  
Disallow: /*_escaped_fragment_=  
Disallow: /*-*-*-*-987$  
Disallow: /shop/order/  
Disallow: /shop/printorder/  
Disallow: /shop/checkout/  
Disallow: /shop/user/  
Disallow: /*0-*-0-17$  
Disallow: /*-0-0-  

User-agent: *  
Allow: /*?page  
Allow: /*?ref=  
Allow: /stat/dspixel  
Disallow: /*?
Disallow: /?ssid=
Disallow: /stat/  
Disallow: /index/1  
Disallow: /index/3  
Disallow: /register  
Disallow: /index/5  
Disallow: /index/7  
Disallow: /index/8  
Disallow: /index/9  
Disallow: /index/sub/  
Disallow: /panel/  
Disallow: /admin/  
Disallow: /informer/  
Disallow: /secure/  
Disallow: /poll/  
Disallow: /search/  
Disallow: /abnl/  
Disallow: /*_escaped_fragment_=  
Disallow: /*-*-*-*-987$  
Disallow: /shop/order/  
Disallow: /shop/printorder/  
Disallow: /shop/checkout/  
Disallow: /shop/user/  
Disallow: /*0-*-0-17$  
Disallow: /*-0-0-

Host: zornet.ru

Sitemap: http://zornet.ru/sitemap.xml
Sitemap: http://zornet.ru/sitemap-forum.xml
Страна: (RU)
Kosten
Дата: Среда, 23.05.2018, 15:57 | Сообщение 4
Администраторы
Сообщений:17622
Награды: 55


Файл robots.txt веб-сайта находится по адресу http: //сайт/robots.txt . Веб-сайт с по умолчанию robots.txt индексируется наилучшим образом - мы настраиваем файл таким образом, чтобы индексировались только страницы с контентом, а не все существующие страницы, например, страница входа или регистрации. Поэтому сайты uCoz индексируются лучше и получают более высокий приоритет по сравнению с другими сайтами, где индексируются все ненужные страницы.

Системный файл robots.txt

User-agent: *
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml

Описание каждой строчки файла robots.txt на uCoz

User-agent: * общее обращение ко всем сканерам, читающим файл robots.txt
Allow: /*?page разрешение страниц пагинации на главных страницах модулей
(связанно со строчкой Disallow: /*? )
Allow: /*?ref= нужна для правильной переиндексации компонентов социальной
регистрации
Disallow: /*? запрет к индексации поисковых запросов, кода безопасности
на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей
главной страницы и блога (компоненты кода системы, связанные с сессиями ssid),
дубли ссылок на изображения в фотоальбомах, других мусорных компонентов системы
Disallow: /stat/ запрет индексации компонента счетчика статистики (картинка с данными)
Disallow: /index/1 техническая страница входа
Disallow: /index/3 запрет индексации страницы регистрации (локальная регистрация)
Disallow: /register запрет индексации страницы регистрации (социальная и uID регистрация)
Disallow: /index/5 запрет к индексации аякс окна напоминания пароля в старой форме входа
Disallow: /index/7 служебная страница выбора аватара из коллекции
Disallow: /index/8 запрет к индексации профилей пользователей (один из способов защиты от спама)
Disallow: /index/9 запрет индексации аякс окна Доступ запрещен
Disallow: /index/sub/ запрет к индексации локальной авторизации
(связано со старой формой входа)
Disallow: /panel/ запрет к индексации входа в панель управления
Disallow: /admin/ запрет к индексации входа в панель управления
Disallow: /informer/ запрет к индексации информеров, вставленных скриптом
(при этом содержимое информеров, вставленных системным кодом $MYINF_х$
будет индексироваться свободно)
Disallow: /secure/ запрет на индексацию кода безопасности
(связано со строчкой Disallow: /*?)
Disallow: /poll/ запрет индексации служебной папки опросов
Disallow: /search/ запрет индексации страницы поиска,
тегов и поисковых запросов (связано со строчкой Disallow: /*?)
Disallow: /abnl/ запрет индексации компонентов системного
рекламного баннера (для сайтов с не отключенной рекламой)
Disallow: /*_escaped_fragment_= запрет технического компонента кода
Disallow: /*-*-*-*-987$ запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице
Disallow: /shop/checkout/ запрет к индексации корзины и кода оформления заказа для Интернет магазина
Disallow: /shop/user/ запрет к индексации пользователей магазина (субагенты)
Disallow: /*0-*-0-17$ запрет к индексации различных фильтров,
страниц материалов пользователя, ссылки на последнее сообщение форума, дублей системы и т.д
Disallow: /*-0-0- запрет к индексации страниц добавления материалов,
списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL),
страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума,
добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы
Sitemap: //адрес сайта/sitemap.xml общая карта сайта
Sitemap: //адрес сайта/sitemap-forum.xml карта форума
(оставлять в файле, если активирован модуль форум)
Sitemap: //адрес сайта/sitemap-shop.xml карта магазина
(прописывать только, если активирован модуль Интернет магазин)
Host: адрес сайта без https:// (прописывать, если прикреплен домен
для определения главного зеркала. дирректива прописывается в
любом месте роботса, предназначена для Яндекса, при этом
отдельное обращение к роботам Яндекса не нужно. Google игнорируется)
Страна: (RU)
Kosten
Дата: Среда, 23.05.2018, 16:14 | Сообщение 5
Администраторы
Сообщений:17622
Награды: 55


Часто задаваемые вопросы о Robots.txt

Информеры не индексируются, потому что они отображают информацию, которая УЖЕ существует. Как правило, эта информация уже проиндексирована на соответствующих страницах.

[info]Вопрос: Я случайно испортил robots.txt. Что мне делать?

Ответ: Удалите его. Файл robots.txt по умолчанию будет добавлен автоматически (система проверяет, есть ли у него сайт, а если нет - добавляет обратно файл по умолчанию).[/info]

[info]Вопрос: Существует ли какое-либо использование при отправке веб-сайта в поисковые системы, если карантин еще не удален?

Ответ: Нет, ваш сайт не будет индексироваться во время карантина.[/info]

[info]Вопрос: Будет ли автоматически заменен файл robots.txt после удаления карантина? Или я должен обновить его вручную?

Ответ: Он будет обновляться автоматически.[/info]

[info]Вопрос: Можно ли удалить файл robots.txt по умолчанию?

Ответ: Вы не можете удалить его, это системный файл, но вы можете добавить свой собственный файл. Однако мы не рекомендуем это делать, как было сказано выше. Во время карантина невозможно загрузить собственный файл robots.txt.[/info]

[info]Вопрос: Что мне делать, чтобы запретить индексирование следующих страниц?

_http://zornet.ru.com/index/0-4
_http://zornet.ru.com/index/0-5.

Ответ: добавьте следующие строки в файл robots.txt:

/ index / 0-4
/ индекс / 0-5
[/info]

[info]Вопрос: Я запретил индексирование некоторых ссылок с помощью robots.txt, но они все еще отображаются. Почему это так?

Ответ: С помощью robots.txt вы можете запретить индексирование страниц, а не ссылок.[/info]

[info]Вопрос: Я хочу внести некоторые изменения в файл robots.txt. Как я могу это сделать?

Ответ: Загрузите его на свой ПК, отредактируйте, а затем загрузите его через File Manager или FTP.[/info]
Страна: (RU)
Форум » Территория вебмастера » Начинающему вебмастеру » Как использовать файл Robots.txt для сайта (Что такое robots.txt и зачем он вообще нужен на сайте)
  • Страница 1 из 1
  • 1
Поиск: