• Страница 1 из 1
  • 1
Форум » Записки веб-разработчика » Начинающему вебмастеру » Как использовать файл robots.txt на сайте (Как создать правильный файл robots.txt, настройка, директивы)
Как использовать файл robots.txt на сайте
Kosten
Дата: Пятница, 13.07.2018, 22:39 | Сообщение 1
Администраторы
Сообщений:18241
Награды: 55


Безусловно, многие слышали о сканерах, и также ботах обходят наши сайты, чтобы отказаться от контента по различным причинам, таким как индексирование в поисковых системах, определение контента, сканирование адресов электронной почты и так далее. Существуют все виды сканеров и ботов, которые сканируют сайты. В то время как некоторые из них хороши, которым должен быть разрешен доступ к нашему сайту, но мы, возможно, захотим их ограничить.

В этом посте мы увидим, как мы можем это сделать, а точнее настройка, все значение рассмотрим, какие за что отвечают. Также, как можно полностью запретить сканировать сайт, а точнее поисковые боты не будут выводить запросы в поиск, что некоторые веб мастера специально делают для некоторых или внутренних тем, чтоб не появилась в поисковых системах.

1. Что такое robots.txt

Файл robots.txt представляет собой простой текстовый файл, который читается ботами и искателями, чтобы определить, как он должен сканировать сайт. Боты, которые сканируют сайт, автоматизированы, и они проверяют файл robots.txt перед доступом к сайту. Мы можем указать, какие сканеры могут обходить сайт, какие каталоги не должны сканироваться, скорость сканирования.

2. Когда его использовать?

Файл robots.txt требуется только тогда, когда вы хотите, чтобы какой-либо контент на вашем сайте был исключен из поисковых систем. Если вы не хотите исключать что-либо, то есть включить все в поисковые системы, то вам не нужен файл robots.txt.

Если у вас нет файла robots.txt, иногда сервер может вернуть 404 или Permission Denied при попытке доступа к файлу, и это может вызвать проблемы, но это не большая проблема. Следовательно, всегда лучше иметь robots.txt, является ли он пустым или с кодом, чтобы обеспечить доступ всем.

Код
User-Agent: *
Disallow:


Я бы выбрал файл robots.txt с указанным выше кодом, чтобы разрешить доступ ко всем для всех ботов, а не иметь пустой файл robots.txt или без него.

3. Все роботы следуют robots.txt

Большинство известных сканеров, таких как Google, Яндекс, Bing и многие другие, второго плана, что следуют за файлом robots.txt. Однако есть много сканеров или ботов, которые просто предпочитают игнорировать файл robots.txt. Каждому искателю не требуется следить за файлом robots.txt, поэтому всегда лучше защищать контент, который вы не хотите разрешать всем, используя пароли.

4. Как это использовать

Файл robots.txt - очень простой текстовый файл, который должен находиться в корневой папке вашего домена. Если у вас нет доступа к корневому домену, вы не можете использовать файл robots.txt для блокировки доступа. В этом случае вы можете использовать мета тег роботов. Кроме того, страницы, включенные в файл robots.txt, могут по-прежнему индексироваться, если они связаны с некоторыми другими местами. Поэтому использование тега Robots на странице не позволит индексировать его.

Вы можете иметь разные правила для разных искателей, но сначала должны иметь правило для всех искателей, а затем для определенных сканеров. Если у вас установлена настройка файла robots.txt, то искатель будет использовать правила для всех искателей, а затем конкретного искателя, с правилами для конкретного искателя, переопределяющими правила для всех сканеров.

5. Разрешить всем доступ к сайту

Чтобы разрешить доступ ко всем страницам и каталогам, мы можем иметь пустой файл robots.txt или использовать следующий код в файле.

Код
User-Agent: *
Disallow:


6. Разрешить только одному искателю доступ к сайту

Чтобы разрешить доступ только одному искателю на сайт и запретить все другие сканеры.

Код
User-Agent: GoogleBot
Disallow:

User-Agent: *
Disallow: /


Это позволит только Googlebot и запретить всех других ботов.

7. Запретить всех с сайта

Чтобы запретить всем искателям с сайта использовать следующий код:

Код
User-Agent: *
Disallow: /


Примечание: Если вы сделаете это, чтобы сканер не мог сканировать ваш сайт, это может привести к тому, что сайт не будет проиндексирован в поисковых системах. Используйте это только в том случае, если вы действительно не хотите, чтобы ваш контент был проиндексирован где угодно.

8. Запретить доступ к определенным каталогам

Если вы хотите запретить доступ к определенным каталогам для всех ботов.

Код
User-Agent: *
Disallow: /disallow_access/
Disallow: /restricted/


Вышеупомянутый код даст указание всем сканерам не сканировать каталоги и ограниченные в вашем домене.

9. Запретить доступ к определенным ботам

Возможно, вы захотите запретить доступ к определенным ботам от доступа к вашему сайту

Код
User-Agent: Googlebot
Disallow: /restricted/


В приведенном выше коде указывается, что Googlebot не сканирует, так как ограниченный каталог в вашем домене. Если у вас есть только этот код в файле robots.txt, то только Googlebot будет проинструктирован не сканировать ограниченный каталог. Все остальные сканеры имеют доступ к этому каталогу.

10. Запретить разные боты из разных каталогов

Чтобы иметь разные правила для разных искателей, используйте следующее:

Код
User-Agent: *
Disallow:

User-Agent: Googlebot
Disallow: /restricted/

User-Agent: BadBot
Disallow: /disallow_access/


11. Скорость сканирования с задержкой

Вы можете отсрочить скорость, с которой искатель сканирует сайт. Это значение относительное со скоростью сканирования по умолчанию для этого конкретного искателя. Лучше не использовать это значение для обычных правильных ботов, поскольку они автоматически определяют максимальную скорость обхода вашего сайта.

Код
User-Agent: *
Crawl-delay: 1


Значение для Crawl-delay должно быть положительным целым числом. Если значение не указано, это означает использование скорости сканирования по умолчанию. Если значение равно 1, оно означает медленное сканирование, 5 очень медленных и 10 очень медленных. Это значение не влияет на частоту обхода сайта, но только то, как быстро он должен обрабатывать сайт при его обходе.

12 Укажите местоположение карты сайта

Вы можете указать местоположение вашей карты сайта в файле robots.txt.

Код
http://zornet.ru/sitemap.xml


Чтобы страница не индексировалась в поисковых системах, но позволяет искателю следить за ссылками, присутствующими на странице, использовать следующий тег на своей странице.

Код
<meta name="robots" content="noindex, follow">


Примечание: Все роботы не могут следовать за тегом, они могут игнорировать его.

В этом посте я попытался описать, что такое robots.txt, когда и как его использовать. Будьте осторожны при использовании, так как вы можете случайно запретить все сканеры с вашего сайта.
Страна: (RU)
Форум » Записки веб-разработчика » Начинающему вебмастеру » Как использовать файл robots.txt на сайте (Как создать правильный файл robots.txt, настройка, директивы)
  • Страница 1 из 1
  • 1
Поиск: