Как использовать файл Robots.txt для сайта - Форум

Новые сообщения
Участники
Правила форума
Поиск
RSS

Страница 1 из 1
1

Форум » Web-Раздел » Начинающему вебмастеру » Как использовать файл Robots.txt для сайта (Что такое robots.txt и зачем он вообще нужен на сайте)

Как использовать файл Robots.txt для сайта

Kosten

Четверг, 19 Апреля 2018 | Сообщение 1

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Файл robots.txt - это файл, который похожий на забор вокруг вашего двора. Некоторые заборы позволяют вам видеть, а другие построены, чтобы все убрать. Файл robos.txt находится в корневом каталоге вашего веб-сайта и указывает, какие части вашего веб-сайта вы используете или не хотите, чтобы поисковые роботы просматривали или получали доступ. Только этот файл, обычно весом не более нескольких байтов, может нести ответственность за создание или нарушение отношений вашего сайта с поисковыми системами.

Возможно, вы захотите заблокировать роботов от индексирования частных фотографий, специальных предложений или других страниц, которые вы не готовы для доступа к пользователям. Блокирующие страницы также могут помочь вашему SEO. Robots.txt может решить проблемы с дублирующимся контентом, однако могут быть более эффективные способы сделать это. Когда робот начинает сканирование, они сначала проверяют, установлен ли файл robots.txt, который не позволит им просматривать определенные страницы.

Robots часто встречается в корневом каталоге вашего сайта и существует для регулирования ботов, которые сканируют ваш сайт. Здесь вы можете предоставить или запретить разрешение всем или некоторым конкретным роботам поисковых систем для доступа к определенным страницам или вашему сайту в целом.

Когда следует использовать файл Robots.txt

Необходимо использовать файл robots.txt, если вы не хотите, чтобы поисковые системы индексировали определенные страницы или контент. Если вам нужны поисковые системы, например, Google, Bing и Yahoo, где для доступа и индексации всего вашего сайта, вам не нужен файл robots.txt, также в некоторых случаях люди используют файл robots, чтобы указать пользователям на карта сайта.

Однако, если другие сайты ссылаются на страницы вашего сайта, заблокированные robots.txt, поисковые системы могут по-прежнему индексировать адреса, и они могут отображаться в результатах поиска. Чтобы этого не произошло, используйте метку x-robots-tag, noindex meta tag или rel canonical на соответствующую страницу.

Причины, по которым вам может понадобиться файл robots.txt:

1. У вас есть контент, который вы хотите заблокировать из поисковых систем;
2. Вы разрабатываете сайт, который является живым, но вы не хотите, чтобы поисковые системы его индексировали;
3. Вы хотите точно настроить доступ к вашему сайту от авторитетных роботов;
4. Вы используете платные ссылки или рекламные объявления, для которых требуются специальные инструкции для роботов;
5. Они помогают вам следовать некоторым рекомендациям Google в некоторых ситуациях;

Причины, по которым вы не хотите иметь файл robots.txt:

1. Ваш сайт прост и свободен от ошибок, и вы хотите, чтобы все индексировалось;
2. У вас нет файлов, которые вы хотите или их нужно заблокировать из поисковых систем;
3. Вы не попадаете в ситуации, перечисленные выше, чтобы иметь файл robots.txt;
4. Это нормально, если у вас нет файла robots.txt;

Если у вас нет файла robots.txt, поисковые роботы, такие как Googlebot будут иметь полный доступ к вашему сайту. Это обычный и простой метод, который очень распространен.

Включение Robots.txt для улучшения SEO

Теперь, когда вы понимаете этот важный элемент SEO, проверьте свой собственный сайт, чтобы поисковые системы индексировали страницы, которые вы хотите, и игнорируете тех, кого хотите оставить вне результатов поиска. В дальнейшем вы можете продолжать использовать robot.txt для информирования поисковых систем о том, как они сканируют ваш сайт.

Блокирование дублирующегося содержимого

Вы можете исключить любые страницы, содержащие дублирующийся контент. Например, если вы предлагаете «печатные версии» некоторых страниц, вам не нужно, чтобы Google индексировал повторяющиеся версии, поскольку дублирующийся контент мог повредить вашему ранжированию.

Однако имейте в виду, что люди все еще могут посещать и ссылаться на эти страницы, поэтому если информация является типом, который вы не хотите видеть другим, вам необходимо использовать защиту паролем, чтобы сохранить его конфиденциальным. Это потому, что, вероятно, есть некоторые страницы, содержащие конфиденциальную информацию, которую вы не хотите показывать в SERP.

Как создать файл Robots.txt

Если хотите настроить файл robots.txt, процесс на самом деле довольно прост и включает в себя два элемента, это пользовательский агент, что является роботом, что применяется следующий блок URL, который вы хотите заблокировать. Эти две строки рассматриваются как одна запись в файле, что означает, что вы можете иметь несколько записей в одном файле robots.txt.

Для строки пользовательского агента вы можете указать конкретный бот или применить блок URL ко всем ботам, используя звездочку. Ниже приведен пример пользовательского агента, блокирующего все боты.

User-agent: *

Вторая строка в записи, то она перечисляет конкретные страницы, которые вы хотите заблокировать. Чтобы заблокировать весь сайт, используйте косую черту. Для всех других записей сначала используйте косую черту, а затем перечислите страницу, каталог, изображение или тип файла.

Следующие примеры:

Disallow: / блокирует весь сайт.

Disallow: /bad-directory/ блокирует как каталог, так и все его содержимое.

Disallow: /блокирует страницу.

После создания вашего пользовательского агента и запрета выбора, одна из ваших записей может выглядеть так:

User-agent: *
Disallow: /bad-directory/

Сохраните файл, скопировав его в текстовый файл или блокнот и сохраните как «robots.txt». Обязательно сохраните файл в каталоге самого высокого уровня вашего сайта и убедитесь, что он находится в корневом домене с именем, точно совпадающим с robots.

Как это работает

Проверьте файл robots.txt вашего сайта в инструментах для вебмастеров, чтобы убедиться, что боты сканируют части сайта, который вы хотите и избегаете заблокированных вами областей.

1. Выберите сайт, который вы хотите проверить;
2. Нажмите «Заблокированные URL адреса» в разделе Сканирование;
3. Выберите вкладку Test robots.txt;
4. Вставьте содержимое вашего robots.txt в первый блок;
5. Перечислите сайт для проверки в поле адреса;
6. Выберите пользовательские агенты в списке пользователь агенты;

Имейте в виду, что это проверит только робота Googlebot и других пользовательских агентов Google. Вы можете использовать robots для блокировки файлов ресурсов, таких как неважные изображения, сценарии или файлы стилей. Имейте в виду, если эти файлы необходимы для рендеринга вашего сайта, это может повлиять на доступность вашего сайта. Если файлы заблокированы, искатель не загрузит их, даже если вызывается на странице.

Прикрепления: 3344434.png (41.9 Kb) · 4762363.png (9.2 Kb) · 1333562.png (29.7 Kb) · 2379789.jpg (22.2 Kb) · 9417467.png (47.0 Kb)

Страна: (RU)

Nikas

Четверг, 19 Апреля 2018 | Сообщение 2

Проверенные

Сообщений:229

Награды: 3

« 112 »

код:

Код

User-agent: *
Allow: /*?page
Allow: /*?ref=
Allow: /stat/dspixel
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: http://ваш-сайт/sitemap.xml
Sitemap: http://ваш-сайт/sitemap-forum.xml

Kosten

Пятница, 20 Апреля 2018 | Сообщение 3

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Nikas, можно под поисковые системы поставить.

Код

User-agent: Yandex
Allow: /*?page
Allow: /*?ref=
Allow: /stat/dspixel
Disallow: /*?
Disallow: /?ssid=
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

User-agent: *
Allow: /*?page
Allow: /*?ref=
Allow: /stat/dspixel
Disallow: /*?
Disallow: /?ssid=
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Host: zornet.ru

Sitemap: http://zornet.ru/sitemap.xml
Sitemap: http://zornet.ru/sitemap-forum.xml

Страна: (RU)

Kosten

Среда, 23 Мая 2018 | Сообщение 4

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Файл robots.txt веб-сайта находится по адресу http: //сайт/robots.txt . Веб-сайт с по умолчанию robots.txt индексируется наилучшим образом - мы настраиваем файл таким образом, чтобы индексировались только страницы с контентом, а не все существующие страницы, например, страница входа или регистрации. Поэтому сайты uCoz индексируются лучше и получают более высокий приоритет по сравнению с другими сайтами, где индексируются все ненужные страницы.

Системный файл robots.txt

User-agent: *
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml

Описание каждой строчки файла robots.txt на uCoz

User-agent: * общее обращение ко всем сканерам, читающим файл robots.txt
Allow: /*?page разрешение страниц пагинации на главных страницах модулей
(связанно со строчкой Disallow: /*? )
Allow: /*?ref= нужна для правильной переиндексации компонентов социальной
регистрации
Disallow: /*? запрет к индексации поисковых запросов, кода безопасности
на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей
главной страницы и блога (компоненты кода системы, связанные с сессиями ssid),
дубли ссылок на изображения в фотоальбомах, других мусорных компонентов системы
Disallow: /stat/ запрет индексации компонента счетчика статистики (картинка с данными)
Disallow: /index/1 техническая страница входа
Disallow: /index/3 запрет индексации страницы регистрации (локальная регистрация)
Disallow: /register запрет индексации страницы регистрации (социальная и uID регистрация)
Disallow: /index/5 запрет к индексации аякс окна напоминания пароля в старой форме входа
Disallow: /index/7 служебная страница выбора аватара из коллекции
Disallow: /index/8 запрет к индексации профилей пользователей (один из способов защиты от спама)
Disallow: /index/9 запрет индексации аякс окна Доступ запрещен
Disallow: /index/sub/ запрет к индексации локальной авторизации
(связано со старой формой входа)
Disallow: /panel/ запрет к индексации входа в панель управления
Disallow: /admin/ запрет к индексации входа в панель управления
Disallow: /informer/ запрет к индексации информеров, вставленных скриптом
(при этом содержимое информеров, вставленных системным кодом $MYINF_х$
будет индексироваться свободно)
Disallow: /secure/ запрет на индексацию кода безопасности
(связано со строчкой Disallow: /*?)
Disallow: /poll/ запрет индексации служебной папки опросов
Disallow: /search/ запрет индексации страницы поиска,
тегов и поисковых запросов (связано со строчкой Disallow: /*?)
Disallow: /abnl/ запрет индексации компонентов системного
рекламного баннера (для сайтов с не отключенной рекламой)
Disallow: /*_escaped_fragment_= запрет технического компонента кода
Disallow: /*-*-*-*-987$ запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице
Disallow: /shop/checkout/ запрет к индексации корзины и кода оформления заказа для Интернет магазина
Disallow: /shop/user/ запрет к индексации пользователей магазина (субагенты)
Disallow: /*0-*-0-17$ запрет к индексации различных фильтров,
страниц материалов пользователя, ссылки на последнее сообщение форума, дублей системы и т.д
Disallow: /*-0-0- запрет к индексации страниц добавления материалов,
списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL),
страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума,
добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы
Sitemap: //адрес сайта/sitemap.xml общая карта сайта
Sitemap: //адрес сайта/sitemap-forum.xml карта форума
(оставлять в файле, если активирован модуль форум)
Sitemap: //адрес сайта/sitemap-shop.xml карта магазина
(прописывать только, если активирован модуль Интернет магазин)
Host: адрес сайта без https:// (прописывать, если прикреплен домен
для определения главного зеркала. дирректива прописывается в
любом месте роботса, предназначена для Яндекса, при этом
отдельное обращение к роботам Яндекса не нужно. Google игнорируется)

Страна: (RU)

Kosten

Среда, 23 Мая 2018 | Сообщение 5

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Часто задаваемые вопросы о Robots.txt

Информеры не индексируются, потому что они отображают информацию, которая УЖЕ существует. Как правило, эта информация уже проиндексирована на соответствующих страницах.

[info]Вопрос: Я случайно испортил robots.txt. Что мне делать?

Ответ: Удалите его. Файл robots.txt по умолчанию будет добавлен автоматически (система проверяет, есть ли у него сайт, а если нет - добавляет обратно файл по умолчанию).[/info]

[info]Вопрос: Существует ли какое-либо использование при отправке веб-сайта в поисковые системы, если карантин еще не удален?

Ответ: Нет, ваш сайт не будет индексироваться во время карантина.[/info]

[info]Вопрос: Будет ли автоматически заменен файл robots.txt после удаления карантина? Или я должен обновить его вручную?

Ответ: Он будет обновляться автоматически.[/info]

[info]Вопрос: Можно ли удалить файл robots.txt по умолчанию?

Ответ: Вы не можете удалить его, это системный файл, но вы можете добавить свой собственный файл. Однако мы не рекомендуем это делать, как было сказано выше. Во время карантина невозможно загрузить собственный файл robots.txt.[/info]

[info]Вопрос: Что мне делать, чтобы запретить индексирование следующих страниц?

_http://zornet.ru.com/index/0-4
_http://zornet.ru.com/index/0-5.

Ответ: добавьте следующие строки в файл robots.txt:

/ index / 0-4
/ индекс / 0-5
[/info]

[info]Вопрос: Я запретил индексирование некоторых ссылок с помощью robots.txt, но они все еще отображаются. Почему это так?

Ответ: С помощью robots.txt вы можете запретить индексирование страниц, а не ссылок.[/info]

[info]Вопрос: Я хочу внести некоторые изменения в файл robots.txt. Как я могу это сделать?

Ответ: Загрузите его на свой ПК, отредактируйте, а затем загрузите его через File Manager или FTP.[/info]

Страна: (RU)

Kosten

Пятница, 01 Октября 2021 | Сообщение 6

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Обновил robots.txt - где добавил некоторые элементы, где ниже будет описание. Здесь хотелось узнать, правильно или нужно как то по другому.

Ранее стоял на сайте этот robots.txt

Код

User-agent: *
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Host: zornet.ru

Sitemap: http://zornet.ru/sitemap.xml
Sitemap: http://zornet.ru/sitemap-forum.xml

Добавил новые элементы

В самый вверх

Можно добавить в самом начале файла роботс перед всем содержимым директиву с доступом для мобильного робота гугла:

Код

User-agent:Googlebot-Mobile
Allow: /

Это позволит мобильному роботу без проблем сканировать ваш сайт.

Далее:

С наших рекомендаций, после директив с доступом индексировать изображения сайта, стоит и добавить доступ к индексации шрифтов на сайте, чтобы роботы имели полный доступ к сайту и корректно его видели с шрифтами, которые на сайте подключены.

В роботс стоит добавить директивы:

[info]Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg[/info]

Это существенно улучшит отображение вашего сайта для поисковиков и они будут корректно видеть сайт с вашими шрифтами.

Далее

В дополнение, было замечено по отчетам с индексации яндекса, что робот посещает страницу регистрации и находит сгенерированные урл подобно /confirm/ и индексирует их. Для решения данной проблемы рекомендую в роботс добавить директиву:

[info]Disallow: /confirm/[/info]

Это сохранит ваш сайт от индексации мусора.

И крайнее изменение

Если вы не используете модуль Интернет-магазин, с файла роботс можно удалить следующие директивы:

[admin]Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search[/admin]

Это наоборот убрал из Robots.txt - так как интернет магазин не подключен.

Вот такой получился Robots.txt на сайте

Заменил на аналогичный, но с добавлением

[info]User-agent:Googlebot-Mobile
Allow: /
User-agent: *
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Allow: /*?page
Allow: /*?ref=
Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg
Disallow: /confirm/
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Host: zornet.ru

Sitemap: //zornet.ru/sitemap.xml
Sitemap: //zornet.ru/sitemap-forum.xml[/info]

PS - на Sitemap: убрал на форуме http: - так как автоматически ссылку выстраивает.

Источник: https://www.ucoz.ru/help/seo/decrypting-robots-file

Страна: (RU)

-SAM-

Суббота, 02 Октября 2021 | Сообщение 7

Друзья сайта

Сообщений:882

Награды: 40

« 595 »

Цитата Kosten (

)

Обновил robots.txt - где добавил некоторые элементы, где ниже будет описание. Здесь хотелось узнать, правильно или нужно как то по другому.

Kosten, важно понимать, что директивы в файл robots.txt прописываются, чтобы запретить доступ роботу к чему-то (или наоборот разрешить). Когда там прописано много директив, то он больше времени тратит на разбор.

Цитата Kosten (

)

Allow: /*.js
Allow: /*.css

Поменять на:

Код

Allow: /.s/*.js
Allow: /.s/*.css

Ведь там системные скрипты и стили после обнов делаются с прописанной версией (?v), а остальные на сайте и так разрешены для индексации.

Цитата Kosten (

)

Allow: /*.jpg
Allow: /*.png
Allow: /*.gif

Лишнее, поскольку нет модуля фотоальбом. У кого включен, то там выводятся уменьшенные копии изображений - в пути к ним идет ? и дальше цифры (вот и прописывается Allow для картинок, чтобы перекрыть директиву Disallow: /*?).

Цитата Kosten (

)

Allow: /*?ref=

Лично я советовал бы убрать (и убираю у себя). Не раз уже замечал, что пока разрешено, то загоняются "левые" ссылки (пример).

Цитата Kosten (

)

Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg

Можно убрать. Через инструмент проверки robots.txt того же Яндекса проверить ссылки на шрифты, что у вас указаны в стилях. То есть они и так не запрещены для индексации. Разве что оставить строчку Allow: /*.eot (в стилях идёт /.s/t/1321/fonts/PTS55F_W.eot?#iefix - то есть опять для противодействия директиве Disallow: /*? ... но файл и так просканирует, ведь есть ссылка без ? на этот шрифт).

Цитата Kosten (

)

Disallow: /confirm/

Как-то не встречал, чтобы это роботом обходилось (надо будет проверить у себя в Вебмастере). Описание смутило, если честно (ведь страница регистрации как раз запрещена для индексации). Как понял, то эта ссылка появляется для подтверждения e-mail пользователями. UPD.: не нашёл на сайте с локальной базой пользователей (а может из-за того, что там вход идёт всегда через /index/1), ну а на другом сайте с uID-поддержкой и социальным входом - есть такая фигня, соответственно запрет дописан был.

Цитата Kosten (

)

Disallow: /poll/

Это нужно, если включен блок опросов. У вас в коде его нет, посему можно убрать (если поисковый бот где-то всё же найдёт ссылку на опросы у вас на сайте, то тогда уж и вернете запрет).

Цитата Kosten (

)

Disallow: /search/

Можно сразу Disallow: /search (чтобы всю страницу, а не только результаты поиска). Один фиг, что для ПС там нет ничего интересного (эта страница не оптимизирована для них).

Цитата Kosten (

)

Disallow: /*-0-0-

Кто не знал, то для этой директивы они дают не совсем правильное пояснение у себя на оф. форуме, о чём уже говорил. Хорошо, что в руководстве хоть исправили, что эта директива не "Запрещает индексацию" "страницы с редиректами на ссылки на скачивание с удаленного сервера" (если еще на стороне системы не поставили там запрет, то нужно хотя бы у ссылки на удаленное скачивания сделать rel="nofollow" прямо у себя в шаблоне). Также по своему опыту скажу, что можно дописать:

Код

Disallow: /forum/*-0-*0-1

В своё время помогло решить проблему обхода роботом (Яндекс) ненужных страниц форума (всякие поисковые запросы, фильтры).

Цитата Kosten (

)

на Sitemap убрал http

Там не нужно было (и увидел, что вернули уже - правильно). Протокол убирать, если сайт по https работает (и убрано принудительное перенаправление на него, как понял). Нужно роботу сразу указывать протокол в адресе, который продвигается (ну и соответственно, если сайт будет с ssl, то пишется тогда Host: https://zornet.ru).

Помог? Скажи спасибо в виде "+" - вам мелочь, а мне приятно.
Бесплатное оказание помощи в ответах на "Вопросы про uCoz".

Сообщение отредактировал
-SAM- - Воскресенье, 03 Октября 2021, 03:31

Страна: (UA)

Kosten

Воскресенье, 03 Октября 2021 | Сообщение 8

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Здесь полностью согласен, где нужно закрыть, ведь не раз уже замечал, что ссылки индексируются.

[info]Allow: /*.js
Allow: /*.css[/info]
Поменять на:

[info]Allow: /.s/*.js
Allow: /.s/*.css[/info]

Теперь так Робос так выглядит

При проверке на Яндекс Веб-мастере

Прикрепления: 1651808.png (19.8 Kb)

Страна: (RU)

-SAM-

Воскресенье, 03 Октября 2021 | Сообщение 9

Друзья сайта

Сообщений:882

Награды: 40

« 595 »

Цитата Kosten (

)

Здесь полностью согласен, где нужно закрыть, ведь не раз уже замечал, что ссылки индексируются.

В этом случае не закрываем, а наоборот открываем (и только то, что не индексируется). А не накидать кучу разрешающих директив на то, что и так индексируется (или вообще чего нет на сайте). В общем, всё выше расписал уже.

UPD.:

Цитата Kosten (

)

Это - то что на других форумах могут ссылку на этот сайт прописать - так понял.

Причём здесь другие форумы? Директива для запрета обхода ненужных страниц на этом форуме. В любом случае, то оно неактивно же (закомментировано через #). В прошлом наблюдал картину, что робот Яндекса ходил по этим ссылкам, посему закрыл. Возможно, что уже пофиксили это (в самой системе uCoz), что директива не нужна. И я примера не вспомнил таких ссылок, как и не нашёл уже их в Вебмастере (если найду, то скину). То есть вам нужно проверять раздел "Страницы в поиске" Я.Вебмастер (там фильтры сделать и посмотреть, есть ли попытки обхода страниц с подобными адресами).

Сообщение отредактировал
-SAM- - Вторник, 05 Октября 2021, 20:33

Страна: (UA)

Kosten

Вторник, 05 Октября 2021 | Сообщение 10

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Цитата -SAM- (

)

Disallow: /forum/*-0-*0-1 - это следует включить в том случае, если есть непонятные ссылки на темы форума (с поисковыми словами-фильтрами).

Это - то что на других форумах могут ссылку на этот сайт прописать - так понял.

Спасибо, заменил!

Страна: (RU)

-SAM-

Среда, 20 Июля 2022 | Сообщение 11

Друзья сайта

Сообщений:882

Награды: 40

« 595 »

27.05.2022 - 07.07.2022 внесены обновления в систему:

Цитата Yuri_G ()

Обновлен системный файл robots.txt. Добавлены директивы Disallow: /confirm, Disallow: /register, Disallow: /register2, Disallow: /verify. Убран крайний слеш для директив (Disallow: /shop/order/ Disallow: /shop/printorder/ Disallow: /shop/checkout/ Disallow: /shop/user/).

То есть в нашем случае (в файле robots.txt сайта ZorNet) к Disallow: /register после дописываем еще:

Код

Disallow: /register2
Disallow: /verify

И у ранее нами и так прописанного Disallow: /confirm/ убираем крайный слеш (красным выделил; как стало ясно, то он не нужен).

Сообщение отредактировал
-SAM- - Среда, 20 Июля 2022, 02:38

Страна: (UA)

Kosten

Среда, 20 Июля 2022 | Сообщение 12

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Благодарю, исправил, но не кажется, что это для интернет магазина или для любой тематике нужны изменение?

Страна: (RU)

-SAM-

Пятница, 22 Июля 2022 | Сообщение 13

Друзья сайта

Сообщений:882

Награды: 40

« 595 »

Kosten, на ZorNet нет этого модуля, посему директива попросту убирается (выше писал про это всё). Изменения делаются в том случае, если используется свой файл robots.txt, что директивы прописанные отличаются от системных. У кого файла нет залитого, то система сама генерирует актуальный файл robots.txt. В общем, оно не касается тематики, это системные правки файла.

Если брать текущий файл на ZorNet, то он практически не отличается от системного (можете убедиться в этом сами, попросту посмотрев здесь, к примеру, где актуальный файл генерирует система сама). Мы лишь сократили его за счёт того, что нет всех модулей - здесь нет мини-чата, нет фотоальбома, нет и-нет магазина (в общем, по умолчанию система прописывает наперед все директивы, даже когда модуль еще не активирован).

И что касается вот этого:

Код

User-agent: Googlebot-Mobile
Allow: /
Disallow:

Можно убрать тоже, как писал выше. Поскольку мы даём разрешение на обход сайта этому роботу, а дальше идёт разрешение на обход всеми роботами. То есть, если бы были свои запрещающие директивы для обхода Googlebot-Mobile, то пропись нужна была бы, а так - директивы отсутствуют. И вот эту строчку:

Код

# Disallow: /forum/*-0-*0-1

Можно убрать, ведь всё равно она же сейчас не функционирует из-за прописанного # (то есть это как текст-комментарий идёт просто). Как выше писал, что строчка возможно понадобиться, когда в индекс залетал бы мусор на форуме по этому адресу (как видно, что с этим нет проблем... либо тогда была проблема конкретно на сайте, на котором я прописывал, либо же в системе исправили уже).

Сообщение отредактировал
-SAM- - Пятница, 22 Июля 2022, 04:03

Страна: (UA)

Kosten

Суббота, 23 Июля 2022 | Сообщение 14

Администраторы

Сообщений:44335

Награды: 70

« 555 »

Лучше не лксти, пока нормально, но если не трудно, -SAM-, можете прописать правильный какой правильный, просто когда по мелочи меняю, всегда что то не так, как и сейчас))) 07a

Страна: (RU)

Kosten

Воскресенье, 24 Июля 2022 | Сообщение 15

Администраторы

Сообщений:44335

Награды: 70

« 555 »

-SAM-, понимаю, это просто не активные, и идут как мусор.

Так получилось:

Но Host оставил, думаю не повредит.
Да еще верхние функции, их вероятно вообще не трогал.

Прикрепления: 3316524.jpg (27.9 Kb)

Страна: (RU)

Страница 1 из 1
1