» »

Правильно настраиваем robots.txt на ucoz


Правильно настраиваем robots.txt на ucoz

В интернете, нашел много ГЕНЕРАТОР ФАЙЛОВ ROBOTS.TXT что могу сказать о них. Да некоторые выдают robots.txt, но он не полный. Мой совет не доверять таким онлайн сервисом. Так как это главная часть индексация сайта. Как пропишите его, так и будит индексировать ваш сайт. Не которые так прописывают что robots.txt не пускают поисковых ботов чтоб индексировали сайт.

Мне на многих блогах и сайтов у которых тематика CEO. Скажу сразу а не обращаюсь на сайты ucoz за такими консультациями. В 99% вам там наобещают все исправить за ваши деньги. А будут исправлять и составлять школьники у которых шапочное знание и у них одна цель только деньги. Чайки епть, больше не могу их назвать.

И вот мне посоветовали с robots.txt убрать этот раздел.
Код
Disallow: /index/6

Как мне объяснили он там совсем не нужен.

Не которые на сайтах ucoz сне вообще предлагали убрать robots.txt. Да есть такие умника, как описал выше.
Спросите что будит если убрать, или у каго нет robots.txt.
Ну первым скажу у каго нет robots. Вы скажите в поиске много страниц, но вы посмотрите внимательно поисковые ссылки. Там больше хлама поискового. Это к примеру пользователи, их персональная страница и данные. И скажу оно вам надо. Кто пойдет по такой поисковый ссылке. Так как не имения файла robots боты поисковые копируют в поиск что первое попадется и чтоб была немного уникальное. А персональные страницы скажем они все уникальные, так как нет не одной похоже.

Что я хотел этой статьей сказать? Файл robots.txt он нужен на сайте, но настроен должен быть под ваш сайт. Как мне сказали на системе uCoz головника не надо поставить стандартный robots и не каких проблем.

Вот так выглядит стандартный robots.txt взят с официального сайта ucoz

Код
User-agent: *Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=

Sitemap: http://сайт/sitemap.xml
Sitemap: http://сайт/sitemap-forum.xml
Sitemap: http://сайт/sitemap-shop.xml


Но если у вас куплен домен, вам нужно прописать его в файле.
Код
Host: zornet.ru

Чтоб не было зеркало. Просто замените на свой сайт. Будит выглядеть так:

Код
User-agent: *Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=

Host: zornet.ru

Sitemap: http://сайт/sitemap.xml
Sitemap: http://сайт/sitemap-forum.xml
Sitemap: http://сайт/sitemap-shop.xml


Но вот как то так. Хлам в поиск пускать не будит, всем поисковым ботом разрешается зайти на ваш сайт и искать что то новое. Первое что они ищут ссылки новые потом описание.

Думаю понятно объяснил, если делаете оптимизацию сайта, мой совет спросите, будит ли изменение в файле robots.txt. Если чел ответит, что он и так настроен хорошо. Я бы такому человеку не доверил. Так как делается оптимизация сайта "Внутренне" Все равно связано с файлом.

Как правильно настроить robots.txt для uCoz



Вот таким образом мы запрещаем поисковым системам читать наши «sekretiki» (сам директория и адреса начинающие на нее под запретом):

Код
User-agent: *
Disallow: /sekretiki/


Спецсимволы и комментарии:

Для того, чтобы запретить только сам раздела без его содержимого, на конце ставится знак $:

Код
User-agent: *
Disallow: /sekretiki$


Таким образом, дирректория «/sekretiki» запрещены к индексации, но «/sekretiki.html» допустимы.

Для использования в адресе переменные, используйте звездочки:

Код
User-agent: *
Disallow: /sekretiki/*-0-0
Disallow: /news/17-*-0-*


С помощью этих символов, можно сделать правило на запрет индексирования страниц дублей:

Код
Disallow: /*&*


Код можно комментировать. Все что находится после # в строке не читается:

Код
User-agent: * # Приветствую всех роботов
Allow: /sekretiki/ # Разрешаю секретики
Disallow: / # Запрещаю индексировать все остальные страницы

User-agent: GoogleBot # Приветствую только робота Google
Disallow: /sekretiki/ # А вот ему я запрещаю именно секретики


Указываем карту сайта Sitemap:

Если не указать ссылку на карту сайта, то робот не сможет быстро индексировать сайт, новые страницы без sitemap.xml могут не попасть в индекс даже в течении нескольких месяцев.

uCoz сам генерирует карту сайта, в том числе и отдельную для форума, поэтому в конце robots.txt указаны такие строки:

Код
Sitemap: http://forum.ucoz.ru/sitemap.xml
Sitemap: http://forum.ucoz.ru/sitemap-forum.xml


Существуют и другой момент в robots.txt, называется Clean-param. Он позволит указать неиспользуемые параметры, не влияющие на содержимое страницы, чтобы робот не заходил на них лишний раз. В uCoz такой тонкой необходимости нет, мы сразу убираем дубли без указания конкретных параметров.

Если вы обнаружили, что на вашем сайте испорчен файл robots.txt, просто удалите его, при запросе система сама подставит правильный robots.txt. Это относится именно к специфики работы с uCoz.

Разбор стандартного robots.txt uCoz:

Теперь, когда вы знаете, из чего состоит файл robots.txt, перейдем к расшифровке стандартного:


  • User-agent: * — правила касаются всех ботов;

  • Allow: /*?page — разрешить индексировать страницы пагинации;

  • Allow: /*?ref= — разрешить доступ к страницам соц. авторизации;

  • Allow: /stat/dspixel — разрешить доступ к системному скрипту статистики;

  • Disallow: /*? — запретить индексировать URL с параметрами;

  • Disallow: /stat/ — запретить индексацию URL статистики;

  • Disallow: /index/1 — запретить индексацию Страницы входа;

  • Disallow: /index/3 — запретить индексацию страницы регистрации;

  • Disallow: /register — запретить индексацию страницы регистрации;

  • Disallow: /index/5 — запретить индексацию системного URL восстановления пароля;

  • Disallow: /index/7 — запретить индексацию системного Меню аватарок;

  • Disallow: /index/8 — запретить индексацию пользовательских профилей;

  • Disallow: /index/9 — запретить индексацию системного URL Истории репутации;

  • Disallow: /index/sub/ — запретить индексацию системного URL;

  • Disallow: /panel/ — запретить индексацию ПУ;

  • Disallow: /admin/ — запретить индексацию ПУ;

  • Disallow: /informer/ — запретить индексацию системных информеров;

  • Disallow: /secure/ — запретить индексацию системной капчи;

  • Disallow: /poll/ — запретить индексацию опросов;

  • Disallow: /search/ — запретить индексацию страниц поиска;

  • Disallow: /abnl/ — запретить индексацию системных URL;

  • Disallow: /*_escaped_fragment_= — дополнительный запрет на индексацию системных URL;

  • Disallow: /*-*-*-*-987$ — запрет дублей страниц в модулях Новости
    и Блог, связанных с кодом комментариев на странице;

  • Disallow: /shop/checkout/ — запрет на индексацию Корзины для модуля uShop;

  • Disallow: /shop/user/ — запрет на индексацию пользовательских профилей для модуля uShop;

  • Disallow: /*0-*-0-17$ — дополнительный запрет на индексацию системных URL;

  • Disallow: /*-0-0- — запрет к индексации страниц добавления материалов,
    списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL),
    страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума,
    добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы;

  • Sitemap: http://вашсайт.ru/sitemap.xml — ссылка на общую карту сайта;

  • Sitemap: http://вашсайт.ru/sitemap-forum.xml — ссылка на карту форума;

  • Sitemap: http://вашсайт.ru/sitemap-shop.xml — ссылка на карту магазина.

03.09.2015 Просмотров: 502 Комментарий: (12)

Поделиться в социальных сетях

Материал разместил

Комментарий: 9
Canon
Canon 05.09.2015 03:521
0
Но как понимаю на сайте или системе ucoz проблем нет, они когда обновляют на блоге выкладывают, другое дело знать, что самому закрыть, чтоб не попало в интернет.
Kosten
Kosten 05.09.2015 04:042
0
Но что можно закрыть самому, так лучше по скайпу обсудить, главное чтоб профили не лезли в поиск, но они закрыты в роботе.
acn
acn 27.04.2016 18:213
0
Привет, подскажи пожалуйста, если нужно вот такая строчка
Disallow: /search/
Как правильно её нужно открыть?
или можно просто удалить её с файла robots.txt
Сопрано
Сопрано 27.04.2016 19:314
0
acn, а зачем вы поиск хотите открыть для индексации, это лишние страницы в поиске, которые не чего не несут, а только вес у других забирают, так что пусть он будет закрыт.
acn
acn 27.04.2016 21:275
0
Да не, так все остальное правильно сделано
Просто поиск нужен, там тэги год выпуска стоят на старые игры,
Например 1999, 2008, 2009, и т.д.
Тобиш получается материал некоторые игры или фильмы ищут игра такая-то такая-то 1997 года
А у меня сделано получается, что года не только поиск по сайт при нажатии ...
Kosten
Kosten 27.04.2016 22:226
0
Не чего не понял. поиск не ищет эти года, так это значит теги не прописаны были, здесь robots вообще не причем, так как не активирует поиск.
acn
acn 27.04.2016 22:367
0
ааа, понятно, подскажи пожалуйста как можно закрыть модуль /video/ ?
у меня раньше он стоял, но я его удалил, так как он мне не ненужен совсем,
однако робот почему-то его считает, но выдает за ошибку

http://upload.akusherstvo.ru/image1004270.jpg
Kosten
Kosten 27.04.2016 22:408
0
Как и все модули, удалить и секретное слово. Если он еще появляется веб мастере, так это долго будет, не все быстро будет исчезать и роботы поисковые туда не заходят, так как вы закрыли каталог.
acn
acn 27.04.2016 22:429
0
Понятно, Спасибо!
avatar