• Страница 1 из 1
  • 1
Составления Файл robots.txt на сайте uCoz
Kosten
Воскресенье, 30 Декабря 2012, 00:56 | Сообщение 1
Оффлайн
Администраторы
Сообщений:44445
Награды: 70
В этой теме не шарил, это пока не переволочил массу литературы и не поучаствовал в прениях на форумах. И выяснил одно, и хочу поделиться. Очень часто возникает вопрос о том, как правильно настроить этот файл.

Открою вам секрет - он уже настроен автоматически самой системой и его не нужно изменять. Вот так выглядит стандартный файл robots.txt на системе ucoz в пример сайт zornet.ru



[info]User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search

Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml
Sitemap: /sitemap-shop.xml [/info]

Это стандартный robots.txt

Отсюда мы можем видеть, что закрыты от индексации все системные регистры, профили, чат, результаты поиска, админка, информеры и другое. Также в этом файле указаны пути к карте самого сайта, форума и магазина. Этот вариант такого файла самый удачный, так как в индекс будет попадать только контент, а не куча ненужного мусора и профили пользователей.

Так же можно создать самому карту под названием urllist.txt и прописать его в robots, это будит выглядит так, а это простое добавление Sitemap, где к примеру на Google- Вебмастер они выводятся.

[info]User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search

Sitemap: /urllist.txt
Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml
Sitemap: /sitemap-shop.xml [/info]

На сколько понимаю и слышал, что основном urllist.txt создают для поисковой системы Яндекса.

Он у меня раньше был, где его создал и прописал так как показано выше и в веб-мастере Google и Яндекс тоже прописал. Но какова то изменения не почувствовал, и где то вычитал что он не актуален на сей момент, что пришлось удалить.

Вот как то так. Поправьте если где то ошибся!
Прикрепления: 3426456.jpg (14.3 Kb)
Страна: (RU)
Kosten
Среда, 03 Апреля 2013, 10:42 | Сообщение 2
Оффлайн
Администраторы
Сообщений:44445
Награды: 70
Правильный robots.txt для uCoz и быстрая индексация сайта


Всем здравствуйте!
В этой статье я расскажу как правильно заточить документ robots.txt под поисковые системы и как быстро попасть в индекс поисковых систем.
Ну начнем:
1. Создание robots.txt под uCoz

Рассмотрим основные теги этого документа:
Disallow: это дистрибутив запрещающий индексацию страницы или каталога.
Allow: это дистрибутив разрешающий индексацию страницы или каталога.
Таким образом мы можем запретить индексацию любого каталога,но разрешить индексацию некоторых страниц тогоже каталога.
Возьмем для примера модуль Каталог файлов
Каталог модуля расположен поадресу /load/
Если поставить:

Код
Disallow: /load/

То каталог файлов у нас индексироватся не будет,но если нам нужны 2-3 странички этого каталога из всех (к примеру всего 10)
То в robots.txt пишем следующий строки:
Код
Allow: /load/адрес страницы


Внимание: строки с разрешением индексации страницы должны быть выше чем строка с запрещением индекса каталога.
Пример:

Код
Allow: /load/адрес страницы     
Allow: /load/адрес страницы     
Allow: /load/адрес страницы     
Disallow: /load/


Таким образом у нас будет индексироватся только те страницы которые указаны под тегом Allow
Теперь разберемся с тегом User-agent
это тег открывающий информацию о боте для которого будут доступны настройки всего того что ниже.
Тег User-agent ставится в самом верху и после него указывается имя бота для проверки
например:

Код
User-agent: uBot


Но если вы хотите указать для каждого бота поисковой системы,либо каталога сайтов и т.п. один и тот же дистрибутив, то ставим следущий тег:

Код
User-agent: *


И ниже перечисляем запреты и открытия разных страниц и каталогов.
Итак основная работа сделана и уже можно использовать этот документ для всех ботов, но если вы хотите лучшей индексации сайта и лучшего отоброжения его поисковым системам, лучше вписать еще такие строки:

Код
Sitemap:http://www.имя.домен/sitemap.xml     
Sitemap:http://www.имя.домен/sitemap-forum.xml


Это адресация на стандартные карты сайта системы uCoz, если у вас есть свой карта сайта, впишите свою.
Далее тоже не маловажно указать основной домен сайта.
(Если у вас стандартный домен от uCoz то вам ничего делать ненадо)
Если же вы прикрепили какой то домен к сайту, к примеру возьмем net.ru
Он будет отображаться поисковикам как зеркальный домен и будет хуже индексироватся чем основной.
Поэтому многие ошибочно говорят что net.ru и другие подобные домены хуже индексируются чем стандартные от uCoz.
Для того что бы поисковый бот определил прикрепленный домен как основной нам надо прописать в robots.txt такую строчку:
Host: www.имя-сайта.домен
Пример:
Код
Host: zornet.ru

Также есть еще много всего,но это особо ненужно и уже по этой инструкции можно составить отличный robots.txt для поисковиков.
Пример готового robots.txt для uCoz:
Код
User-agent: *     
Disallow: /a/     
Disallow: /stat/     
Disallow: /index/1     
Disallow: /index/2     
Disallow: /index/3     
Disallow: /index/5     
Disallow: /index/7     
Disallow: /index/8     
Disallow: /index/9     
Disallow: /panel/     
Disallow: /admin/     
Disallow: /secure/     
Disallow: /informer/     
Disallow: /mchat     
Disallow: /search     

Host: zornet.ru    
Sitemap:http://zornet.ru/sitemap.xml     
Sitemap:http://zornet.ru/sitemap-forum.xml


Так с robots.txt разобрались.

2.Теперь разберемся со скоростью индексации сайта созданного в системе uCoz.

На uCoz есть такая штука под название Карантин
Подробнее о нем можно узнать тут: http://forum.ucoz.ru/forum/21-13447-1
Ну а теперь и я расскажу все что знаю про этот карантин:
После создания каждого сайта у него есть некоторые ограничения, одним из них является закрипление стандартного robots.txt
и его к сожалению никак нельзя отредактировать... если залить свой в корень сайта, тоже останется стандартный.
Казалось бы ну и что в том, что он стандартный?
Да ничего хорошего, в нем прописана такая строка:

Код
User-agent: *     
Disallow: /

Эта строка запрещает всем поисковым системам индексировать ваш сайт.
Итак как же снять карантин?
есть 3 способа
1) По каким то не умным действиям администрация uCoz снимает карантин если сайт хорошо посещается. Но они не подумали как он будет хорошо посещатся если он закрыт для индекса.
2) Подождать отведенное время карантину (1-2 месяца)
3) Приобрести Премиум аккаунт (любой).
Вот в админке видем такой тариф:
Базовый ($3.09)
Если его приобрести, у нас автоматически снимается карантин и мы можем спокойно заявить поисковикам о нашем сайте.
Спасибо за внимание
Страна: (RU)
Капитан
Суббота, 06 Апреля 2013, 17:25 | Сообщение 3
Оффлайн
Проверенные
Сообщений:291
Награды: 3
Половину из этого знал, но все равно Спасибо
Страна: (RU)
Kosten
Суббота, 06 Апреля 2013, 19:29 | Сообщение 4
Оффлайн
Администраторы
Сообщений:44445
Награды: 70
Капитан, но ты знал, возможно кто то не в курсе. Вот как раз это подспорье cool
Страна: (RU)
Kosten
Вторник, 09 Мая 2023, 03:19 | Сообщение 5
Оффлайн
Администраторы
Сообщений:44445
Награды: 70
Если не ошибаюсь, то сейчас актуальным также остается такой robots, но разве только можно Host убрать, так как он не чего по сути не дает. А сама конфигурация robots не менялось, и с одной стороны хорошо, что нашли то середину, что позволяет файлу работать.

[info]User-agent: *
Allow: /.s/*.js
Allow: /.s/*.css
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /register2
Disallow: /verify
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /confirm
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Host: zornet.ru

Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml [/info]
Страна: (RU)
-SAM-
Вторник, 09 Мая 2023, 07:08 | Сообщение 6
Оффлайн
Друзья сайта
Сообщений:893
Награды: 40
Host как раз нужная пропись, если у вашего сайта прикреплен собственный домен, на который идёт приоритет индексации (а не на "зеркало" в виде системного поддомена uCoz), как и указывается в ней протокол https:// перед доменным именем, если у сайта прикреплен SSL-сертификат. И на самом деле система время от времени вносит поправки в этот файл. Вообще, если не знать за что каждая директива отвечает, то лучше не лезть самому в правку robots.txt. Поскольку система автоматически формирует на своём сервере этот файл (если не заливать себе в ФМ сайта его, не вносить правки - файл будет серверный, а значит всегда актуальный, что система вносит в него обновления). На этот счёт полностью уже разбор был в данной теме (и там далее я объяснял).





Помог? Скажи спасибо в виде "+" - вам мелочь, а мне приятно.
Бесплатное оказание помощи в ответах на "Вопросы про uCoz".


Сообщение отредактировал
-SAM- - Вторник, 09 Мая 2023, 08:29
Страна: (UA)
  • Страница 1 из 1
  • 1
Поиск: