Что такое файл Robots.txt? Настройка, спецсимволы и директивы Allow/Disallow, Sitemap, Host, User-agent
Управление поисковым роботом
При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть — т.е. то, как поисковые роботы ведут себя при его индексации.
Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого — Robots.txt.
Что такое Robots.txt?
Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.
Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.
Перейдите по аналогичному адресу для своего сайта, если ничего не открылось — значит у вас данного файла нет Пора это исправить.
Но сначала посмотрите креативное видео от Яндекса.
Robots.txt — предохраняйтесь!
Правильная настройка Robots.txt
Заключается она, прежде всего, в прописывании специальных директив. Основные из них:
- User-agent — к какому роботу адресованы указания. Нужно иметь в виду, что это именно отдельный робот поисковой системы, а не весь поисковик. Так, например, User-agent: Googlebot — обращение к поисковому пауку Гугла, а если вместо Googlebot написать Mediapartners-Google, — то это уже обращение к роботу сети контекстной рекламы AdSense.
- Disallow — запретить индексировать страницу или раздел сайта.
- Allow — разрешить это делать.
- Host — указание главного зеркала сайта (как правило, это домен с www или без www). Данная директива учитывается, в основном, только роботами Яндекса. Но использование этого без манипуляций с .htaccess ничего не гарантирует
- Sitemap — указывает местоположение .xml карты сайта.
Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.
Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет — тоже.
Специальных символов всего 2:
- *
- $
Звёздочка (*) обозначает «последовательность любых символов» (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:
Disallow: *ggg
вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.
Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,
Disallow: *ggg$
то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.
Можно встретить записи и без этих спецсимволов, например:
Disallow: /bad-category/
Но на самом деле, эта запись аналогична Disallow: /bad-category/* — будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами — запрещены все страницы из категории bad-category.
Кстати, файл Robots.txt содержит ещё один спецсимвол — # — но это уже обычный комментарий.
Взаимодействие Allow и Disallow
Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:
Allow: /cat/
Disallow: /cat/
— всё-таки будут индексироваться страницы раздела /cat/.
А иначе — приоритетней та директива, адрес у которой длиннее. Например:
Disallow: /cat/
Allow: /cat/page.html
— такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.
Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать
Disallow: # ничего не запрещать
или
Allow: / # всё разрешить
Вот пример какого-нибудь файла Robots.txt:
User-agent: * # обратились ко всем роботам
Disallow: /some-category/ # запретили индексировать категорию some-category,
Allow: /some-category/good-page.html # но разрешили индексировать страницу good-page.html в ней
User-agent: Yandex # повторяем всё для Яндекса…
Disallow: /some-category/
Allow: /some-category/good-page.html
Host: site.ru # …с указанием главного зеркала
Sitemap: http://site.ru/sitemap.xml # в конце указываем путь к .xml-карте сайта
Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса — не обязателен — так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..
Также для справки: help.yandex.ru/webmaster/?id=996567.
Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не «спрячемся» от более-менее опытных пользователей (знающих о файле).
Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки — индексацию целых разделов сайта и т.п.
Что такое feedproxy.google.com в ссылках на Feedburner и как это убрать?Недавно я описал способ "склейки" RSS-ленты сайта и рассылки на Subscr...
Снова изменения в Wordstat - авторизация в Яндексе...няется - не очень ясно. Возможно, таким образом Яндекс затрудняет парсинг
Какая должна быть уникальность текста для хорошего ранжирования?В последнее время много уже написал об уникальном контенте и текст...
Как заказать пластиковую карту QIWI Visa Plastic (QVP)Оказалось, что тема "превращения" в одно целое пластиковой карты и эл...
Как в Dropbox получить прямую ссылку на файл? Папка Public и др. папки в Дропбокс, укорачивание ссылкиДанной статьёй думаю завершить тему, связанную с сервисом Dropbox...
Хороший материал!
Много спрашивают, буду ссылаться!
Рад, что нравится
Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова. Возможно,информация будет полезной %)
Надо ж сколько однофамильцев!
Довольно странное понятие мой тёзка применяет к этому файлу — «актуальность».
Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
В Яндексе только кое-что поменялось 9 марта 2012 года — http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html
Кстати, на данный момент у Сергея что-то там не то… http://berimaksimum.ru/robots.txt
По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:»Истина где-то рядом».И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно.
Пётр, не зачем контраргументы приводить.
Это будет похоже на спор.
Вот такая штука Disallow: /20*
закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.
Почему это так — как раз и написано в данной моей статье.
Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста — это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!
— поддерживаю.
Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу «Как действовать в определённой ситуации по таким-то инструкциям».
Ситуация — конкретный сайт.
Инструкция — правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.
Для конкретного сайта — конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.
Ну а насчёт того, что этот файл скоро станет не актуальным — не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.
Можно сказать, что скоро конец Света — тогда практически всё уже почти потеряло былую актуальность
Успехов!
Привет, Пётр!
Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
Критика директивы Disallow: /20* в том,
что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?
Привет, Сергей!
Что за разделители?
Опять интересная статья! Спасибочки!
Пожалуйста, Елена =)
Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.
Бывает, спрошу что-нибудь в поисковике, почитаю — только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.
Огромное Вам спасибо!
Благодарю, Юлия. Очень приятно
С праздником
Шикарная статья, помогла разобраться что к чему.
.
Спасибо автору и Яндексу за прикольный мультик
Да, в Яндексе обычно всё креативно =)
Спасибо! *IN LOVE*
Полезная статья. Спасибо
хароший сайт, сп
пож)