Categories: seo

Что такое файл Robots.txt? Настройка, спецсимволы и директивы Allow/Disallow, Sitemap, Host, User-agent

  Управление поисковым роботом

При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть — т.е. то, как поисковые роботы ведут себя при его индексации.

Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого — Robots.txt.

Что такое Robots.txt?

Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.

Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.

Перейдите по аналогичному адресу для своего сайта, если ничего не открылось — значит у вас данного файла нет Пора это исправить.

Но сначала посмотрите креативное видео от Яндекса.

Robots.txt — предохраняйтесь!

Таким образом, создание данного файла  — дело очень простое: создаём обычный текстовый документ, открываем его стандартным блокнотом (или Notepad++) и настраиваем.

Правильная настройка Robots.txt

Заключается она, прежде всего, в прописывании специальных директив. Основные из них:

  1. User-agent — к какому роботу адресованы указания. Нужно иметь в виду, что это именно отдельный робот поисковой системы, а не весь поисковик. Так, например, User-agent: Googlebot — обращение к поисковому пауку Гугла, а  если вместо Googlebot написать Mediapartners-Google, — то это уже обращение к роботу сети контекстной рекламы AdSense.
  2. Disallow — запретить индексировать страницу или раздел сайта.
  3. Allow — разрешить это делать.
  4. Host — указание главного зеркала сайта (как правило, это домен с www или без www). Данная директива учитывается, в основном, только роботами Яндекса. Но использование этого без манипуляций с .htaccess ничего не гарантирует
  5. Sitemap — указывает местоположение .xml карты сайта.

Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.

Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет — тоже.

Специальных символов всего 2:

  • *
  • $

Звёздочка (*) обозначает «последовательность любых символов» (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:

Disallow: *ggg

вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.

Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,

Disallow: *ggg$

то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.

Можно встретить записи и без этих спецсимволов, например:

Disallow: /bad-category/

Но на самом деле, эта запись аналогична Disallow: /bad-category/* — будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами — запрещены все страницы из категории bad-category.

Кстати, файл Robots.txt содержит ещё один спецсимвол — # — но это уже обычный комментарий.

Взаимодействие Allow и Disallow

Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:

Allow: /cat/

Disallow: /cat/

— всё-таки будут индексироваться страницы раздела /cat/.

А иначе — приоритетней та директива, адрес у которой длиннее. Например:

Disallow: /cat/

Allow: /cat/page.html

— такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.

Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать

Disallow: # ничего не запрещать

или

Allow: / # всё разрешить

Вот пример какого-нибудь файла Robots.txt:

User-agent: *                                                                 # обратились ко всем роботам

Disallow: /some-category/           # запретили индексировать категорию some-category,

Allow: /some-category/good-page.html      # но разрешили индексировать страницу good-page.html в ней

User-agent: Yandex                                                 # повторяем всё для Яндекса…

Disallow: /some-category/

Allow: /some-category/good-page.html

Host: site.ru                                                     # …с указанием главного зеркала

Sitemap: http://site.ru/sitemap.xml               # в конце указываем путь к .xml-карте сайта

Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса — не обязателен — так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..

Также для справки: help.yandex.ru/webmaster/?id=996567.

Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не «спрячемся» от более-менее опытных пользователей (знающих о файле).

Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки — индексацию целых разделов сайта и т.п.

Пётр

View Comments

  • Хороший материал!
    Много спрашивают, буду ссылаться!

  • Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова. Возможно,информация будет полезной %)

    • Надо ж сколько однофамильцев!

      Довольно странное понятие мой тёзка применяет к этому файлу - "актуальность".
      Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
      В Яндексе только кое-что поменялось 9 марта 2012 года - http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html

      Кстати, на данный момент у Сергея что-то там не то... http://berimaksimum.ru/robots.txt

      • По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:"Истина где-то рядом".И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
        Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно. ;)

        • Пётр, не зачем контраргументы приводить.
          Это будет похоже на спор.

          Вот такая штука Disallow: /20*
          закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.

          Почему это так - как раз и написано в данной моей статье.

          • Привет, Пётр!
            Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
            Критика директивы Disallow: /20* в том,
            что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
            У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?

          • Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста - это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!

          • А комменты спасибо-пожалуйста – это на любителя. Я лучше выслушаю конструктивную критику и приму меры.

            - поддерживаю.

            Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу "Как действовать в определённой ситуации по таким-то инструкциям".

            Ситуация - конкретный сайт.
            Инструкция - правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.

            Для конкретного сайта - конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.

            Ну а насчёт того, что этот файл скоро станет не актуальным - не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.

            Можно сказать, что скоро конец Света - тогда практически всё уже почти потеряло былую актуальность :).

            Успехов!

  • Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.

    Бывает, спрошу что-нибудь в поисковике, почитаю - только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.

    Огромное Вам спасибо!

  • Шикарная статья, помогла разобраться что к чему.
    Спасибо автору и Яндексу за прикольный мультик :-D .

Recent Posts

  • Заработок в Интернет

Рейтинг интернет казино: ТОП заведений с высокими оценками экспертов

Начинающие геймеры часто недооценивают опасности, связанные с беспечным отношением к выбору онлайн казино. (далее…)

2 года ago
  • Заработок в Интернет

Рейтинг лучших казино для игры на реальные деньги: как начать играть в игровые автоматы?

Онлайн казино - место где уместна игра на реальные деньги, что является главной причиной интереса большинства людей. (далее…)

2 года ago
  • Браузеры

Ферма stealth аккаунтов. Как быстро начать и главное зачем?

В данном топике описан процесс создания и управления большим количеством аккаунтов (или stealth ферма), предназначенных для работы с репутацией и…

2 года ago
  • Браузеры

Gologin — антидетект приложение для масштабирования ферм stealth аккаунтов

Ключевая задача антидетект браузера - обеспечить пользователя функционалом, позволяющим выглядеть в глазах поисковых и антифрод систем реальным пользователем, а не…

2 года ago
  • Заработок в Интернет

Лучшие покер румы: как выбрать надёжную комнату по рейтингу

Подбор площадки для азартных игр должен быть объективным и осознанным. Если пользователь хочет сократить время на поиск, то рискует попасть…

2 года ago
  • Заработок в Интернет

Рейтинг казино: как выбрать лучший бренд для игры на деньги

Большинство игроков выбирают для ставок на реальные деньги первое понравившееся интернет-казино. Однако скоропалительные решения часто приводят к негативным последствиям. (далее…)

2 года ago