Что такое файл Robots.txt? Настройка, спецсимволы и директивы Allow/Disallow, Sitemap, Host, User-agent

файл Robots.txt

  Управление поисковым роботом

При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть — т.е. то, как поисковые роботы ведут себя при его индексации.

Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого — Robots.txt.

Что такое Robots.txt?

Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.

Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.

Перейдите по аналогичному адресу для своего сайта, если ничего не открылось — значит у вас данного файла нет :). Пора это исправить.

Но сначала посмотрите креативное видео от Яндекса.

Robots.txt — предохраняйтесь!

Таким образом, создание данного файла  — дело очень простое: создаём обычный текстовый документ, открываем его стандартным блокнотом (или Notepad++) и настраиваем.

Правильная настройка Robots.txt

Заключается она, прежде всего, в прописывании специальных директив. Основные из них:

  1. User-agent — к какому роботу адресованы указания. Нужно иметь в виду, что это именно отдельный робот поисковой системы, а не весь поисковик. Так, например, User-agent: Googlebot — обращение к поисковому пауку Гугла, а  если вместо Googlebot написать Mediapartners-Google, — то это уже обращение к роботу сети контекстной рекламы AdSense.
  2. Disallow — запретить индексировать страницу или раздел сайта.
  3. Allow — разрешить это делать.
  4. Host — указание главного зеркала сайта (как правило, это домен с www или без www). Данная директива учитывается, в основном, только роботами Яндекса. Но использование этого без манипуляций с .htaccess ничего не гарантирует
  5. Sitemap — указывает местоположение .xml карты сайта.

Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.

Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет — тоже.

Специальных символов всего 2:

  • *
  • $

Звёздочка (*) обозначает «последовательность любых символов» (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:

Disallow: *ggg

вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.

Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,

Disallow: *ggg$

то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.

Можно встретить записи и без этих спецсимволов, например:

Disallow: /bad-category/

Но на самом деле, эта запись аналогична Disallow: /bad-category/* — будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами — запрещены все страницы из категории bad-category.

Кстати, файл Robots.txt содержит ещё один спецсимвол — # — но это уже обычный комментарий.

Взаимодействие Allow и Disallow

Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:

Allow: /cat/

Disallow: /cat/

— всё-таки будут индексироваться страницы раздела /cat/.

А иначе — приоритетней та директива, адрес у которой длиннее. Например:

Disallow: /cat/

Allow: /cat/page.html

— такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.

Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать

Disallow: # ничего не запрещать

или

Allow: / # всё разрешить

Вот пример какого-нибудь файла Robots.txt:

User-agent: *                                                                 # обратились ко всем роботам

Disallow: /some-category/           # запретили индексировать категорию some-category,

Allow: /some-category/good-page.html      # но разрешили индексировать страницу good-page.html в ней

User-agent: Yandex                                                 # повторяем всё для Яндекса…

Disallow: /some-category/

Allow: /some-category/good-page.html

Host: site.ru                                                     # …с указанием главного зеркала

Sitemap: http://site.ru/sitemap.xml               # в конце указываем путь к .xml-карте сайта

Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса — не обязателен — так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..

Также для справки: help.yandex.ru/webmaster/?id=996567.

Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не «спрячемся» от более-менее опытных пользователей (знающих о файле).

Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки — индексацию целых разделов сайта и т.п.

1 Star2 Stars3 Stars4 Stars5 Stars (1 оценок, среднее: 5,00 из 5)
Loading...
Случайные публикации:
  • Создание, раскрутка и продвижение сайта. В чём суть и для чего это нужно?Создание, раскрутка и продвижение сайта. В чём суть и для чего это нужно?...Facebook) и не содержит в себе т.н. вирусного эффекта (эффекта вирусной рекламы) то
  • Немного нового в SEO: покупаем вечные ссылки в рассрочку - обзор биржи GoGetTop.ruНемного нового в SEO: покупаем вечные ссылки в рассрочку - обзор биржи GoGetTop.ruДумаю, пора перестать отдыхать от летнего отдыха и опубликовать что-нибудь новое....
  • Самые популярные поисковые запросы РунетаСамые популярные поисковые запросы РунетаВ наш, как его называют, информационный, век характер общества можно оп...
  • Что делать, если плагин WordPress не устанавливается через админку?Что делать, если плагин WordPress не устанавливается через админку?...жно внести ещё порцию информации. В самый его конец добавляем следующее: if(is_admin()) {
  • Какой хостинг выбрать? На что обратить внимание, выбирая хостинг для сайта (мощность сервера, технологии, цены, uptime...)Какой хостинг выбрать? На что обратить внимание, выбирая хостинг для сайта (мощность сервера, технологии, цены, uptime...)Выбирая хостинг для своего будущего проекта в Интернете, желательно определ...
Оставьте комментарий:
комментариев 20
  1. Сергей:

    Хороший материал!
    Много спрашивают, буду ссылаться!

    Ответить
  2. Петр Балашов:

    Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова. Возможно,информация будет полезной %)

    Ответить
    • Пётр:

      Надо ж сколько однофамильцев!

      Довольно странное понятие мой тёзка применяет к этому файлу — «актуальность».
      Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
      В Яндексе только кое-что поменялось 9 марта 2012 года — http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html

      Кстати, на данный момент у Сергея что-то там не то… http://berimaksimum.ru/robots.txt

      Ответить
      • Петр Балашов:

        По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:»Истина где-то рядом».И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
        Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно. ;)

        Ответить
        • Пётр:

          Пётр, не зачем контраргументы приводить.
          Это будет похоже на спор.

          Вот такая штука Disallow: /20*
          закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.

          Почему это так — как раз и написано в данной моей статье.

          Ответить
          • Петр Балашов:

            Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста — это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!

            Ответить
            • Пётр:

              А комменты спасибо-пожалуйста – это на любителя. Я лучше выслушаю конструктивную критику и приму меры.

              — поддерживаю.

              Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу «Как действовать в определённой ситуации по таким-то инструкциям».

              Ситуация — конкретный сайт.
              Инструкция — правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.

              Для конкретного сайта — конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.

              Ну а насчёт того, что этот файл скоро станет не актуальным — не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.

              Можно сказать, что скоро конец Света — тогда практически всё уже почти потеряло былую актуальность :).

              Успехов!

              Ответить
          • Сергей Куприянов:

            Привет, Пётр!
            Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
            Критика директивы Disallow: /20* в том,
            что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
            У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?

            Ответить
  3. Елена:

    Опять интересная статья! Спасибочки!

    Ответить
  4. Юлия Пономарева:

    Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.

    Бывает, спрошу что-нибудь в поисковике, почитаю — только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.

    Огромное Вам спасибо!

    Ответить
    • Пётр:

      Благодарю, Юлия. Очень приятно :).

      С праздником ;)

      Ответить
  5. Seo West:

    Шикарная статья, помогла разобраться что к чему.
    Спасибо автору и Яндексу за прикольный мультик :-D .

    Ответить
  6. Lana:

    Спасибо! *IN LOVE*

    Ответить
  7. Виталий:

    Полезная статья. Спасибо

    Ответить
  8. Achi:

    хароший сайт, сп

    Ответить
Я не спамлю...