Что такое файл Robots.txt? Настройка, спецсимволы и директивы Allow/Disallow, Sitemap, Host, User-agent

файл Robots.txt

  Управление поисковым роботом

При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть — т.е. то, как поисковые роботы ведут себя при его индексации.

Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого — Robots.txt.

Видео по правильной настройке этого файла можно посмотреть в этом уроке курса по SEO — http://seo4all.web-ru.net/kurs/#l3. А сейчас я подробнее распишу синтаксис данного файла и прочие вещи.

Что такое Robots.txt?

Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.

Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.

Перейдите по аналогичному адресу для своего сайта, если ничего не открылось — значит у вас данного файла нет :). Пора это исправить.

Но сначала посмотрите креативное видео от Яндекса.

Robots.txt — предохраняйтесь!

Таким образом, создание данного файла  — дело очень простое: создаём обычный текстовый документ, открываем его стандартным блокнотом (или Notepad++) и настраиваем.

Правильная настройка Robots.txt

Заключается она, прежде всего, в прописывании специальных директив. Основные из них:

  1. User-agent — к какому роботу адресованы указания. Нужно иметь в виду, что это именно отдельный робот поисковой системы, а не весь поисковик. Так, например, User-agent: Googlebot — обращение к поисковому пауку Гугла, а  если вместо Googlebot написать Mediapartners-Google, — то это уже обращение к роботу сети контекстной рекламы AdSense.
  2. Disallow — запретить индексировать страницу или раздел сайта.
  3. Allow — разрешить это делать.
  4. Host — указание главного зеркала сайта (как правило, это домен с www или без www). Данная директива учитывается, в основном, только роботами Яндекса. Но использование этого без манипуляций с .htaccess ничего не гарантирует (об .htaccess — в том же видео).
  5. Sitemap — указывает местоположение .xml карты сайта.

Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.

Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет — тоже.

Специальных символов всего 2:

  • *
  • $

Звёздочка (*) обозначает «последовательность любых символов» (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:

Disallow: *ggg

вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.

Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,

Disallow: *ggg$

то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.

Можно встретить записи и без этих спецсимволов, например:

Disallow: /bad-category/

Но на самом деле, эта запись аналогична Disallow: /bad-category/* — будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами — запрещены все страницы из категории bad-category.

Кстати, файл Robots.txt содержит ещё один спецсимвол — # — но это уже обычный комментарий.

Взаимодействие Allow и Disallow

Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:

Allow: /cat/

Disallow: /cat/

— всё-таки будут индексироваться страницы раздела /cat/.

А иначе — приоритетней та директива, адрес у которой длиннее. Например:

Disallow: /cat/

Allow: /cat/page.html

— такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.

Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать

Disallow: # ничего не запрещать

или

Allow: / # всё разрешить

Вот пример какого-нибудь файла Robots.txt:

User-agent: *                                                                 # обратились ко всем роботам

Disallow: /some-category/           # запретили индексировать категорию some-category,

Allow: /some-category/good-page.html      # но разрешили индексировать страницу good-page.html в ней

User-agent: Yandex                                                 # повторяем всё для Яндекса…

Disallow: /some-category/

Allow: /some-category/good-page.html

Host: site.ru                                                     # …с указанием главного зеркала

Sitemap: http://site.ru/sitemap.xml               # в конце указываем путь к .xml-карте сайта

Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса — не обязателен — так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..

Также для справки: http://help.yandex.ru/webmaster/?id=996567.

Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не «спрячемся» от более-менее опытных пользователей (знающих о файле).

Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки — индексацию целых разделов сайта и т.п.

web-ru.net - всё о продвижении сайтов
Случайные публикации:
  • Проверка аффилиат-фильтра и признаки аффилированности сайтовПроверка аффилиат-фильтра и признаки аффилированности сайтовВ продолжение всё той же темы чёрного SEO напишу том, как можно...
  • Что такое абсолютная ссылка и относительная ссылкаЧто такое абсолютная ссылка и относительная ссылка...URL, а именно об абсолютных и относительных ссылках. Ведь всё в интернете -
  • Что такое виртуальный хостинг для сайта, выделенный (VDS) и виртуальный (VPS) сервер, коллокация (collocation) и облачный хостингЧто такое виртуальный хостинг для сайта, выделенный (VDS) и виртуальный (VPS) сервер, коллокация (collocation) и облачный хостинг...находятся проекты других клиентов, которые оказывают очень большую нагрузку
  • Как продать сайт на бирже Telderi - продажа сайта под АГСКак продать сайт на бирже Telderi - продажа сайта под АГСНе так давно я продал 2 своих сайта, которые были под АГС-фильтром Яндекса....
  • Что такое URL адрес сайта? Параметры и допустимые символы URLЧто такое URL адрес сайта? Параметры и допустимые символы URL...Затем каждый из этих байтов преобразуется в шестнадцатиричную систему
Оставьте комментарий:
комментариев 20
Через сайт Через ВКонтакте Через Facebook
  1. Сергей:

    Хороший материал!
    Много спрашивают, буду ссылаться!

    Ответить
  2. Петр Балашов:

    Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова http://berimaksimum.ru/my-sait/aktualnyiy-fayl-robots-txt-2012 .Возможно,информация будет полезной %)

    Ответить
    • Пётр:

      Надо ж сколько однофамильцев!

      Довольно странное понятие мой тёзка применяет к этому файлу — «актуальность».
      Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
      В Яндексе только кое-что поменялось 9 марта 2012 года — http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html

      Кстати, на данный момент у Сергея что-то там не то… http://berimaksimum.ru/robots.txt

      Ответить
      • Петр Балашов:

        По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:»Истина где-то рядом».И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
        Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно. ;)

        Ответить
        • Пётр:

          Пётр, не зачем контраргументы приводить.
          Это будет похоже на спор.

          Вот такая штука Disallow: /20*
          закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.

          Почему это так — как раз и написано в данной моей статье.

          Ответить
          • Петр Балашов:

            Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста — это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!

            Ответить
            • Пётр:

              А комменты спасибо-пожалуйста – это на любителя. Я лучше выслушаю конструктивную критику и приму меры.

              — поддерживаю.

              Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу «Как действовать в определённой ситуации по таким-то инструкциям».

              Ситуация — конкретный сайт.
              Инструкция — правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.

              Для конкретного сайта — конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.

              Ну а насчёт того, что этот файл скоро станет не актуальным — не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.

              Можно сказать, что скоро конец Света — тогда практически всё уже почти потеряло былую актуальность :).

              Успехов!

              Ответить
          • Сергей Куприянов:

            Привет, Пётр!
            Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
            Критика директивы Disallow: /20* в том,
            что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
            У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?

            Ответить
  3. Елена:

    Опять интересная статья! Спасибочки!

    Ответить
  4. Юлия Пономарева:

    Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.

    Бывает, спрошу что-нибудь в поисковике, почитаю — только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.

    Огромное Вам спасибо!

    Ответить
    • Пётр:

      Благодарю, Юлия. Очень приятно :).

      С праздником ;)

      Ответить
  5. Seo West:

    Шикарная статья, помогла разобраться что к чему.
    Спасибо автору и Яндексу за прикольный мультик :-D .

    Ответить
  6. Lana:

    Спасибо! *IN LOVE*

    Ответить
  7. Виталий:

    Полезная статья. Спасибо

    Ответить
  8. Achi:

    хароший сайт, сп

    Ответить
сайт web-ru.net
Я не спамлю...