Что такое файл Robots.txt? Настройка, спецсимволы и директивы Allow/Disallow, Sitemap, Host, User-agent

файл Robots.txt

  Управление поисковым роботом

При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть – т.е. то, как поисковые роботы ведут себя при его индексации.

Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого – Robots.txt.

Видео по правильной настройке этого файла можно посмотреть в этом уроке курса по SEO – http://seo4all.web-ru.net/kurs/#l3. А сейчас я подробнее распишу синтаксис данного файла и прочие вещи.

Что такое Robots.txt?

Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.

Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.

Перейдите по аналогичному адресу для своего сайта, если ничего не открылось – значит у вас данного файла нет :). Пора это исправить.

Но сначала посмотрите креативное видео от Яндекса.

Robots.txt – предохраняйтесь!

Таким образом, создание данного файла  – дело очень простое: создаём обычный текстовый документ, открываем его стандартным блокнотом (или Notepad++) и настраиваем.

Правильная настройка Robots.txt

Заключается она, прежде всего, в прописывании специальных директив. Основные из них:

  1. User-agent – к какому роботу адресованы указания. Нужно иметь в виду, что это именно отдельный робот поисковой системы, а не весь поисковик. Так, например, User-agent: Googlebot – обращение к поисковому пауку Гугла, а  если вместо Googlebot написать Mediapartners-Google, – то это уже обращение к роботу сети контекстной рекламы AdSense.
  2. Disallow – запретить индексировать страницу или раздел сайта.
  3. Allow – разрешить это делать.
  4. Host – указание главного зеркала сайта (как правило, это домен с www или без www). Данная директива учитывается, в основном, только роботами Яндекса. Но использование этого без манипуляций с .htaccess ничего не гарантирует (об .htaccess – в том же видео).
  5. Sitemap – указывает местоположение .xml карты сайта.

Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.

Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет – тоже.

Специальных символов всего 2:

  • *
  • $

Звёздочка (*) обозначает “последовательность любых символов” (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:

Disallow: *ggg

вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.

Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,

Disallow: *ggg$

то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.

Можно встретить записи и без этих спецсимволов, например:

Disallow: /bad-category/

Но на самом деле, эта запись аналогична Disallow: /bad-category/* – будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами – запрещены все страницы из категории bad-category.

Кстати, файл Robots.txt содержит ещё один спецсимвол – # – но это уже обычный комментарий.

Взаимодействие Allow и Disallow

Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:

Allow: /cat/

Disallow: /cat/

– всё-таки будут индексироваться страницы раздела /cat/.

А иначе – приоритетней та директива, адрес у которой длиннее. Например:

Disallow: /cat/

Allow: /cat/page.html

– такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.

Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать

Disallow: # ничего не запрещать

или

Allow: / # всё разрешить

Вот пример какого-нибудь файла Robots.txt:

User-agent: *                                                                 # обратились ко всем роботам

Disallow: /some-category/           # запретили индексировать категорию some-category,

Allow: /some-category/good-page.html      # но разрешили индексировать страницу good-page.html в ней

User-agent: Yandex                                                 # повторяем всё для Яндекса…

Disallow: /some-category/

Allow: /some-category/good-page.html

Host: site.ru                                                     # …с указанием главного зеркала

Sitemap: http://site.ru/sitemap.xml               # в конце указываем путь к .xml-карте сайта

Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса – не обязателен – так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..

Также для справки: http://help.yandex.ru/webmaster/?id=996567.

Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не “спрячемся” от более-менее опытных пользователей (знающих о файле).

Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки – индексацию целых разделов сайта и т.п.

web-ru.net - всё о продвижении сайтов
Случайные публикации:
  • Делаем правильный Robots.txt для Google и ЯндексаДелаем правильный Robots.txt для Google и ЯндексаИ снова о Гугле. Что-то он удивляет меня в последнее время... В одной из преды...
  • Как настроить цели в Яндекс.Метрике? Теория и примерыКак настроить цели в Яндекс.Метрике? Теория и примеры...ны на Конверсионные и Ретаргетинговые. Но на самом деле, все новые цели будут
  • phpMyAdmin в Денвере. Создание базы данных и пример подключения БД к сайту в Denwer. Видео урокphpMyAdmin в Денвере. Создание базы данных и пример подключения БД к сайту в Denwer. Видео урок...) P.S. Этот видео урок решил залить на видеохостинг Vimeo.com.
  • SEO-плагин Page Promoter Bar для Firefox. Скачивание, установка, настройкиSEO-плагин Page Promoter Bar для Firefox. Скачивание, установка, настройкиВ одной из своих статей я разбирал особенности плагина для Google Chrome...
  • Целевой трафик на сайт: лучше меньше, да лучше!Целевой трафик на сайт: лучше меньше, да лучше!В пятницу, 8 ноября 2013, обнаружил в статистике Яндекс метрики, что совершен...
Оставьте комментарий:
Отзывов всего: 20
Через сайт Через ВКонтакте Через Facebook
  1. Сергей пишет:

    Хороший материал!
    Много спрашивают, буду ссылаться!

    Ответить
  2. Петр Балашов пишет:

    Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова http://berimaksimum.ru/my-sait/aktualnyiy-fayl-robots-txt-2012 .Возможно,информация будет полезной %)

    Ответить
    • Пётр пишет:

      Надо ж сколько однофамильцев!

      Довольно странное понятие мой тёзка применяет к этому файлу – “актуальность”.
      Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
      В Яндексе только кое-что поменялось 9 марта 2012 года – http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html

      Кстати, на данный момент у Сергея что-то там не то… http://berimaksimum.ru/robots.txt

      Ответить
      • Петр Балашов пишет:

        По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:”Истина где-то рядом”.И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
        Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно. ;)

        Ответить
        • Пётр пишет:

          Пётр, не зачем контраргументы приводить.
          Это будет похоже на спор.

          Вот такая штука Disallow: /20*
          закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.

          Почему это так – как раз и написано в данной моей статье.

          Ответить
          • Петр Балашов пишет:

            Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста – это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!

            Ответить
            • Пётр пишет:

              А комменты спасибо-пожалуйста – это на любителя. Я лучше выслушаю конструктивную критику и приму меры.

              – поддерживаю.

              Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу “Как действовать в определённой ситуации по таким-то инструкциям”.

              Ситуация – конкретный сайт.
              Инструкция – правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.

              Для конкретного сайта – конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.

              Ну а насчёт того, что этот файл скоро станет не актуальным – не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.

              Можно сказать, что скоро конец Света – тогда практически всё уже почти потеряло былую актуальность :).

              Успехов!

              Ответить
          • Сергей Куприянов пишет:

            Привет, Пётр!
            Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
            Критика директивы Disallow: /20* в том,
            что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
            У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?

            Ответить
  3. Елена пишет:

    Опять интересная статья! Спасибочки!

    Ответить
  4. Юлия Пономарева пишет:

    Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.

    Бывает, спрошу что-нибудь в поисковике, почитаю – только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.

    Огромное Вам спасибо!

    Ответить
    • Пётр пишет:

      Благодарю, Юлия. Очень приятно :).

      С праздником ;)

      Ответить
  5. Seo West пишет:

    Шикарная статья, помогла разобраться что к чему.
    Спасибо автору и Яндексу за прикольный мультик :-D .

    Ответить
  6. Lana пишет:

    Спасибо! *IN LOVE*

    Ответить
  7. Виталий пишет:

    Полезная статья. Спасибо

    Ответить
  8. Achi пишет:

    хароший сайт, сп

    Ответить
сайт web-ru.net
Я не спамлю...