Что такое файл Robots.txt? Настройка, спецсимволы и директивы Allow/Disallow, Sitemap, Host, User-agent

Управление поисковым роботом

При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть — т.е. то, как поисковые роботы ведут себя при его индексации.

Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого — Robots.txt.

Что такое Robots.txt?

Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.

Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.

Перейдите по аналогичному адресу для своего сайта, если ничего не открылось — значит у вас данного файла нет Пора это исправить.

Но сначала посмотрите креативное видео от Яндекса.

Robots.txt — предохраняйтесь!

Таким образом, создание данного файла — дело очень простое: создаём обычный текстовый документ, открываем его стандартным блокнотом (или Notepad++) и настраиваем.

Правильная настройка Robots.txt

Заключается она, прежде всего, в прописывании специальных директив. Основные из них:

User-agent — к какому роботу адресованы указания. Нужно иметь в виду, что это именно отдельный робот поисковой системы, а не весь поисковик. Так, например, User-agent: Googlebot — обращение к поисковому пауку Гугла, а если вместо Googlebot написать Mediapartners-Google, — то это уже обращение к роботу сети контекстной рекламы AdSense.
Disallow — запретить индексировать страницу или раздел сайта.
Allow — разрешить это делать.
Host — указание главного зеркала сайта (как правило, это домен с www или без www). Данная директива учитывается, в основном, только роботами Яндекса. Но использование этого без манипуляций с .htaccess ничего не гарантирует
Sitemap — указывает местоположение .xml карты сайта.

Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.

Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет — тоже.

Специальных символов всего 2:

Звёздочка (*) обозначает «последовательность любых символов» (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:

Disallow: *ggg

вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.

Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,

Disallow: *ggg$

то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.

Можно встретить записи и без этих спецсимволов, например:

Disallow: /bad-category/

Но на самом деле, эта запись аналогична Disallow: /bad-category/* — будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами — запрещены все страницы из категории bad-category.

Кстати, файл Robots.txt содержит ещё один спецсимвол — # — но это уже обычный комментарий.

Взаимодействие Allow и Disallow

Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:

Allow: /cat/

Disallow: /cat/

— всё-таки будут индексироваться страницы раздела /cat/.

А иначе — приоритетней та директива, адрес у которой длиннее. Например:

Disallow: /cat/

Allow: /cat/page.html

— такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.

Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать

Disallow: # ничего не запрещать

или

Allow: / # всё разрешить

Вот пример какого-нибудь файла Robots.txt:

User-agent: * # обратились ко всем роботам

Disallow: /some-category/ # запретили индексировать категорию some-category,

Allow: /some-category/good-page.html # но разрешили индексировать страницу good-page.html в ней

User-agent: Yandex # повторяем всё для Яндекса…

Disallow: /some-category/

Allow: /some-category/good-page.html

Host: site.ru # …с указанием главного зеркала

Sitemap: http://site.ru/sitemap.xml # в конце указываем путь к .xml-карте сайта

Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса — не обязателен — так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..

Также для справки: help.yandex.ru/webmaster/?id=996567.

Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не «спрячемся» от более-менее опытных пользователей (знающих о файле).

Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки — индексацию целых разделов сайта и т.п.

(1 оценок, среднее: 5,00 из 5)

Случайные публикации:

Как запустить таргетированную рекламу сезонного товара...больше узнать о форматах рекламной платформы myTarget — читайте наш обзор. Картинки
Уникальные тексты статей на сайте - важно ли?...уникальными текстами (и контентом вообще) ранжировались бы выше остальных - именно в этом
Аннулирование тИЦ в Яндексе. Или как быстро узнать, что ваш сайт под фильтром АГС...В декабре 2013-го я рассказывал о том, как может выглядеть попада...
Купить хороший домен в зоне RU или РФ, РУСЯ всегда задумывался, в какой доменной зоне купить домен. Обычно я в...
РСЯ - рекламная сеть Яндекса. Profit-Partner.ru: обзор, регистрация и добавление сайта в ЦОП Яндекса. ВидеоВ одной из статей я затронул тему привлечения посетителей на сайты чер...

Дата: 16.06.2012 |

Web-Ru.net › рубрика ➨✔➨ ❝seo❞+

| 20 комментариев | автор: Пётр

Оставьте комментарий:

комментариев 20

Сергей:

17 июня 2012 в 6:18

Хороший материал!
Много спрашивают, буду ссылаться!

Ответить
- Пётр:
  
  17 июня 2012 в 20:22
  
  Рад, что нравится
  
  Ответить
Петр Балашов:

18 июня 2012 в 12:03

Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова. Возможно,информация будет полезной %)

Ответить
- Пётр:
  
  18 июня 2012 в 15:36
  
  Надо ж сколько однофамильцев!
  
  Довольно странное понятие мой тёзка применяет к этому файлу — «актуальность».
  Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
  В Яндексе только кое-что поменялось 9 марта 2012 года — http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html
  
  Кстати, на данный момент у Сергея что-то там не то… http://berimaksimum.ru/robots.txt
  
  Ответить
  - Петр Балашов:
    
    18 июня 2012 в 16:49
    
    По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:»Истина где-то рядом».И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
    Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно.
    
    Ответить
    - Пётр:
      
      12 октября 2012 в 11:06
      
      Пётр, не зачем контраргументы приводить.
      Это будет похоже на спор.
      
      Вот такая штука Disallow: /20*
      закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.
      
      Почему это так — как раз и написано в данной моей статье.
      
      Ответить
      - Петр Балашов:
        
        12 октября 2012 в 12:04
        
        Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста — это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!
        
        Ответить
        
        Пётр:
        
        12 октября 2012 в 23:49
        
        А комменты спасибо-пожалуйста – это на любителя. Я лучше выслушаю конструктивную критику и приму меры.
        
        — поддерживаю.
        
        Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу «Как действовать в определённой ситуации по таким-то инструкциям».
        
        Ситуация — конкретный сайт.
        Инструкция — правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.
        
        Для конкретного сайта — конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.
        
        Ну а насчёт того, что этот файл скоро станет не актуальным — не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.
        
        Можно сказать, что скоро конец Света — тогда практически всё уже почти потеряло былую актуальность
        
        Успехов!
        
        Ответить
      - Сергей Куприянов:
        
        13 января 2013 в 14:18
        
        Привет, Пётр!
        Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
        Критика директивы Disallow: /20* в том,
        что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
        У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?
        
        Ответить
        
        Пётр:
        
        15 января 2013 в 15:54
        
        Привет, Сергей!
        Что за разделители?
        
        Ответить
Елена:

18 июня 2012 в 13:36

Опять интересная статья! Спасибочки!

Ответить
- Пётр:
  
  18 июня 2012 в 15:29
  
  Пожалуйста, Елена =)
  
  Ответить
Юлия Пономарева:

5 марта 2013 в 17:46

Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.

Бывает, спрошу что-нибудь в поисковике, почитаю — только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.

Огромное Вам спасибо!

Ответить
- Пётр:
  
  8 марта 2013 в 16:49
  
  Благодарю, Юлия. Очень приятно
  
  С праздником
  
  Ответить
Seo West:

29 сентября 2013 в 16:28

Шикарная статья, помогла разобраться что к чему.
Спасибо автору и Яндексу за прикольный мультик .

Ответить
- Пётр:
  
  30 сентября 2013 в 0:56
  
  Да, в Яндексе обычно всё креативно =)
  
  Ответить
Lana:

19 декабря 2014 в 18:53

Спасибо! *IN LOVE*

Ответить
Виталий:

19 июля 2015 в 6:51

Полезная статья. Спасибо

Ответить
Achi:

6 октября 2015 в 11:54

хароший сайт, сп

Ответить
- Пётр:
  
  17 октября 2015 в 3:48
  
  пож)
  
  Ответить