При SEO-оптимизации сайта кроме обычного наполнения страниц контентом, необходимо учитывать и техническую часть — т.е. то, как поисковые роботы ведут себя при его индексации.
Чтобы их поведение более-менее регулировалось волей хозяина сайта, существует основной файл для этого — Robots.txt.
Это специальный текстовый (о чём говорит его расширение .txt) файл, в котором содержатся буквально указания всем или только конкретным поисковым роботам. Находиться он должен в корневом каталоге сайта, иными словами, открываться по адресу http://site.ru/robots.txt.
Основные указания роботам таковы: запретить индексацию и разрешить индексацию страниц(ы) сайта.
Перейдите по аналогичному адресу для своего сайта, если ничего не открылось — значит у вас данного файла нет
Но сначала посмотрите креативное видео от Яндекса.
Заключается она, прежде всего, в прописывании специальных директив. Основные из них:
Желательно, чтобы в самом файле директивы следовали бы в таком же порядке, как и в списке выше.
Для правильной настройки файла Robots.txt необходимо понимать, как использовать т.н. спецсимволы. Если вы знакомы с тем, что такое регулярные выражения, то всё очень просто. Если нет — тоже.
Специальных символов всего 2:
Звёздочка (*) обозначает «последовательность любых символов» (в том числе, и отсутствие символов). Например, указав в Robots.txt такую строчку:
Disallow: *ggg
вы запретите к индексации страницы, содержащие в своём URL последовательность ggg. Не будут индексироваться страницы с адресами http://site.ru/anything/ggg.html и http://site.ru/qqqgggwww/page.php.
Доллар ($) обозначает окончание строки. Если при настройке Robots.txt вы напишите, например,
Disallow: *ggg$
то будет запрещена индексация страниц, URL которых заканчивается на ggg. Не будет происходить индексация страниц с адресами http://site.ru/anything/wwwqqqggg и http://site.ru/page.ggg.
Можно встретить записи и без этих спецсимволов, например:
Disallow: /bad-category/
Но на самом деле, эта запись аналогична Disallow: /bad-category/* — будут запрещены к индексации все страницы сайта, адреса которых начинаются с /bad-category/, а заканчиваются вообще не важно чем. Иными словами — запрещены все страницы из категории bad-category.
Кстати, файл Robots.txt содержит ещё один спецсимвол — # — но это уже обычный комментарий.
Стоит добавить, что при совпадении указаний в разрешающей и запрещающей директивах приоритет отдаётся Allow. Например, при такой записи:
Allow: /cat/
Disallow: /cat/
— всё-таки будут индексироваться страницы раздела /cat/.
А иначе — приоритетней та директива, адрес у которой длиннее. Например:
Disallow: /cat/
Allow: /cat/page.html
— такая запись запрещает индексировать все страницы раздела /cat/, но позволяет индексировать страницу /cat/page.html.
Кстати, если мы ничего не хотим запрещать к индексации на своём сайте, то всё равно необходимо прописать
Disallow: # ничего не запрещать
или
Allow: / # всё разрешить
Вот пример какого-нибудь файла Robots.txt:
User-agent: * # обратились ко всем роботам
Disallow: /some-category/ # запретили индексировать категорию some-category,
Allow: /some-category/good-page.html # но разрешили индексировать страницу good-page.html в ней
User-agent: Yandex # повторяем всё для Яндекса…
Disallow: /some-category/
Allow: /some-category/good-page.html
Host: site.ru # …с указанием главного зеркала
Sitemap: http://site.ru/sitemap.xml # в конце указываем путь к .xml-карте сайта
Вот так просто выполняется правильная настройка Robots.txt для любого сайта. Повтор для Яндекса — не обязателен — так уж исторически сложилось. Можно обойтись и без него, но традиции есть традиции..
Также для справки: help.yandex.ru/webmaster/?id=996567.
Следует ещё добавить, что запрещая индексировать какую-нибудь страницу в Роботс.тхт, мы, как правило, хотим, чтобы её не увидел пользователь. Но, указав конкретно её в данном файле, мы не «спрячемся» от более-менее опытных пользователей (знающих о файле).
Для того, чтобы закопаться по полной, лучше использовать мета-тег Robots, который прописывается прямо в коде страницы. А в файле Robots.txt желательно прописывать глобальные настройки — индексацию целых разделов сайта и т.п.
Начинающие геймеры часто недооценивают опасности, связанные с беспечным отношением к выбору онлайн казино. (далее…)
Онлайн казино - место где уместна игра на реальные деньги, что является главной причиной интереса большинства людей. (далее…)
В данном топике описан процесс создания и управления большим количеством аккаунтов (или stealth ферма), предназначенных для работы с репутацией и…
Ключевая задача антидетект браузера - обеспечить пользователя функционалом, позволяющим выглядеть в глазах поисковых и антифрод систем реальным пользователем, а не…
Подбор площадки для азартных игр должен быть объективным и осознанным. Если пользователь хочет сократить время на поиск, то рискует попасть…
Большинство игроков выбирают для ставок на реальные деньги первое понравившееся интернет-казино. Однако скоропалительные решения часто приводят к негативным последствиям. (далее…)
View Comments
Хороший материал!
Много спрашивают, буду ссылаться!
Рад, что нравится :)
Статья полезная для понимания принципа построения файла.С точки же актуальности самого файла был очень интересный разбор на сайте Вашего фамильного тезки Сергея Куприянова. Возможно,информация будет полезной %)
Надо ж сколько однофамильцев!
Довольно странное понятие мой тёзка применяет к этому файлу - "актуальность".
Роботс.тхт не терял и не приобретал актуальности с момента своего появления =)
В Яндексе только кое-что поменялось 9 марта 2012 года - http://web-ru.net/prodvizhenie-sajta/seo/novye-pravila-v-robots-txt-dlya-yandeksa.html
Кстати, на данный момент у Сергея что-то там не то... http://berimaksimum.ru/robots.txt
По поводу что-то там не то я бы не стал так категорично.Любое утверждение не может быть признано неверным до тех пор,пока аргументированно не будет доказано обратное.Было бы интересно и полезно для рядовых пользователей ознакомиться с контраргументами по поводу обустройства данного файла.Как говорится в известном фильме-:"Истина где-то рядом".И хотелось бы иметь действительно хорошо сделанный файл.Без солидных аргументов очень похоже на бой гиппопотамов-кто шире рот откроет,тот и сильнее.(второй вариант не рассматривается ввиду неприглядности процесса).
Возможно,стоит ознакомиться с текстом приведенной в ссылке статьи и небесполезными комментариями и предложить свое видение вопроса.Народу было бы крайне интересно. ;)
Пётр, не зачем контраргументы приводить.
Это будет похоже на спор.
Вот такая штука Disallow: /20*
закроет не только архивы типа site.ru/2011/ и site.ru/2012/ и т.п., но и страницы вида site.ru/20fsdfmsdfklsdfk, site.ru/20/34/2sdf/234/23sdfa423/4 и т.д.
Почему это так - как раз и написано в данной моей статье.
Привет, Пётр!
Волею случая здесь оказался и вижу обсуждение директив файла robots.txt.
Критика директивы Disallow: /20* в том,
что она закроет от индексации не только архивы, но и придуманные несуществующие адреса гипотетических страниц мне не понятна.
У меня вопрос: почему ваш файл robots.txt содержит группы директив для разных ботов, но все директивы написаны одной зоной без разделителей?
Привет, Сергей!
Что за разделители?
Ладно, в принципе, я просто всегда стараюсь достаточно добросовестно относиться к комментированию и предпочитаю рассматривать различные мнения. Истина все равно окажется посередине. А комменты спасибо-пожалуйста - это на любителя. Я лучше выслушаю конструктивную критику и приму меры. Впрочем, мне сейчас недосуг разбираться в проблеме, боюсь что и файл роботс скоро станет неактуальным в связи с современной направленностью на контент. Успехов!
- поддерживаю.
Суть в том, что вопрос создания правильного Robots.txt не относится к вопросам поиска истины. Скорее, его можно отнести к вопросу "Как действовать в определённой ситуации по таким-то инструкциям".
Ситуация - конкретный сайт.
Инструкция - правила в файле. Т.к. эти правила придуманы людьми, то ни о какой истине говорить не стоит.
Для конкретного сайта - конкретные правила. Но порой сайтовладелец просто не знает, как лучше применить правило для своего ресурса.
Ну а насчёт того, что этот файл скоро станет не актуальным - не думайте об этом, потому как этот файл нужен в первую очередь поисковым роботам. Им с ним лучше.
Можно сказать, что скоро конец Света - тогда практически всё уже почти потеряло былую актуальность :).
Успехов!
Опять интересная статья! Спасибочки!
Пожалуйста, Елена =)
Пётр, честное слово, на тему устройства сайтов я только Ваши статьи понимаю.
Бывает, спрошу что-нибудь в поисковике, почитаю - только время потеряю. Затем иду на Ваш сайт, и опять нахожу чёткий ответ на свой вопрос.
Огромное Вам спасибо!
Благодарю, Юлия. Очень приятно :).
С праздником ;)
Шикарная статья, помогла разобраться что к чему.
Спасибо автору и Яндексу за прикольный мультик :-D .
Да, в Яндексе обычно всё креативно =)
Спасибо! *IN LOVE*
Полезная статья. Спасибо
хароший сайт, сп
пож)