Categories: seo

Что интересного в Robots.txt для Google?

  Особая обработка роботс.тхт Гуглом

Чуть менее года назад обнаружил интересное отличие в обработке Robots.txt Гуглом по сравнению с обработкой этого файла Яндексом. По моим наблюдениям, об этом вообще почти никто не знает, хотя вещь важная.

Как известно, лишние страницы сайта в индексе всё портят (дубли, например). Если кое-что знать и подкорректировать данный файл, то можно выкинуть «мусор» из индекса Гугла и немного улучшить ранжирование сайта.

Интересная особенность обработки Robots.txt в Google и отличие от Яндекса

Суть в том, что если Гугл проиндексировал страницу сайта, а потом она была запрещена к индексации в Robots.txt, то она так и будет болтаться в индексе.

В Яндексе — всё не так. Если проиндексированную ранее страницу запретить к индексации в Robots.txt, то со временем Яндекс выкинет её из индекса.

Я заметил это, когда увидел, что для одного моего WordPress-сайта в индексе Гугла висят страницы-теги, т.е. http://site.ru/tag/xxx/, которые я традиционно запрещаю к индексации в Robots.txt.

Как оказалось, в официальной справке есть об этом информация, правда, написано всё не очень явно:

Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Из-за этого в результатах поиска Google могут появиться URL и другие общедоступные сведения – например, текст ссылок на сайт

— т.е. даже если страница запрещена к индексации в файле Robots.txt, но на неё есть внешняя ссылка, то Гугл может её проиндексировать.

Таким образом, если вы, например, создаёте новый сайт, что-то там тестируете, делаете пробные страницы и т.п., а Гугл уже успел всё это проиндексировать, то это так и будет находиться в индексе, даже если в будущем вы это запретите в Robots.txt.

Как проверить наличие запрещённых страниц в индексе?

Тут всё просто, 3 варианта:

  1. Заходим на запрещённую страницу и проверяем её индексацию с помощью всяких плагинов для браузера, например, RDS bar.
  2. Вводим соответствующий поисковый запрос в Гугле для проверки индексации: site:http://site.ru/page.html (подробнее об этом в статье про дополнительный индекс Гугла).
  3. Аналогично предыдущему пункту, но проверяем индексацию всего сайта, и в результатах выдачи отыскиваем запрещённые страницы: site:site.ru/

Так что проверьте. Скорей всего, часть страниц вашего сайта будет находиться в Supplemental Index из-за того, что Гугл не хочет выкинуть их из индекса.

Как исправить?

На мой взгляд, есть 2 варианта.

Удаление ненужных страниц из индекса вручную, оставляя «запреты» в Robots.txt

Пользуемся стандартным инструментом удаления URL — подробно рассказано в статье про удаление страниц из поиска. Тут можно удалять страницы поодиночке, а можно сразу весь раздел (например, указать http://site.ru/tag/ — и все страницы-теги будут удалены).

Убираем все «запреты» в Robots.txt и применяем meta name=robots

Суть здесь такая: запрещаем индексацию страниц с помощью мета-тега robots. Например, делаем так, чтобы на всех страницах-тегах выводилось бы

Важно! В этом случае следует убрать запрещающее правило в Robots.txt (оно могло быть, например, таким Disallow: /tag/). Иначе робот Гугла не пойдёт по этому адресу, а значит и не узнает, что его не нужно индексировать. Такая вот тут особенность.

Из официальной справки:

Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.

Как сделать правильный Robots.txt для Google?

Собственно, всё как обычно, но только с учётом вышесказанного. См. подробное руководство:

Если сайт создаёте новый, то лучше прописывать запрещающие мета-теги вместо запретов в Robots.txt. Ну а для старого сайта возможно придётся повозиться с удалением страниц вручную.

Пётр

View Comments

  • "Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска."

    Гугл сам себе противоречит.

    Вопрос, как страница будет отображаться в результатах поиска, если она заблокирована в файле robots.txt?

    Ответ, Гуглу плевать на robots.txt и даже, если он не включит страницу в выдачу, что уже хорошо, она скорее всего все равно будет в соплях, наличие которых сам Гугл отрицает. А с последними рекомендациями Гугла открывать для индексации в robots.txt js-скрипты и файлы css, получается, что там вообще можно не ставить никаких запретов. Лучше, как было сказано в статье, использовать meta robots.

    • Да, тоже в последнее время с новыми сайтами "перехожу" на meta robots :)

  • Спасибо автор за полезную информацию, мои страницы гугл перестал показывать, теперь вот расхлебнуть придется самому. %)

  • А куда вставлять этот код что бы закрыть страницы с тегами или trackback?

Recent Posts

  • Заработок в Интернет

Рейтинг интернет казино: ТОП заведений с высокими оценками экспертов

Начинающие геймеры часто недооценивают опасности, связанные с беспечным отношением к выбору онлайн казино. (далее…)

2 года ago
  • Заработок в Интернет

Рейтинг лучших казино для игры на реальные деньги: как начать играть в игровые автоматы?

Онлайн казино - место где уместна игра на реальные деньги, что является главной причиной интереса большинства людей. (далее…)

2 года ago
  • Браузеры

Ферма stealth аккаунтов. Как быстро начать и главное зачем?

В данном топике описан процесс создания и управления большим количеством аккаунтов (или stealth ферма), предназначенных для работы с репутацией и…

2 года ago
  • Браузеры

Gologin — антидетект приложение для масштабирования ферм stealth аккаунтов

Ключевая задача антидетект браузера - обеспечить пользователя функционалом, позволяющим выглядеть в глазах поисковых и антифрод систем реальным пользователем, а не…

2 года ago
  • Заработок в Интернет

Лучшие покер румы: как выбрать надёжную комнату по рейтингу

Подбор площадки для азартных игр должен быть объективным и осознанным. Если пользователь хочет сократить время на поиск, то рискует попасть…

2 года ago
  • Заработок в Интернет

Рейтинг казино: как выбрать лучший бренд для игры на деньги

Большинство игроков выбирают для ставок на реальные деньги первое понравившееся интернет-казино. Однако скоропалительные решения часто приводят к негативным последствиям. (далее…)

2 года ago