Что интересного в Robots.txt для Google?

Robots.txt для Google

  Особая обработка роботс.тхт Гуглом

Чуть менее года назад обнаружил интересное отличие в обработке Robots.txt Гуглом по сравнению с обработкой этого файла Яндексом. По моим наблюдениям, об этом вообще почти никто не знает, хотя вещь важная.

Как известно, лишние страницы сайта в индексе всё портят (дубли, например). Если кое-что знать и подкорректировать данный файл, то можно выкинуть «мусор» из индекса Гугла и немного улучшить ранжирование сайта.

Интересная особенность обработки Robots.txt в Google и отличие от Яндекса

Суть в том, что если Гугл проиндексировал страницу сайта, а потом она была запрещена к индексации в Robots.txt, то она так и будет болтаться в индексе.

В Яндексе — всё не так. Если проиндексированную ранее страницу запретить к индексации в Robots.txt, то со временем Яндекс выкинет её из индекса.

Я заметил это, когда увидел, что для одного моего WordPress-сайта в индексе Гугла висят страницы-теги, т.е. http://site.ru/tag/xxx/, которые я традиционно запрещаю к индексации в Robots.txt.

Как оказалось, в официальной справке есть об этом информация, правда, написано всё не очень явно:

Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Из-за этого в результатах поиска Google могут появиться URL и другие общедоступные сведения – например, текст ссылок на сайт

— т.е. даже если страница запрещена к индексации в файле Robots.txt, но на неё есть внешняя ссылка, то Гугл может её проиндексировать.

Таким образом, если вы, например, создаёте новый сайт, что-то там тестируете, делаете пробные страницы и т.п., а Гугл уже успел всё это проиндексировать, то это так и будет находиться в индексе, даже если в будущем вы это запретите в Robots.txt.

Как проверить наличие запрещённых страниц в индексе?

Тут всё просто, 3 варианта:

  1. Заходим на запрещённую страницу и проверяем её индексацию с помощью всяких плагинов для браузера, например, RDS bar.
  2. Вводим соответствующий поисковый запрос в Гугле для проверки индексации: site:http://site.ru/page.html (подробнее об этом в статье про дополнительный индекс Гугла).
  3. Аналогично предыдущему пункту, но проверяем индексацию всего сайта, и в результатах выдачи отыскиваем запрещённые страницы: site:site.ru/ или site:site.ru/&

Так что проверьте. Скорей всего, часть страниц вашего сайта будет находиться в Supplemental Index из-за того, что Гугл не хочет выкинуть их из индекса.

Как исправить?

На мой взгляд, есть 2 варианта.

Удаление ненужных страниц из индекса вручную, оставляя «запреты» в Robots.txt

Пользуемся стандартным инструментом удаления URL — подробно рассказано в статье про удаление страниц из поиска. Тут можно удалять страницы поодиночке, а можно сразу весь раздел (например, указать http://site.ru/tag/ — и все страницы-теги будут удалены).

Убираем все «запреты» в Robots.txt и применяем <meta name=robots…>

Суть здесь такая: запрещаем индексацию страниц с помощью мета-тега robots. Например, делаем так, чтобы на всех страницах-тегах выводилось бы <meta name=’robots’ content=’noindex,nofollow’ />.

Важно! В этом случае следует убрать запрещающее правило в Robots.txt (оно могло быть, например, таким Disallow: /tag/). Иначе робот Гугла не пойдёт по этому адресу, а значит и не узнает, что его не нужно индексировать. Такая вот тут особенность.

Из официальной справки:

Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.

Как сделать правильный Robots.txt для Google?

Собственно, всё как обычно, но только с учётом вышесказанного. См. подробное руководство:

Если сайт создаёте новый, то лучше прописывать запрещающие мета-теги вместо запретов в Robots.txt. Ну а для старого сайта возможно придётся повозиться с удалением страниц вручную.

web-ru.net - всё о продвижении сайтов
Случайные публикации:
  • Чиновники предлагают снижать скорость доступа к сайтам-нарушителямЧиновники предлагают снижать скорость доступа к сайтам-нарушителямВ скором времени в российское законодательство могут быть внесены поправки, позв...
  • Как в Dropbox получить прямую ссылку на файл? Папка Public и др. папки в Дропбокс, укорачивание ссылкиКак в Dropbox получить прямую ссылку на файл? Папка Public и др. папки в Дропбокс, укорачивание ссылки...й статьёй думаю завершить тему, связанную с сервисом Dropbox.com. Напомню, что в
  • Настройка All in One Seo Pack плагина в WordPress. ВидеоурокНастройка All in One Seo Pack плагина в WordPress. ВидеоурокКак я уже писал ранее (о SEO-оптимизации WordPress), сразу по...
  • Что такое зеркало сайта?Что такое зеркало сайта?В предыдущей статье про настройку Robots.txt затронул момент указани...
  • Облако SugarSync - что это такое? Обзор сервиса и правильная регистрация на SugarSync.comОблако SugarSync - что это такое? Обзор сервиса и правильная регистрация на SugarSync.comДве последние статьи на данном сайте посвящены облачным технологиям в хр...
Оставьте комментарий:
комментария 3
Через сайт Через ВКонтакте Через Facebook
  1. Олег:

    «Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.»

    Гугл сам себе противоречит.

    Вопрос, как страница будет отображаться в результатах поиска, если она заблокирована в файле robots.txt?

    Ответ, Гуглу плевать на robots.txt и даже, если он не включит страницу в выдачу, что уже хорошо, она скорее всего все равно будет в соплях, наличие которых сам Гугл отрицает. А с последними рекомендациями Гугла открывать для индексации в robots.txt js-скрипты и файлы css, получается, что там вообще можно не ставить никаких запретов. Лучше, как было сказано в статье, использовать meta robots.

    Ответить
    • Пётр:

      Да, тоже в последнее время с новыми сайтами «перехожу» на meta robots :)

      Ответить
  2. Макс:

    Спасибо автор за полезную информацию, мои страницы гугл перестал показывать, теперь вот расхлебнуть придется самому. %)

    Ответить
сайт web-ru.net
Я не спамлю...