Что интересного в Robots.txt для Google?

Robots.txt для Google

  Особая обработка роботс.тхт Гуглом

Чуть менее года назад обнаружил интересное отличие в обработке Robots.txt Гуглом по сравнению с обработкой этого файла Яндексом. По моим наблюдениям, об этом вообще почти никто не знает, хотя вещь важная.

Как известно, лишние страницы сайта в индексе всё портят (дубли, например). Если кое-что знать и подкорректировать данный файл, то можно выкинуть «мусор» из индекса Гугла и немного улучшить ранжирование сайта.

Интересная особенность обработки Robots.txt в Google и отличие от Яндекса

Суть в том, что если Гугл проиндексировал страницу сайта, а потом она была запрещена к индексации в Robots.txt, то она так и будет болтаться в индексе.

В Яндексе — всё не так. Если проиндексированную ранее страницу запретить к индексации в Robots.txt, то со временем Яндекс выкинет её из индекса.

Я заметил это, когда увидел, что для одного моего WordPress-сайта в индексе Гугла висят страницы-теги, т.е. http://site.ru/tag/xxx/, которые я традиционно запрещаю к индексации в Robots.txt.

Как оказалось, в официальной справке есть об этом информация, правда, написано всё не очень явно:

Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Из-за этого в результатах поиска Google могут появиться URL и другие общедоступные сведения – например, текст ссылок на сайт

— т.е. даже если страница запрещена к индексации в файле Robots.txt, но на неё есть внешняя ссылка, то Гугл может её проиндексировать.

Таким образом, если вы, например, создаёте новый сайт, что-то там тестируете, делаете пробные страницы и т.п., а Гугл уже успел всё это проиндексировать, то это так и будет находиться в индексе, даже если в будущем вы это запретите в Robots.txt.

Как проверить наличие запрещённых страниц в индексе?

Тут всё просто, 3 варианта:

  1. Заходим на запрещённую страницу и проверяем её индексацию с помощью всяких плагинов для браузера, например, RDS bar.
  2. Вводим соответствующий поисковый запрос в Гугле для проверки индексации: site:http://site.ru/page.html (подробнее об этом в статье про дополнительный индекс Гугла).
  3. Аналогично предыдущему пункту, но проверяем индексацию всего сайта, и в результатах выдачи отыскиваем запрещённые страницы: site:site.ru/

Так что проверьте. Скорей всего, часть страниц вашего сайта будет находиться в Supplemental Index из-за того, что Гугл не хочет выкинуть их из индекса.

Как исправить?

На мой взгляд, есть 2 варианта.

Удаление ненужных страниц из индекса вручную, оставляя «запреты» в Robots.txt

Пользуемся стандартным инструментом удаления URL — подробно рассказано в статье про удаление страниц из поиска. Тут можно удалять страницы поодиночке, а можно сразу весь раздел (например, указать http://site.ru/tag/ — и все страницы-теги будут удалены).

Убираем все «запреты» в Robots.txt и применяем meta name=robots

Суть здесь такая: запрещаем индексацию страниц с помощью мета-тега robots. Например, делаем так, чтобы на всех страницах-тегах выводилось бы

разрешено индексировать и контент и ссылки

Важно! В этом случае следует убрать запрещающее правило в Robots.txt (оно могло быть, например, таким Disallow: /tag/). Иначе робот Гугла не пойдёт по этому адресу, а значит и не узнает, что его не нужно индексировать. Такая вот тут особенность.

Из официальной справки:

Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.

Как сделать правильный Robots.txt для Google?

Собственно, всё как обычно, но только с учётом вышесказанного. См. подробное руководство:

Если сайт создаёте новый, то лучше прописывать запрещающие мета-теги вместо запретов в Robots.txt. Ну а для старого сайта возможно придётся повозиться с удалением страниц вручную.

1 Star2 Stars3 Stars4 Stars5 Stars (2 оценок, среднее: 5,00 из 5)
Loading...
Случайные публикации:
  • Что такое реферальная ссылка и как она работает.Что такое реферальная ссылка и как она работает.Для заработка в интернете, есть много самых разных способов. Один и...
  • Рейтинг движков для онлайн-магазиновРейтинг движков для онлайн-магазиновНедавно мне достался хороший заказ по созданию онлайн-магазина. При э...
  • Как продвинуть сайт в Google? Теперь и на русском!Как продвинуть сайт в Google? Теперь и на русском!...удет ничего не изучать и любой человек продвинет любой сайт в поисковиках, SEO будет
  • Как повысить кликабельность сайта в выдаче Яндекса?Как повысить кликабельность сайта в выдаче Яндекса?...Когда ищете что-то в Яндексе, понаблюдайте за собой: на что в первую очередь обращается
  • SEO оптимизация изображений на сайте. 7 основных правилSEO оптимизация изображений на сайте. 7 основных правил...тоит забывать и об изображениях на этой странице. Особенно полезно это
Оставьте комментарий:
комментария 4
  1. Олег:

    «Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.»

    Гугл сам себе противоречит.

    Вопрос, как страница будет отображаться в результатах поиска, если она заблокирована в файле robots.txt?

    Ответ, Гуглу плевать на robots.txt и даже, если он не включит страницу в выдачу, что уже хорошо, она скорее всего все равно будет в соплях, наличие которых сам Гугл отрицает. А с последними рекомендациями Гугла открывать для индексации в robots.txt js-скрипты и файлы css, получается, что там вообще можно не ставить никаких запретов. Лучше, как было сказано в статье, использовать meta robots.

    Ответить
    • Пётр:

      Да, тоже в последнее время с новыми сайтами «перехожу» на meta robots :)

      Ответить
  2. Макс:

    Спасибо автор за полезную информацию, мои страницы гугл перестал показывать, теперь вот расхлебнуть придется самому. %)

    Ответить
  3. Игорь:

    А куда вставлять этот код что бы закрыть страницы с тегами или trackback?

    Ответить
Я не спамлю...