Что интересного в Robots.txt для Google?

Robots.txt для Google

  Особая обработка роботс.тхт Гуглом

Чуть менее года назад обнаружил интересное отличие в обработке Robots.txt Гуглом по сравнению с обработкой этого файла Яндексом. По моим наблюдениям, об этом вообще почти никто не знает, хотя вещь важная.

Как известно, лишние страницы сайта в индексе всё портят (дубли, например). Если кое-что знать и подкорректировать данный файл, то можно выкинуть «мусор» из индекса Гугла и немного улучшить ранжирование сайта.

Интересная особенность обработки Robots.txt в Google и отличие от Яндекса

Суть в том, что если Гугл проиндексировал страницу сайта, а потом она была запрещена к индексации в Robots.txt, то она так и будет болтаться в индексе.

В Яндексе — всё не так. Если проиндексированную ранее страницу запретить к индексации в Robots.txt, то со временем Яндекс выкинет её из индекса.

Я заметил это, когда увидел, что для одного моего WordPress-сайта в индексе Гугла висят страницы-теги, т.е. http://site.ru/tag/xxx/, которые я традиционно запрещаю к индексации в Robots.txt.

Как оказалось, в официальной справке есть об этом информация, правда, написано всё не очень явно:

Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Из-за этого в результатах поиска Google могут появиться URL и другие общедоступные сведения – например, текст ссылок на сайт

— т.е. даже если страница запрещена к индексации в файле Robots.txt, но на неё есть внешняя ссылка, то Гугл может её проиндексировать.

Таким образом, если вы, например, создаёте новый сайт, что-то там тестируете, делаете пробные страницы и т.п., а Гугл уже успел всё это проиндексировать, то это так и будет находиться в индексе, даже если в будущем вы это запретите в Robots.txt.

Как проверить наличие запрещённых страниц в индексе?

Тут всё просто, 3 варианта:

  1. Заходим на запрещённую страницу и проверяем её индексацию с помощью всяких плагинов для браузера, например, RDS bar.
  2. Вводим соответствующий поисковый запрос в Гугле для проверки индексации: site:http://site.ru/page.html (подробнее об этом в статье про дополнительный индекс Гугла).
  3. Аналогично предыдущему пункту, но проверяем индексацию всего сайта, и в результатах выдачи отыскиваем запрещённые страницы: site:site.ru/ или site:site.ru/&

Так что проверьте. Скорей всего, часть страниц вашего сайта будет находиться в Supplemental Index из-за того, что Гугл не хочет выкинуть их из индекса.

Как исправить?

На мой взгляд, есть 2 варианта.

Удаление ненужных страниц из индекса вручную, оставляя «запреты» в Robots.txt

Пользуемся стандартным инструментом удаления URL — подробно рассказано в статье про удаление страниц из поиска. Тут можно удалять страницы поодиночке, а можно сразу весь раздел (например, указать http://site.ru/tag/ — и все страницы-теги будут удалены).

Убираем все «запреты» в Robots.txt и применяем <meta name=robots…>

Суть здесь такая: запрещаем индексацию страниц с помощью мета-тега robots. Например, делаем так, чтобы на всех страницах-тегах выводилось бы <meta name=’robots’ content=’noindex,nofollow’ />.

Важно! В этом случае следует убрать запрещающее правило в Robots.txt (оно могло быть, например, таким Disallow: /tag/). Иначе робот Гугла не пойдёт по этому адресу, а значит и не узнает, что его не нужно индексировать. Такая вот тут особенность.

Из официальной справки:

Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.

Как сделать правильный Robots.txt для Google?

Собственно, всё как обычно, но только с учётом вышесказанного. См. подробное руководство:

Если сайт создаёте новый, то лучше прописывать запрещающие мета-теги вместо запретов в Robots.txt. Ну а для старого сайта возможно придётся повозиться с удалением страниц вручную.

1 Star2 Stars3 Stars4 Stars5 Stars (Пока оценок нет)
Loading...

Случайные публикации:
  • Какой хостинг выбрать? На что обратить внимание, выбирая хостинг для сайта (мощность сервера, технологии, цены, uptime...)Какой хостинг выбрать? На что обратить внимание, выбирая хостинг для сайта (мощность сервера, технологии, цены, uptime...)Выбирая хостинг для своего будущего проекта в Интернете, желательно определи...
  • Как сделать 302 редирект (moved temporarily)?Как сделать 302 редирект (moved temporarily)?...е замечают" 302-го редиректа; посетители - замечают. Пожалуй,
  • Яндекс: ну так отменил или нет?Яндекс: ну так отменил или нет?...для "коммерции" по Москве или нет. Так что предлагаю вам высказать своё мнение в
  • Поведенческие факторы поисковых систем. Как улучшить ПФ и в чём суть?Поведенческие факторы поисковых систем. Как улучшить ПФ и в чём суть?...сайт хороший, поднять его в поисковой выдаче. Если нет -
  • Как скрыть ссылку через JavaScript? Методы скрытия ссылок на страницеКак скрыть ссылку через JavaScript? Методы скрытия ссылок на страницеРанее, в двух статьях я уже описал процесс скрытия ссылок на странице от поисков...
Оставьте комментарий:
комментария 4
  1. Олег:

    «Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.»

    Гугл сам себе противоречит.

    Вопрос, как страница будет отображаться в результатах поиска, если она заблокирована в файле robots.txt?

    Ответ, Гуглу плевать на robots.txt и даже, если он не включит страницу в выдачу, что уже хорошо, она скорее всего все равно будет в соплях, наличие которых сам Гугл отрицает. А с последними рекомендациями Гугла открывать для индексации в robots.txt js-скрипты и файлы css, получается, что там вообще можно не ставить никаких запретов. Лучше, как было сказано в статье, использовать meta robots.

    Ответить
    • Пётр:

      Да, тоже в последнее время с новыми сайтами «перехожу» на meta robots :)

      Ответить
  2. Макс:

    Спасибо автор за полезную информацию, мои страницы гугл перестал показывать, теперь вот расхлебнуть придется самому. %)

    Ответить
  3. Игорь:

    А куда вставлять этот код что бы закрыть страницы с тегами или trackback?

    Ответить
Я не спамлю...