Что интересного в Robots.txt для Google?
Особая обработка роботс.тхт Гуглом
Чуть менее года назад обнаружил интересное отличие в обработке Robots.txt Гуглом по сравнению с обработкой этого файла Яндексом. По моим наблюдениям, об этом вообще почти никто не знает, хотя вещь важная.
Как известно, лишние страницы сайта в индексе всё портят (дубли, например). Если кое-что знать и подкорректировать данный файл, то можно выкинуть «мусор» из индекса Гугла и немного улучшить ранжирование сайта.
Интересная особенность обработки Robots.txt в Google и отличие от Яндекса
Суть в том, что если Гугл проиндексировал страницу сайта, а потом она была запрещена к индексации в Robots.txt, то она так и будет болтаться в индексе.
В Яндексе — всё не так. Если проиндексированную ранее страницу запретить к индексации в Robots.txt, то со временем Яндекс выкинет её из индекса.
Я заметил это, когда увидел, что для одного моего WordPress-сайта в индексе Гугла висят страницы-теги, т.е. http://site.ru/tag/xxx/, которые я традиционно запрещаю к индексации в Robots.txt.
Как оказалось, в официальной справке есть об этом информация, правда, написано всё не очень явно:
Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Из-за этого в результатах поиска Google могут появиться URL и другие общедоступные сведения – например, текст ссылок на сайт
— т.е. даже если страница запрещена к индексации в файле Robots.txt, но на неё есть внешняя ссылка, то Гугл может её проиндексировать.
Таким образом, если вы, например, создаёте новый сайт, что-то там тестируете, делаете пробные страницы и т.п., а Гугл уже успел всё это проиндексировать, то это так и будет находиться в индексе, даже если в будущем вы это запретите в Robots.txt.
Как проверить наличие запрещённых страниц в индексе?
Тут всё просто, 3 варианта:
- Заходим на запрещённую страницу и проверяем её индексацию с помощью всяких плагинов для браузера, например, RDS bar.
- Вводим соответствующий поисковый запрос в Гугле для проверки индексации: site:http://site.ru/page.html (подробнее об этом в статье про дополнительный индекс Гугла).
- Аналогично предыдущему пункту, но проверяем индексацию всего сайта, и в результатах выдачи отыскиваем запрещённые страницы: site:site.ru/
Так что проверьте. Скорей всего, часть страниц вашего сайта будет находиться в Supplemental Index из-за того, что Гугл не хочет выкинуть их из индекса.
Как исправить?
На мой взгляд, есть 2 варианта.
Удаление ненужных страниц из индекса вручную, оставляя «запреты» в Robots.txt
Пользуемся стандартным инструментом удаления URL — подробно рассказано в статье про удаление страниц из поиска. Тут можно удалять страницы поодиночке, а можно сразу весь раздел (например, указать http://site.ru/tag/ — и все страницы-теги будут удалены).
Убираем все «запреты» в Robots.txt и применяем meta name=robots
Суть здесь такая: запрещаем индексацию страниц с помощью мета-тега robots. Например, делаем так, чтобы на всех страницах-тегах выводилось бы
Важно! В этом случае следует убрать запрещающее правило в Robots.txt (оно могло быть, например, таким Disallow: /tag/). Иначе робот Гугла не пойдёт по этому адресу, а значит и не узнает, что его не нужно индексировать. Такая вот тут особенность.
Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.
Как сделать правильный Robots.txt для Google?
Собственно, всё как обычно, но только с учётом вышесказанного. См. подробное руководство:
Если сайт создаёте новый, то лучше прописывать запрещающие мета-теги вместо запретов в Robots.txt. Ну а для старого сайта возможно придётся повозиться с удалением страниц вручную.
Как я заработал на YouTube...ерены. Я решил, что не буду повторять ошибок других. Сразу скажу, что я
Оценка конкурентности запросов. Высококонкурентные запросы, низкоконкурентные и среднеконкурентныеУже в нескольких статьях упомянул о частоте показов тех или иных ключевых слов...
Облачный сервис Яндекс Диск - приглашения, регистрация и обзор...mp3-файл, можно его послушать онлайн с помощью встроенного музыкального
10 способов распознать фальшивые отзывыВ современном мире покупая какой-либо товар, заказывая услугу, выбирая место отдыха...
Как сделать favicon для сайта, чтоб он отображался в Яндексе?...бавить такое: AddType image/x-icon .xxx В результате картинка будет
«Поисковый робот не обнаружит атрибут noindex, если страница заблокирована в файле robots.txt. Такая страница будет отображаться в результатах поиска.»
Гугл сам себе противоречит.
Вопрос, как страница будет отображаться в результатах поиска, если она заблокирована в файле robots.txt?
Ответ, Гуглу плевать на robots.txt и даже, если он не включит страницу в выдачу, что уже хорошо, она скорее всего все равно будет в соплях, наличие которых сам Гугл отрицает. А с последними рекомендациями Гугла открывать для индексации в robots.txt js-скрипты и файлы css, получается, что там вообще можно не ставить никаких запретов. Лучше, как было сказано в статье, использовать meta robots.
Да, тоже в последнее время с новыми сайтами «перехожу» на meta robots
Спасибо автор за полезную информацию, мои страницы гугл перестал показывать, теперь вот расхлебнуть придется самому. %)
А куда вставлять этот код что бы закрыть страницы с тегами или trackback?