Правильные настройки файла Robots.txt для WordPress — быстро и без плагинов!
Создаём роботс.тхт для WP правильно
Здесь уже есть довольно много статей по теме настройки файла Robots.txt, однако люди иногда спрашивают — как настроить его конкретно для WordPress-сайтов? Это, в общем-то, и не удивительно, если учесть особую популярность данной CMS.
Кажется, многие владельцы сайтов на WP просто копируют содержимое этого файла друг у друга (или вообще «перепоручают» его создание разным плагинам). Так что сейчас опишу процесс создания Robots.txt конкретно для вордпресс и расскажу, зачем и почему прописывать именно такие настройки.
Делаем правильный Robots.txt для WordPress
Здесь я обычно выделяю два варианта создания этого файла:
- для продвижения по трафику (т.е. когда сайту нужны позиции в ПС);
- для продвижения по показателям (т.е. когда нужно нарастить тИЦ и PR).
В первом случае нужно выкинуть из индекса (лучше сказать — не дать попасть в индекс) дубли страниц. Да и вообще всё лишнее.
Во втором — оставить как можно больше страниц (чтоб было, с чего ссылки продавать), но лишнее также выкинуть.
Первый вариант всё же более популярен, с него и начну.
Настройка файла Robots.txt для WordPress для трафикового продвижения
Для большего понимания рекомендую сразу прочитать это:
- Что такое Robots.txt, зачем нужен и как настраивать — общая, подробная информация, но без «привязки» к конкретной CMS.
- Создание Robots.txt для разных роботов Гугла и Яндекса — можно что-то запретить основному поисковому роботу, но разрешить рекламному (например, роботу Google AdSense).
- Справка Яндекса по роботс.тхт — очень полезно.
Сам вариант такой:
User-agent: * # обращаемся ко всем поисковым роботам
Disallow: *? # запрещаем все динамические страницы
Disallow: *.php$ # запрещаем все страницы с расширением «.php»
Disallow: /страница поиска/ #запрещаем страницу результатов поиска
Disallow: /tag/ # запрещаем все страницы тегов (меток)
Disallow: /feed/ # запрещаем XML-фид последних статей
Disallow: /page/ # запрещаем лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной (иначе — НЕ указываем)
Disallow: */attachment/ # запрещаем страницы вложений
Host: site.ru # указываем главное зеркало для Яндекса
Sitemap: http://site.ru/sitemap.xml # указываем адрес XML-карты сайта
Почему всё так?
Этот вариант предполагает, что настроены ЧПУ URL и установлен какой-нибудь WP-плагин для транслита вашего родного языка в латиницу. Так что все динамические URL (содержащие знак вопроса) следует сразу запретить, т.к. лишние параметры может приписать какой-нибудь посетитель, страница ответа на комментарии или тот же Feedburner. Поэтому — Disallow: *?.
По той же причине — закрываем страницы с расширением «.php» — Disallow: *.php$
Следует скрыть страницу с результатами поиска (если она имеется), например Disallow: /search/. Но можно просто добавить Гугл-поиск для сайта, не создавая новых страниц — и необходимость в этой директиве для Robots.txt отпадёт.
Также скрываем страницы меток (Disallow: /tag/) и фидов (Disallow: /feed/) — чтобы не предлагать поисковикам дубли.
Disallow: /page/ — в WordPress есть странная ошибка: если в качестве главной страницы задать статическую, то создадутся дубли главной, вроде таких http://site.ru/page/2/. Их-то и прячем.
Скрываем attachment’ы — любые страницы вложений. Например, для каждой картинки WordPress формирует отдельную страницу, которая только эту самую картинку и содержит. Чтобы этот «мусор» не отдавать поисковикам — пишем Disallow: */attachment/.
Традиционно указываем главное зеркало сайта — Host: site.ru. Можно не указывать, если корректно настроили 301-й редирект с www.site.ru на site.ru (или наоборот).
Ну и в конце — пропишем адрес XML-карты сайта (если она есть, конечно) — Sitemap: http://site.ru/sitemap.xml. Если нет — то её теперь можно создать с помощью All In One Seo Pack — читайте, как сделать XML-карту для WP.
Пару слов про скрытие в файле Robots.txt т.н. трекбэков и категорий:
Трекбэки (trackbacks) при создании ЧПУ и запрете страниц, оканчивающихся на .php, в индекс практически не залетают (во всяком случае, мною для WP это ни разу замечено не было). Но если хочется запретить, то можно в Robots.txt добавить Disallow: /*/trackback
Иногда запрещают индексацию всех категорий — Disallow: /category/ — но обычно это не имеет смысла, т.к. категории могут выдаваться в поиске по ряду запросов и помогают в распределении веса по страницам.
Однако, если есть вложенность категорий, то контент основных категорий дублируется с контентом подкатегорий, так что можно запретить основные категории Например, так:
Disallow: /category/*/
Allow: /category/*/*/
Вообще, с настройками этого файла можно много поэкспериментировать. Тем более, есть хорошая вещь — инструмент анализа robots.txt от Яндекса.
Кроме того, следует запретить все нежелательные для индексации документы форматов .txt, .doc, .pdf и т.д., на которые есть ссылки со страниц вашего сайта. Записать можно так: Disallow: *.txt$ — закроем все .txt-файлы.
Можно ещё прописать Disallow: /wp-admin/. Но эта запись будет лишней, если спрятать стандартный адрес входа в админку (что неплохо бы сделать). Смотрите — как легко защитить админку WordPress.
Если короче, то для «среднестатистического» сайта на WordPress правильный Robots.txt будет такой:
User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /tag/
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Можно просто скопировать и не думать..
Настройка файла Robots.txt для WordPress при продаже ссылок
Если основная цель — продавать ссылки с сайта в автоматическом режиме, то здесь главное — загнать и удержать в индексе как можно больше страниц.
Такой вариант:
User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Почему так?
Здесь «отдаём» поисковому роботу метки — пусть сам решает, что из них выкинуть, а что оставить в индексе. В любом случае, количество страниц в индексе увеличится (что и требуется).
Естественно, полный «мусор» держаться там долго не будет, поэтому feed’ы, различные динамические страницы и страницы-attachment’ы лучше исключить. А в остальном — всё то же (хотя с attachment’ами ещё можно поэкспериментировать ).
Также по теме статьи можно почитать:
Как итог
Таким образом, получается вполне красивый и лаконичный файл Robots.txt для WordPress. Если есть вопросы по написанному выше — спрашивайте в комментариях.
Да, кстати, если вы указываете две XML-карты (http://site.ru/sitemap.xml + http://site.ru/sitemap.xml.gz) — также расскажите, зачем вы это делаете
P.S. Обязательно ознакомьтесь с информацией о Robots.txt для Google — возможно, вы узнаете кое-что новое для себя..
P.P.S. Update 1.6.2015
Хорошо, что вы дошли до сюда. Забудьте всё, что прочитали выше и изучите информацию о правильном robots.txt для Гугла и Яндекса.
Как уменьшить показатель отказов в Google AnalyticsПоказатель отказов – один из важных элементов, который влияет на поведенческие ф...
Лицензионное онлайн казино: какие площадки считаются самыми надёжнымиЛегальность работы - первый и самый главный критерий, определяющий надежность аз...
Изменения в ссылочных факторах GoogleЭто небольшая новость, которую недавно узнал. Суть в том, что тепе...
Играть в слоты в онлайн-казино Вулкан...дения регистрации. На сайте клуба эта процедура максимально
Какое оформление рекламного объявления РСЯ эффективнее?Это небольшая заметка про ту же РСЯ. Если кто-нибудь определённ...
Здравствуйте, Петр!
Я бы и рад закрыть динамичные ссылки от робота, но многие из них уже в «топе» Яшки и Гугла. Вот если бы их переделать в статичные! Но у меня страница для публикаций имеет статичные чпу, а в отдельной рубрике публикую контент с минусовками. Вот пример (если можно): по запросу — минусовки и тексты песен — я на четвертой позиции (статичная). А по запросу — тексты песен даврона гаипова (динамичная)вообще на первом. Как с этим быть?!
Александр,
само по себе наличие страниц с динамичными URL — это не плохо. Плохо, когда динамичная и статичная дублируют друг друга.
Если совсем охота избавиться от «динамики» — делайте статичные URL + 301 редирект с динамических URL (старых) на статичные (новые).
Петр, а на заказ составите правильный robots.txt? =)
Георгий, да ведь и так всё понятно
Спасибо, Петр, за Вашу щедрую душу! Замечательный материал и прекрасно подан! =) *IN LOVE*
Ну, прям..
Наталия, благодарю
Петр, здравствуйте! Настроила файл роботс, для Яндекса прописала директиву «Host: site.ru» Но, у меня установлен плагин Oll in seo pack, который оптимизирует файл роботс, а попросту «выкидывает» эту директиву из файла. стирает ее, как некорректную. В общем-то я прописывала главные зеркала в инструментах для вебмастеров Яндекс и Гугл. Подскажите, так ли важна эта директива или нужно «смириться» с ее удалением оптимизатором?
Здравствуйте, Лариса.
Не очень важна, главное, чтоб сайт открывался однозначно — либо с «www», либо без «www».
Пётр, Вы пишете про Disallow: /page/ — запрещает лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной. Но лишние дубли страниц появляются и в других ситуациях. Например при навигации по перечню статей в рубрике. Например, на Вашем сайте это: web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/. Поэтому, думаю, правильнее писать Disallow: /*page/ или Disallow: */page/
Андрей, я другое имел в виду.
Страницы вроде web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/ я не запрещал (хотя, в целом, можно).
У WP есть ошибка, когда создаются страницы вида site.ru/page/123, которые являются дублями главной. Это я и запрещал.
Если нужно запретить постраничную навигацию в категориях, то да, есть смысл писать такое:
Disallow: */page/
(но только не Disallow: /*page/ )
Учусь, разбираюсь и начинаю лучше понимать:
Суть проблемы — в том, что считать ЛИШНИМИ страницами в индексе, лишними страницами для поисковых систем. И чаще НЕ нужно отказываться от индексации страниц навигации по категориям и тегам, чем нужно.
…
И понравилось в Вашей статье правило :
Disallow: /category/*/
Allow: /category/*/*/.
Я не встречал его у других авторов. Только надо с ним аккуратно поступать — учитывать свою степень вложенности категорий.
А как правильно прописать, если страница с картинкой это ссылка вида: сайт/название записи/название картинки без расширения
Не нашла подходящего варианта в вашей статье, но очень надо
Тут лучше закройте подобные страницы с помощью мета-тега Robots ( http://web-ru.net/prodvizhenie-sajta/seo/chto-takoe-meta-teg-robots-meta-name-robots-7-osnovnyh-variantov-googlebot.html )
добрый день, Петр
спасибо за статью, для чайника в самый раз..я только-только делаю первые шаги, информации очень много и сейчас у меня каша в голове.. правильно ли я понимаю, мой robots вообще запрещает индексацию? я вчера только сняла галочку в настройках WP «не применять инд-цию». Мне вручную надо исправлять свой Robots?
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /archive
Disallow: */page
Disallow: */trackback/
Disallow: /category
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /feed/
Disallow: /?s=
Host: zactolom.ru
Sitemap: http:// zactolom.ru/sitemap.xml
Здравствуйте, Наталья
Вообще, для каждого сайта — свой robots.txt, т.к. владелец обычно лучше знает, что ему запретить к индексации, а что оставить.
Я бы, например, убрал это: Disallow: /category
И если закрываете теги, архивы (Disallow: /archive) и папки, то ставьте слэш в конце адреса, т.е. лучше так: Disallow: /archive/
Петр здравствуйте!
Подскажите пожалуйста, изменил robots.txt, но когда в гугле нажимаю проверить его, и перехожу по адресу blogenergetika.ru/robots.txt
то показывается следующее
User-agent: *
Disallow: /
Хотя сам роботс такой
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: *.php$
Disallow: /category/*/
Allow: /category/*/*/
Disallow: *.php$
Disallow: /search/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
Sitemap: http:// blogenergetika.ru/sitemap.xml
User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: *.php$
Disallow: /category/*/
Allow: /category/*/*/
Disallow: *.php$
Disallow: /search/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: blogenergetika.ru
Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
Sitemap: http:// blogenergetika.ru/sitemap.xml
Здравствуйте, Николай
В Гугле такое отображается:
User-agent: *
Disallow: /
?
Возможно, он разобрать ваш роботс не может, или же все правила сводятся к этим двум строчкам.
Файл у вас и правда навороченный, сделайте покороче.
online prescription
Правильный файл Robots.txt для WordPress — настройки без плагина