Правильные настройки файла Robots.txt для WordPress — быстро и без плагинов!

правильный Robots.txt для WordPress

  Создаём роботс.тхт для WP правильно

Здесь уже есть довольно много статей  по теме настройки файла Robots.txt, однако люди иногда спрашивают — как настроить его конкретно для WordPress-сайтов? Это, в общем-то, и не удивительно, если учесть особую популярность данной CMS.

Кажется, многие владельцы сайтов на WP просто копируют содержимое этого файла друг у друга (или вообще «перепоручают» его создание разным плагинам). Так что сейчас опишу процесс создания Robots.txt конкретно для вордпресс и расскажу, зачем и почему прописывать именно такие настройки.

Делаем правильный Robots.txt для WordPress

Здесь я обычно выделяю два варианта создания этого файла:

  1. для продвижения по трафику (т.е. когда сайту нужны позиции в ПС);
  2. для продвижения по показателям (т.е. когда нужно нарастить тИЦ и PR).

В первом случае нужно выкинуть из индекса (лучше сказать — не дать попасть в индекс) дубли страниц. Да и вообще всё лишнее.

Во втором — оставить как можно больше страниц (чтоб было, с чего ссылки продавать), но лишнее также выкинуть.

Первый вариант всё же более популярен, с него и начну.

Настройка файла Robots.txt для WordPress для трафикового продвижения

Для большего понимания рекомендую сразу прочитать это:

Сам вариант такой:

User-agent: *            # обращаемся ко всем поисковым роботам
Disallow: *?               # запрещаем все динамические страницы 
Disallow: *.php$       # запрещаем все страницы с расширением «.php»
Disallow: /страница поиска/     #запрещаем страницу результатов поиска
Disallow: /tag/          # запрещаем все страницы тегов (меток)
Disallow: /feed/       # запрещаем XML-фид последних статей
Disallow: /page/      # запрещаем лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной (иначе — НЕ указываем)
Disallow: */attachment/ # запрещаем страницы вложений
Host: site.ru                          # указываем главное зеркало для Яндекса
Sitemap: http://site.ru/sitemap.xml  # указываем адрес XML-карты сайта

Почему всё так?

Этот вариант предполагает, что настроены ЧПУ URL и установлен какой-нибудь WP-плагин для транслита вашего родного языка в латиницу. Так что все динамические URL (содержащие знак вопроса) следует сразу запретить, т.к. лишние параметры может приписать какой-нибудь посетитель, страница ответа на комментарии или тот же Feedburner. Поэтому — Disallow: *?.

По той же причине — закрываем страницы с расширением «.php» — Disallow: *.php$

Следует скрыть страницу с результатами поиска (если она имеется), например Disallow: /search/. Но можно просто добавить Гугл-поиск для сайта, не создавая новых страниц — и необходимость в этой директиве для Robots.txt отпадёт.

Также скрываем страницы меток (Disallow: /tag/) и фидов (Disallow: /feed/) — чтобы не предлагать поисковикам дубли.

Disallow: /page/ — в WordPress есть странная ошибка: если в качестве главной страницы задать статическую, то создадутся дубли главной, вроде таких http://site.ru/page/2/. Их-то и прячем.

Скрываем attachment’ы — любые страницы вложений. Например, для каждой картинки WordPress формирует отдельную страницу, которая только эту самую картинку и содержит. Чтобы этот «мусор» не отдавать поисковикам — пишем Disallow: */attachment/.

Традиционно указываем главное зеркало сайта — Host: site.ru. Можно не указывать, если корректно настроили 301-й редирект с www.site.ru на site.ru (или наоборот).

Ну и в конце — пропишем адрес XML-карты сайта (если она есть, конечно) — Sitemap: http://site.ru/sitemap.xml. Если нет — то её теперь можно создать с помощью All In One Seo Pack — читайте, как сделать XML-карту для WP.

Пару слов про скрытие в файле Robots.txt т.н. трекбэков и категорий:

Трекбэки (trackbacks) при создании ЧПУ и запрете страниц, оканчивающихся на .php, в индекс практически не залетают (во всяком случае, мною для WP это ни разу замечено не было). Но если хочется запретить, то можно в Robots.txt добавить Disallow: /*/trackback

Иногда запрещают индексацию всех категорий — Disallow: /category/ — но обычно это не имеет смысла, т.к. категории могут выдаваться в поиске по ряду запросов и помогают в распределении веса по страницам.

Однако, если есть вложенность категорий, то контент основных категорий дублируется с контентом подкатегорий, так что можно запретить основные категории :). Например, так:

Disallow: /category/*/
Allow: /category/*/*/

Вообще, с настройками этого файла можно много поэкспериментировать. Тем более, есть хорошая вещь — инструмент анализа robots.txt от Яндекса.

Кроме того, следует запретить все нежелательные для индексации документы форматов .txt, .doc, .pdf и т.д., на которые есть ссылки со страниц вашего сайта. Записать можно так: Disallow: *.txt$ — закроем все .txt-файлы.

Можно ещё прописать Disallow: /wp-admin/. Но эта запись будет лишней, если спрятать стандартный адрес входа в админку (что неплохо бы сделать). Смотрите — как легко защитить админку WordPress.

Если короче, то для «среднестатистического» сайта на WordPress правильный Robots.txt будет такой:

User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /tag/
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Можно просто скопировать и не думать..

Настройка файла Robots.txt для WordPress при продаже ссылок

Если основная цель — продавать ссылки с сайта в автоматическом режиме, то здесь главное — загнать и удержать в индексе как можно больше страниц.

Такой вариант:

User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Почему так?

Здесь «отдаём» поисковому роботу метки — пусть сам решает, что из них выкинуть, а что оставить в индексе. В любом случае, количество страниц в индексе увеличится (что и требуется).

Естественно, полный «мусор» держаться там долго не будет, поэтому feed’ы, различные динамические страницы и страницы-attachment’ы лучше исключить. А в остальном — всё то же (хотя с attachment’ами ещё можно поэкспериментировать ).

Также по теме статьи можно почитать:

Как итог

Таким образом, получается вполне красивый и лаконичный файл Robots.txt для WordPress. Если есть вопросы по написанному выше — спрашивайте в комментариях.

Да, кстати, если вы указываете две XML-карты (http://site.ru/sitemap.xml + http://site.ru/sitemap.xml.gz) — также расскажите, зачем вы это делаете ;).

P.S. Обязательно ознакомьтесь с информацией о Robots.txt для Google — возможно, вы узнаете кое-что новое для себя..

P.P.S. Update 1.6.2015

Хорошо, что вы дошли до сюда. Забудьте всё, что прочитали выше и изучите информацию о правильном robots.txt для Гугла и Яндекса.

web-ru.net - всё о продвижении сайтов
Случайные публикации:
  • Что такое низкочастотные запросы, среднечастотные и высокочастотные запросыЧто такое низкочастотные запросы, среднечастотные и высокочастотные запросы...проходит не очень просто. Условно говоря, если взять шкалу с
  • Обновление Wordstat и определение сезонности запроса в ЯндексеОбновление Wordstat и определение сезонности запроса в ЯндексеОбновление различных сервисов у Яндекса и Google имеют подозрительную синхроннос...
  • Что такое анкор ссылки (anchor)? Текстовые и безанкорные ссылкиЧто такое анкор ссылки (anchor)? Текстовые и безанкорные ссылкиДанная статья будет на тему SEO-терминов. Тем более, что понятие анкора ссылки я...
  • Пластиковая карта Яндекс.Денег или карта Киви? Сравнение и обзорПластиковая карта Яндекс.Денег или карта Киви? Сравнение и обзорДавно хотелось сделать обзор двух пластиковых карточек от платёжных систем Яндек...
  • Проверка аффилиат-фильтра и признаки аффилированности сайтовПроверка аффилиат-фильтра и признаки аффилированности сайтов...определяют схожесть/расхожесть дизайна, а при одинаковых дизайне и СЯ это намекает им
Оставьте комментарий:
комментариев 17
Через сайт Через ВКонтакте Через Facebook
  1. Александр:

    Здравствуйте, Петр!
    Я бы и рад закрыть динамичные ссылки от робота, но многие из них уже в «топе» Яшки и Гугла. Вот если бы их переделать в статичные! Но у меня страница для публикаций имеет статичные чпу, а в отдельной рубрике публикую контент с минусовками. Вот пример (если можно): по запросу — минусовки и тексты песен — я на четвертой позиции (статичная). А по запросу — тексты песен даврона гаипова (динамичная)вообще на первом. Как с этим быть?!

    Ответить
    • Пётр:

      Александр,
      само по себе наличие страниц с динамичными URL — это не плохо. Плохо, когда динамичная и статичная дублируют друг друга.
      Если совсем охота избавиться от «динамики» — делайте статичные URL + 301 редирект с динамических URL (старых) на статичные (новые).

      Ответить
  2. Георгий:

    Петр, а на заказ составите правильный robots.txt? =)

    Ответить
  3. Наталия:

    Спасибо, Петр, за Вашу щедрую душу! Замечательный материал и прекрасно подан! =) *IN LOVE*

    Ответить
  4. Лариса:

    Петр, здравствуйте! Настроила файл роботс, для Яндекса прописала директиву «Host: site.ru» Но, у меня установлен плагин Oll in seo pack, который оптимизирует файл роботс, а попросту «выкидывает» эту директиву из файла. стирает ее, как некорректную. В общем-то я прописывала главные зеркала в инструментах для вебмастеров Яндекс и Гугл. Подскажите, так ли важна эта директива или нужно «смириться» с ее удалением оптимизатором?

    Ответить
    • Пётр:

      Здравствуйте, Лариса.
      Не очень важна, главное, чтоб сайт открывался однозначно — либо с «www», либо без «www».

      Ответить
  5. Андрей:

    Пётр, Вы пишете про Disallow: /page/ — запрещает лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной. Но лишние дубли страниц появляются и в других ситуациях. Например при навигации по перечню статей в рубрике. Например, на Вашем сайте это: web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/. Поэтому, думаю, правильнее писать Disallow: /*page/ или Disallow: */page/

    Ответить
    • Пётр:

      Андрей, я другое имел в виду.
      Страницы вроде web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/ я не запрещал (хотя, в целом, можно).

      У WP есть ошибка, когда создаются страницы вида site.ru/page/123, которые являются дублями главной. Это я и запрещал.
      Если нужно запретить постраничную навигацию в категориях, то да, есть смысл писать такое:
      Disallow: */page/
      (но только не Disallow: /*page/ )

      Ответить
  6. Андрей:

    Учусь, разбираюсь и начинаю лучше понимать:
    Суть проблемы — в том, что считать ЛИШНИМИ страницами в индексе, лишними страницами для поисковых систем. И чаще НЕ нужно отказываться от индексации страниц навигации по категориям и тегам, чем нужно.

    И понравилось в Вашей статье правило :
    Disallow: /category/*/
    Allow: /category/*/*/.
    Я не встречал его у других авторов. Только надо с ним аккуратно поступать — учитывать свою степень вложенности категорий.

    Ответить
  7. Мария:

    А как правильно прописать, если страница с картинкой это ссылка вида: сайт/название записи/название картинки без расширения
    Не нашла подходящего варианта в вашей статье, но очень надо

    Ответить
  8. Наталья:

    добрый день, Петр
    спасибо за статью, для чайника в самый раз..я только-только делаю первые шаги, информации очень много и сейчас у меня каша в голове.. правильно ли я понимаю, мой robots вообще запрещает индексацию? я вчера только сняла галочку в настройках WP «не применять инд-цию». Мне вручную надо исправлять свой Robots?
    User-Agent: *
    Allow: /wp-content/uploads/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /template.html
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    Disallow: /tag
    Disallow: /archive
    Disallow: */page
    Disallow: */trackback/
    Disallow: /category
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /feed/
    Disallow: /?s=
    Host: zactolom.ru
    Sitemap: http:// zactolom.ru/sitemap.xml

    Ответить
    • Пётр:

      Здравствуйте, Наталья

      Вообще, для каждого сайта — свой robots.txt, т.к. владелец обычно лучше знает, что ему запретить к индексации, а что оставить.

      Я бы, например, убрал это: Disallow: /category
      И если закрываете теги, архивы (Disallow: /archive) и папки, то ставьте слэш в конце адреса, т.е. лучше так: Disallow: /archive/

      Ответить
  9. Николай:

    Петр здравствуйте!
    Подскажите пожалуйста, изменил robots.txt, но когда в гугле нажимаю проверить его, и перехожу по адресу blogenergetika.ru/robots.txt
    то показывается следующее
    User-agent: *
    Disallow: /
    Хотя сам роботс такой
    User-agent: *
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: *.php$
    Disallow: /category/*/
    Allow: /category/*/*/
    Disallow: *.php$
    Disallow: /search/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
    Sitemap: http:// blogenergetika.ru/sitemap.xml

    User-agent: Yandex
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: *.php$
    Disallow: /category/*/
    Allow: /category/*/*/
    Disallow: *.php$
    Disallow: /search/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Host: blogenergetika.ru
    Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
    Sitemap: http:// blogenergetika.ru/sitemap.xml

    Ответить
    • Пётр:

      Здравствуйте, Николай
      В Гугле такое отображается:
      User-agent: *
      Disallow: /
      ?

      Возможно, он разобрать ваш роботс не может, или же все правила сводятся к этим двум строчкам.
      Файл у вас и правда навороченный, сделайте покороче.

      Ответить
сайт web-ru.net
Я не спамлю...