Правильные настройки файла Robots.txt для WordPress — быстро и без плагинов!

правильный Robots.txt для WordPress

  Создаём роботс.тхт для WP правильно

Здесь уже есть довольно много статей  по теме настройки файла Robots.txt, однако люди иногда спрашивают — как настроить его конкретно для WordPress-сайтов? Это, в общем-то, и не удивительно, если учесть особую популярность данной CMS.

Кажется, многие владельцы сайтов на WP просто копируют содержимое этого файла друг у друга (или вообще «перепоручают» его создание разным плагинам). Так что сейчас опишу процесс создания Robots.txt конкретно для вордпресс и расскажу, зачем и почему прописывать именно такие настройки.

Делаем правильный Robots.txt для WordPress

Здесь я обычно выделяю два варианта создания этого файла:

  1. для продвижения по трафику (т.е. когда сайту нужны позиции в ПС);
  2. для продвижения по показателям (т.е. когда нужно нарастить тИЦ и PR).

В первом случае нужно выкинуть из индекса (лучше сказать — не дать попасть в индекс) дубли страниц. Да и вообще всё лишнее.

Во втором — оставить как можно больше страниц (чтоб было, с чего ссылки продавать), но лишнее также выкинуть.

Первый вариант всё же более популярен, с него и начну.

Настройка файла Robots.txt для WordPress для трафикового продвижения

Для большего понимания рекомендую сразу прочитать это:

Сам вариант такой:

User-agent: *            # обращаемся ко всем поисковым роботам
Disallow: *?               # запрещаем все динамические страницы 
Disallow: *.php$       # запрещаем все страницы с расширением «.php»
Disallow: /страница поиска/     #запрещаем страницу результатов поиска
Disallow: /tag/          # запрещаем все страницы тегов (меток)
Disallow: /feed/       # запрещаем XML-фид последних статей
Disallow: /page/      # запрещаем лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной (иначе — НЕ указываем)
Disallow: */attachment/ # запрещаем страницы вложений
Host: site.ru                          # указываем главное зеркало для Яндекса
Sitemap: http://site.ru/sitemap.xml  # указываем адрес XML-карты сайта

Почему всё так?

Этот вариант предполагает, что настроены ЧПУ URL и установлен какой-нибудь WP-плагин для транслита вашего родного языка в латиницу. Так что все динамические URL (содержащие знак вопроса) следует сразу запретить, т.к. лишние параметры может приписать какой-нибудь посетитель, страница ответа на комментарии или тот же Feedburner. Поэтому — Disallow: *?.

По той же причине — закрываем страницы с расширением «.php» — Disallow: *.php$

Следует скрыть страницу с результатами поиска (если она имеется), например Disallow: /search/. Но можно просто добавить Гугл-поиск для сайта, не создавая новых страниц — и необходимость в этой директиве для Robots.txt отпадёт.

Также скрываем страницы меток (Disallow: /tag/) и фидов (Disallow: /feed/) — чтобы не предлагать поисковикам дубли.

Disallow: /page/ — в WordPress есть странная ошибка: если в качестве главной страницы задать статическую, то создадутся дубли главной, вроде таких http://site.ru/page/2/. Их-то и прячем.

Скрываем attachment’ы — любые страницы вложений. Например, для каждой картинки WordPress формирует отдельную страницу, которая только эту самую картинку и содержит. Чтобы этот «мусор» не отдавать поисковикам — пишем Disallow: */attachment/.

Традиционно указываем главное зеркало сайта — Host: site.ru. Можно не указывать, если корректно настроили 301-й редирект с www.site.ru на site.ru (или наоборот).

Ну и в конце — пропишем адрес XML-карты сайта (если она есть, конечно) — Sitemap: http://site.ru/sitemap.xml. Если нет — то её теперь можно создать с помощью All In One Seo Pack — читайте, как сделать XML-карту для WP.

Пару слов про скрытие в файле Robots.txt т.н. трекбэков и категорий:

Трекбэки (trackbacks) при создании ЧПУ и запрете страниц, оканчивающихся на .php, в индекс практически не залетают (во всяком случае, мною для WP это ни разу замечено не было). Но если хочется запретить, то можно в Robots.txt добавить Disallow: /*/trackback

Иногда запрещают индексацию всех категорий — Disallow: /category/ — но обычно это не имеет смысла, т.к. категории могут выдаваться в поиске по ряду запросов и помогают в распределении веса по страницам.

Однако, если есть вложенность категорий, то контент основных категорий дублируется с контентом подкатегорий, так что можно запретить основные категории :). Например, так:

Disallow: /category/*/
Allow: /category/*/*/

Вообще, с настройками этого файла можно много поэкспериментировать. Тем более, есть хорошая вещь — инструмент анализа robots.txt от Яндекса.

Кроме того, следует запретить все нежелательные для индексации документы форматов .txt, .doc, .pdf и т.д., на которые есть ссылки со страниц вашего сайта. Записать можно так: Disallow: *.txt$ — закроем все .txt-файлы.

Можно ещё прописать Disallow: /wp-admin/. Но эта запись будет лишней, если спрятать стандартный адрес входа в админку (что неплохо бы сделать). Смотрите — как легко защитить админку WordPress.

Если короче, то для «среднестатистического» сайта на WordPress правильный Robots.txt будет такой:

User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /tag/
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Можно просто скопировать и не думать..

Настройка файла Robots.txt для WordPress при продаже ссылок

Если основная цель — продавать ссылки с сайта в автоматическом режиме, то здесь главное — загнать и удержать в индексе как можно больше страниц.

Такой вариант:

User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Почему так?

Здесь «отдаём» поисковому роботу метки — пусть сам решает, что из них выкинуть, а что оставить в индексе. В любом случае, количество страниц в индексе увеличится (что и требуется).

Естественно, полный «мусор» держаться там долго не будет, поэтому feed’ы, различные динамические страницы и страницы-attachment’ы лучше исключить. А в остальном — всё то же (хотя с attachment’ами ещё можно поэкспериментировать ).

Также по теме статьи можно почитать:

Как итог

Таким образом, получается вполне красивый и лаконичный файл Robots.txt для WordPress. Если есть вопросы по написанному выше — спрашивайте в комментариях.

Да, кстати, если вы указываете две XML-карты (http://site.ru/sitemap.xml + http://site.ru/sitemap.xml.gz) — также расскажите, зачем вы это делаете ;).

P.S. Обязательно ознакомьтесь с информацией о Robots.txt для Google — возможно, вы узнаете кое-что новое для себя..

P.P.S. Update 1.6.2015

Хорошо, что вы дошли до сюда. Забудьте всё, что прочитали выше и изучите информацию о правильном robots.txt для Гугла и Яндекса.

1 Star2 Stars3 Stars4 Stars5 Stars (1 оценок, среднее: 5,00 из 5)
Loading...

Случайные публикации:
  • Бумшакалака - немного юмора в создании и продвижении сайтовБумшакалака - немного юмора в создании и продвижении сайтов...ьно полезное? Лояльных клиентов, заказы товаров и т.п..? На днях
  • Защита WordPress от спама. Плагин Akismet, как получить ключ бесплатно? ВидеоурокЗащита WordPress от спама. Плагин Akismet, как получить ключ бесплатно? ВидеоурокВскоре после того, как вы создадите сайт на WordPress, его на...
  • Плагин WP Comment Quicktags Plus для WordPress. Установка и настройкиПлагин WP Comment Quicktags Plus для WordPress. Установка и настройки...комментария будет примерно следующее: Т.е. появится несколько кнопок. Как
  • Новая биржа статей RodinaLinkov.ru - мой отзыв, обзор и инструкция по применениюНовая биржа статей RodinaLinkov.ru - мой отзыв, обзор и инструкция по применению...количество ссылок - сколько ссылок вы разрешаете расставлять оптимизаторам в
  • Как оптимизировать изображения для сайта - 7 базовых советаКак оптимизировать изображения для сайта - 7 базовых совета...думайте, а не лучше ли сразу загрузить фото, с «облегченным» качеством. Поверьте,
Оставьте комментарий:
комментариев 17
  1. Александр:

    Здравствуйте, Петр!
    Я бы и рад закрыть динамичные ссылки от робота, но многие из них уже в «топе» Яшки и Гугла. Вот если бы их переделать в статичные! Но у меня страница для публикаций имеет статичные чпу, а в отдельной рубрике публикую контент с минусовками. Вот пример (если можно): по запросу — минусовки и тексты песен — я на четвертой позиции (статичная). А по запросу — тексты песен даврона гаипова (динамичная)вообще на первом. Как с этим быть?!

    Ответить
    • Пётр:

      Александр,
      само по себе наличие страниц с динамичными URL — это не плохо. Плохо, когда динамичная и статичная дублируют друг друга.
      Если совсем охота избавиться от «динамики» — делайте статичные URL + 301 редирект с динамических URL (старых) на статичные (новые).

      Ответить
  2. Георгий:

    Петр, а на заказ составите правильный robots.txt? =)

    Ответить
  3. Наталия:

    Спасибо, Петр, за Вашу щедрую душу! Замечательный материал и прекрасно подан! =) *IN LOVE*

    Ответить
  4. Лариса:

    Петр, здравствуйте! Настроила файл роботс, для Яндекса прописала директиву «Host: site.ru» Но, у меня установлен плагин Oll in seo pack, который оптимизирует файл роботс, а попросту «выкидывает» эту директиву из файла. стирает ее, как некорректную. В общем-то я прописывала главные зеркала в инструментах для вебмастеров Яндекс и Гугл. Подскажите, так ли важна эта директива или нужно «смириться» с ее удалением оптимизатором?

    Ответить
    • Пётр:

      Здравствуйте, Лариса.
      Не очень важна, главное, чтоб сайт открывался однозначно — либо с «www», либо без «www».

      Ответить
  5. Андрей:

    Пётр, Вы пишете про Disallow: /page/ — запрещает лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной. Но лишние дубли страниц появляются и в других ситуациях. Например при навигации по перечню статей в рубрике. Например, на Вашем сайте это: web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/. Поэтому, думаю, правильнее писать Disallow: /*page/ или Disallow: */page/

    Ответить
    • Пётр:

      Андрей, я другое имел в виду.
      Страницы вроде web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/ я не запрещал (хотя, в целом, можно).

      У WP есть ошибка, когда создаются страницы вида site.ru/page/123, которые являются дублями главной. Это я и запрещал.
      Если нужно запретить постраничную навигацию в категориях, то да, есть смысл писать такое:
      Disallow: */page/
      (но только не Disallow: /*page/ )

      Ответить
  6. Андрей:

    Учусь, разбираюсь и начинаю лучше понимать:
    Суть проблемы — в том, что считать ЛИШНИМИ страницами в индексе, лишними страницами для поисковых систем. И чаще НЕ нужно отказываться от индексации страниц навигации по категориям и тегам, чем нужно.

    И понравилось в Вашей статье правило :
    Disallow: /category/*/
    Allow: /category/*/*/.
    Я не встречал его у других авторов. Только надо с ним аккуратно поступать — учитывать свою степень вложенности категорий.

    Ответить
  7. Мария:

    А как правильно прописать, если страница с картинкой это ссылка вида: сайт/название записи/название картинки без расширения
    Не нашла подходящего варианта в вашей статье, но очень надо

    Ответить
  8. Наталья:

    добрый день, Петр
    спасибо за статью, для чайника в самый раз..я только-только делаю первые шаги, информации очень много и сейчас у меня каша в голове.. правильно ли я понимаю, мой robots вообще запрещает индексацию? я вчера только сняла галочку в настройках WP «не применять инд-цию». Мне вручную надо исправлять свой Robots?
    User-Agent: *
    Allow: /wp-content/uploads/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /template.html
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    Disallow: /tag
    Disallow: /archive
    Disallow: */page
    Disallow: */trackback/
    Disallow: /category
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /feed/
    Disallow: /?s=
    Host: zactolom.ru
    Sitemap: http:// zactolom.ru/sitemap.xml

    Ответить
    • Пётр:

      Здравствуйте, Наталья

      Вообще, для каждого сайта — свой robots.txt, т.к. владелец обычно лучше знает, что ему запретить к индексации, а что оставить.

      Я бы, например, убрал это: Disallow: /category
      И если закрываете теги, архивы (Disallow: /archive) и папки, то ставьте слэш в конце адреса, т.е. лучше так: Disallow: /archive/

      Ответить
  9. Николай:

    Петр здравствуйте!
    Подскажите пожалуйста, изменил robots.txt, но когда в гугле нажимаю проверить его, и перехожу по адресу blogenergetika.ru/robots.txt
    то показывается следующее
    User-agent: *
    Disallow: /
    Хотя сам роботс такой
    User-agent: *
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: *.php$
    Disallow: /category/*/
    Allow: /category/*/*/
    Disallow: *.php$
    Disallow: /search/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
    Sitemap: http:// blogenergetika.ru/sitemap.xml

    User-agent: Yandex
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: *.php$
    Disallow: /category/*/
    Allow: /category/*/*/
    Disallow: *.php$
    Disallow: /search/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Host: blogenergetika.ru
    Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
    Sitemap: http:// blogenergetika.ru/sitemap.xml

    Ответить
    • Пётр:

      Здравствуйте, Николай
      В Гугле такое отображается:
      User-agent: *
      Disallow: /
      ?

      Возможно, он разобрать ваш роботс не может, или же все правила сводятся к этим двум строчкам.
      Файл у вас и правда навороченный, сделайте покороче.

      Ответить
Я не спамлю...