Правильные настройки файла Robots.txt для WordPress — быстро и без плагинов!

Создаём роботс.тхт для WP правильно

Здесь уже есть довольно много статей по теме настройки файла Robots.txt, однако люди иногда спрашивают — как настроить его конкретно для WordPress-сайтов? Это, в общем-то, и не удивительно, если учесть особую популярность данной CMS.

Кажется, многие владельцы сайтов на WP просто копируют содержимое этого файла друг у друга (или вообще «перепоручают» его создание разным плагинам). Так что сейчас опишу процесс создания Robots.txt конкретно для вордпресс и расскажу, зачем и почему прописывать именно такие настройки.

Делаем правильный Robots.txt для WordPress

Здесь я обычно выделяю два варианта создания этого файла:

для продвижения по трафику (т.е. когда сайту нужны позиции в ПС);
для продвижения по показателям (т.е. когда нужно нарастить тИЦ и PR).

В первом случае нужно выкинуть из индекса (лучше сказать — не дать попасть в индекс) дубли страниц. Да и вообще всё лишнее.

Во втором — оставить как можно больше страниц (чтоб было, с чего ссылки продавать), но лишнее также выкинуть.

Первый вариант всё же более популярен, с него и начну.

Настройка файла Robots.txt для WordPress для трафикового продвижения

Для большего понимания рекомендую сразу прочитать это:

Что такое Robots.txt, зачем нужен и как настраивать — общая, подробная информация, но без «привязки» к конкретной CMS.
Создание Robots.txt для разных роботов Гугла и Яндекса — можно что-то запретить основному поисковому роботу, но разрешить рекламному (например, роботу Google AdSense).
Справка Яндекса по роботс.тхт — очень полезно.

Сам вариант такой:

User-agent: * # обращаемся ко всем поисковым роботам
Disallow: *? # запрещаем все динамические страницы
Disallow: *.php$ # запрещаем все страницы с расширением «.php»
Disallow: /страница поиска/ #запрещаем страницу результатов поиска
Disallow: /tag/ # запрещаем все страницы тегов (меток)
Disallow: /feed/ # запрещаем XML-фид последних статей
Disallow: /page/ # запрещаем лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной (иначе — НЕ указываем)
Disallow: */attachment/ # запрещаем страницы вложений
Host: site.ru # указываем главное зеркало для Яндекса
Sitemap: http://site.ru/sitemap.xml # указываем адрес XML-карты сайта

Почему всё так?

Этот вариант предполагает, что настроены ЧПУ URL и установлен какой-нибудь WP-плагин для транслита вашего родного языка в латиницу. Так что все динамические URL (содержащие знак вопроса) следует сразу запретить, т.к. лишние параметры может приписать какой-нибудь посетитель, страница ответа на комментарии или тот же Feedburner. Поэтому — Disallow: *?.

По той же причине — закрываем страницы с расширением «.php» — Disallow: *.php$

Следует скрыть страницу с результатами поиска (если она имеется), например Disallow: /search/. Но можно просто добавить Гугл-поиск для сайта, не создавая новых страниц — и необходимость в этой директиве для Robots.txt отпадёт.

Также скрываем страницы меток (Disallow: /tag/) и фидов (Disallow: /feed/) — чтобы не предлагать поисковикам дубли.

Disallow: /page/ — в WordPress есть странная ошибка: если в качестве главной страницы задать статическую, то создадутся дубли главной, вроде таких http://site.ru/page/2/. Их-то и прячем.

Скрываем attachment’ы — любые страницы вложений. Например, для каждой картинки WordPress формирует отдельную страницу, которая только эту самую картинку и содержит. Чтобы этот «мусор» не отдавать поисковикам — пишем Disallow: */attachment/.

Традиционно указываем главное зеркало сайта — Host: site.ru. Можно не указывать, если корректно настроили 301-й редирект с www.site.ru на site.ru (или наоборот).

Ну и в конце — пропишем адрес XML-карты сайта (если она есть, конечно) — Sitemap: http://site.ru/sitemap.xml. Если нет — то её теперь можно создать с помощью All In One Seo Pack — читайте, как сделать XML-карту для WP.

Пару слов про скрытие в файле Robots.txt т.н. трекбэков и категорий:

Трекбэки (trackbacks) при создании ЧПУ и запрете страниц, оканчивающихся на .php, в индекс практически не залетают (во всяком случае, мною для WP это ни разу замечено не было). Но если хочется запретить, то можно в Robots.txt добавить Disallow: /*/trackback

Иногда запрещают индексацию всех категорий — Disallow: /category/ — но обычно это не имеет смысла, т.к. категории могут выдаваться в поиске по ряду запросов и помогают в распределении веса по страницам.

Однако, если есть вложенность категорий, то контент основных категорий дублируется с контентом подкатегорий, так что можно запретить основные категории Например, так:

Disallow: /category/*/
Allow: /category/*/*/

Вообще, с настройками этого файла можно много поэкспериментировать. Тем более, есть хорошая вещь — инструмент анализа robots.txt от Яндекса.

Кроме того, следует запретить все нежелательные для индексации документы форматов .txt, .doc, .pdf и т.д., на которые есть ссылки со страниц вашего сайта. Записать можно так: Disallow: *.txt$ — закроем все .txt-файлы.

Можно ещё прописать Disallow: /wp-admin/. Но эта запись будет лишней, если спрятать стандартный адрес входа в админку (что неплохо бы сделать). Смотрите — как легко защитить админку WordPress.

Если короче, то для «среднестатистического» сайта на WordPress правильный Robots.txt будет такой:

User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /tag/
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Можно просто скопировать и не думать..

Настройка файла Robots.txt для WordPress при продаже ссылок

Если основная цель — продавать ссылки с сайта в автоматическом режиме, то здесь главное — загнать и удержать в индексе как можно больше страниц.

Такой вариант:

User-agent: *
Disallow: *?
Disallow: *.php$
Disallow: /feed/
Disallow: /wp-admin/
Disallow: */attachment/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Почему так?

Здесь «отдаём» поисковому роботу метки — пусть сам решает, что из них выкинуть, а что оставить в индексе. В любом случае, количество страниц в индексе увеличится (что и требуется).

Естественно, полный «мусор» держаться там долго не будет, поэтому feed’ы, различные динамические страницы и страницы-attachment’ы лучше исключить. А в остальном — всё то же (хотя с attachment’ами ещё можно поэкспериментировать ).

Также по теме статьи можно почитать:

Как итог

Таким образом, получается вполне красивый и лаконичный файл Robots.txt для WordPress. Если есть вопросы по написанному выше — спрашивайте в комментариях.

Да, кстати, если вы указываете две XML-карты (http://site.ru/sitemap.xml + http://site.ru/sitemap.xml.gz) — также расскажите, зачем вы это делаете

P.S. Обязательно ознакомьтесь с информацией о Robots.txt для Google — возможно, вы узнаете кое-что новое для себя..

P.P.S. Update 1.6.2015

Хорошо, что вы дошли до сюда. Забудьте всё, что прочитали выше и изучите информацию о правильном robots.txt для Гугла и Яндекса.

(2 оценок, среднее: 5,00 из 5)

Случайные публикации:

Неожиданный эффект от Postila.ru...120 человек на рассылку. Причём 5634 перехода всего лишь с одного поста. Мне
Сезонный и праздничный трафик. Как он проявляется и как его использовать...ает внимания, особенно если у вас сайт на "общую" тему, сайт с полезными
Используем форумы для раскрутки сайта в поисковых системахСоздание ссылочной массы – это главная забота любого вебмастера, создаю...
5 способов успешной оптимизации конверсии сайта...лись, как же поднять конверсию, что нужно сделать, чтобы как можно больше людей
Что интересного в Robots.txt для Google?...акая: запрещаем индексацию страниц с помощью мета-тега robots. Например, делаем так, чтобы на

Дата: 25.03.2014 |

Web-Ru.net › рубрика ➨✔➨ ❝WordPress❞+

| 18 комментариев | автор: Пётр

Оставьте комментарий:

комментариев 18

Александр:

26 марта 2014 в 1:39

Здравствуйте, Петр!
Я бы и рад закрыть динамичные ссылки от робота, но многие из них уже в «топе» Яшки и Гугла. Вот если бы их переделать в статичные! Но у меня страница для публикаций имеет статичные чпу, а в отдельной рубрике публикую контент с минусовками. Вот пример (если можно): по запросу — минусовки и тексты песен — я на четвертой позиции (статичная). А по запросу — тексты песен даврона гаипова (динамичная)вообще на первом. Как с этим быть?!

Ответить
- Пётр:
  
  27 марта 2014 в 1:20
  
  Александр,
  само по себе наличие страниц с динамичными URL — это не плохо. Плохо, когда динамичная и статичная дублируют друг друга.
  Если совсем охота избавиться от «динамики» — делайте статичные URL + 301 редирект с динамических URL (старых) на статичные (новые).
  
  Ответить
Георгий:

26 марта 2014 в 13:33

Петр, а на заказ составите правильный robots.txt? =)

Ответить
- Пётр:
  
  27 марта 2014 в 1:29
  
  Георгий, да ведь и так всё понятно
  
  Ответить
Наталия:

26 марта 2014 в 18:30

Спасибо, Петр, за Вашу щедрую душу! Замечательный материал и прекрасно подан! =) *IN LOVE*

Ответить
- Пётр:
  
  27 марта 2014 в 1:31
  
  Ну, прям..
  Наталия, благодарю
  
  Ответить
Лариса:

30 октября 2014 в 17:34

Петр, здравствуйте! Настроила файл роботс, для Яндекса прописала директиву «Host: site.ru» Но, у меня установлен плагин Oll in seo pack, который оптимизирует файл роботс, а попросту «выкидывает» эту директиву из файла. стирает ее, как некорректную. В общем-то я прописывала главные зеркала в инструментах для вебмастеров Яндекс и Гугл. Подскажите, так ли важна эта директива или нужно «смириться» с ее удалением оптимизатором?

Ответить
- Пётр:
  
  7 ноября 2014 в 3:34
  
  Здравствуйте, Лариса.
  Не очень важна, главное, чтоб сайт открывался однозначно — либо с «www», либо без «www».
  
  Ответить
Андрей:

4 декабря 2014 в 19:27

Пётр, Вы пишете про Disallow: /page/ — запрещает лишние страницы в WP, которые появляются после указания статичной страницы в качестве главной. Но лишние дубли страниц появляются и в других ситуациях. Например при навигации по перечню статей в рубрике. Например, на Вашем сайте это: web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/. Поэтому, думаю, правильнее писать Disallow: /*page/ или Disallow: */page/

Ответить
- Пётр:
  
  6 декабря 2014 в 3:17
  
  Андрей, я другое имел в виду.
  Страницы вроде web-ru.net/category/kontekstnaya-reklama/vebmasteram/page/2/ я не запрещал (хотя, в целом, можно).
  
  У WP есть ошибка, когда создаются страницы вида site.ru/page/123, которые являются дублями главной. Это я и запрещал.
  Если нужно запретить постраничную навигацию в категориях, то да, есть смысл писать такое:
  Disallow: */page/
  (но только не Disallow: /*page/ )
  
  Ответить
Андрей:

7 декабря 2014 в 2:47

Учусь, разбираюсь и начинаю лучше понимать:
Суть проблемы — в том, что считать ЛИШНИМИ страницами в индексе, лишними страницами для поисковых систем. И чаще НЕ нужно отказываться от индексации страниц навигации по категориям и тегам, чем нужно.
…
И понравилось в Вашей статье правило :
Disallow: /category/*/
Allow: /category/*/*/.
Я не встречал его у других авторов. Только надо с ним аккуратно поступать — учитывать свою степень вложенности категорий.

Ответить
Мария:

11 декабря 2014 в 12:06

А как правильно прописать, если страница с картинкой это ссылка вида: сайт/название записи/название картинки без расширения
Не нашла подходящего варианта в вашей статье, но очень надо

Ответить
- Пётр:
  
  16 декабря 2014 в 2:26
  
  Тут лучше закройте подобные страницы с помощью мета-тега Robots ( http://web-ru.net/prodvizhenie-sajta/seo/chto-takoe-meta-teg-robots-meta-name-robots-7-osnovnyh-variantov-googlebot.html )
  
  Ответить
Наталья:

23 января 2015 в 12:39

добрый день, Петр
спасибо за статью, для чайника в самый раз..я только-только делаю первые шаги, информации очень много и сейчас у меня каша в голове.. правильно ли я понимаю, мой robots вообще запрещает индексацию? я вчера только сняла галочку в настройках WP «не применять инд-цию». Мне вручную надо исправлять свой Robots?
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /archive
Disallow: */page
Disallow: */trackback/
Disallow: /category
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /feed/
Disallow: /?s=
Host: zactolom.ru
Sitemap: http:// zactolom.ru/sitemap.xml

Ответить
- Пётр:
  
  25 января 2015 в 1:00
  
  Здравствуйте, Наталья
  
  Вообще, для каждого сайта — свой robots.txt, т.к. владелец обычно лучше знает, что ему запретить к индексации, а что оставить.
  
  Я бы, например, убрал это: Disallow: /category
  И если закрываете теги, архивы (Disallow: /archive) и папки, то ставьте слэш в конце адреса, т.е. лучше так: Disallow: /archive/
  
  Ответить
Николай:

7 мая 2015 в 6:11

Петр здравствуйте!
Подскажите пожалуйста, изменил robots.txt, но когда в гугле нажимаю проверить его, и перехожу по адресу blogenergetika.ru/robots.txt
то показывается следующее
User-agent: *
Disallow: /
Хотя сам роботс такой
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: *.php$
Disallow: /category/*/
Allow: /category/*/*/
Disallow: *.php$
Disallow: /search/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
Sitemap: http:// blogenergetika.ru/sitemap.xml

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: *.php$
Disallow: /category/*/
Allow: /category/*/*/
Disallow: *.php$
Disallow: /search/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: blogenergetika.ru
Sitemap: http:// blogenergetika.ru/sitemap.xml.gz
Sitemap: http:// blogenergetika.ru/sitemap.xml

Ответить
- Пётр:
  
  10 мая 2015 в 16:16
  
  Здравствуйте, Николай
  В Гугле такое отображается:
  User-agent: *
  Disallow: /
  ?
  
  Возможно, он разобрать ваш роботс не может, или же все правила сводятся к этим двум строчкам.
  Файл у вас и правда навороченный, сделайте покороче.
  
  Ответить
pharmacy online:

27 апреля 2019 в 8:37

online prescription

Правильный файл Robots.txt для WordPress — настройки без плагина

Ответить