Создаем robots.txt для WordPress

Создаем robots.txt для WordPress

3741
17
ПОДЕЛИТЬСЯ

К сожалению в WordPress нет штатных средств для создания robots.txt, однако его наличие, и правильное наполнение — жизненно важно для нормального функционирования сайта.

robots.txt сообщает поисковым системам о том, какие URL и разделы сайта не должны быть проиндексированы. Это важно в контексте того, что поисковые системы  очень не любят дубли публикаций,  как пример, на эту страницу можно попасть по адресу http://tkacheff.ru/683/robots-txt-dlya-wordpress/ и по адресу http://tkacheff.ru/?p=683 поэтому один из URL необходимо закрыть от индексации, во избежании появления дублей.

Так же дублированный контент может появляться на страницах категорий, тегов, архивов, и архивов дат, такие ситуации, для лучшей поисковой оптимизации вашего сайта, следует избегать. Помимо этого, хорошим тоном является закрытие от индексации страниц не несущих смысловой нагрузки, например страницу входа, регистрации, и.т.п…

Директивы robots.txt

User-agent:
Директива User-agent: указывает для какого поискового робота будут работать правила. Указав в качестве значения * мы подскажем поисковым системам, что правила действительны для любого поискового робота. Если необходимо, чтобы правила работали для конкретного робота, то нужно указать в эт ой директиве его имя, для Яндекса — Yandex, для Гугла — Googlebot

Disallow:
Директива Disallow: указывает поисковому роботу, правила для запрета индексации URL указанных в значении директивы. Следует помнить, что под фильтр могут попасть URL которым Вы на первый взгляд не хотели запрещать индексацию, например указав Disallow: */kabinet Думая, что это закроет URL http://site/kabinet на котором у Вас находится личный кабинет пользователя, вы заодно еще закроете статью с URL http://site/mebel/kabinet-direktora/

Allow:
Директива Allow: может находиться как до, так и после директивы Disallow: и является противоположностью предыдущей, она разрешает поисковому роботу индексировать URL указазанный в значении директивы. Например указав Allow: */uploads мы намеренно разрешаем поисковым системам индексировать URL в которых встречается /uploads. Для WordPress это правило обязательно, поскольку обычно мы запрещаем индексировать URL начинающиеся с /wp-, и под это правило попадает каталог для размещения медиафайлов /wp-content/uploads и, чтобы перебить запрещающее правило Disallow: /wp- необходимо явно разрешить индексацию URL /uploads, ведь там у нас располагаются медиафайлы которые должны индексироваться.

Sitemap:
Директива Sitemap: указывает поисковому роботу, где именно на Вашем сайте располагается файл с картой сайта в формате XML. Если у Вас несколько файлов с картой, то необходимо указывать каждый файл на новой строке, таким образом, у Вас в robots.txt будет столько директив Sitemap: сколько файлов карт сайта находится на Вашем сайте. Либо согласно правилам www.sitemaps.org Вы можете создать индексный файл карты сайта и в нем указать все ваши карты, тогда в robots.txt будет необходимо добавить только этот индексный файл Sitemap: http://site/sitemap-index.xml. Помимо XML файлов в директиве можно указать и сжатую GZ версию карты сайта.

Host:
Директива Host: действительна только для робота Яндекса, является межсекционной и работает в любом месте файла, должна отделяться от остальных директив пустой строкой. Поскольку директива понимается только поисковым роботом от Яндекс, рекомендую ставить ее в самый конец файла robots.txt, дыбы остальные роботы не «спотыкались» об нее. Этой директивой мы указываем Яндексу главное зеркало сайта.

Теперь, зная основные директивы, Вы легко можете составить свой собственный robots.txt для Вашего сайта. Файл можно создать в обычном блокноте, и разместить потом в корневой директории вашего сайта. Он должен открываться по адресу http://site/robots.txt

Пример robots.txt с этого сайта

comments powered by HyperComments
ПОДЕЛИТЬСЯ
Предыдущая статьяДинамический title на странице или категории WordPress
Следующая статьяПишем плагин для обратной связи — Метабокс Автора.
Tkacheff.ru
WordPress — БлогоСтроение. Так и хочется срифмовать с настроением ;-). Строя сайты, часто приходится уходить "в поиск", и разгребать мегобайты "мусора" в поисках нужного ответа. Это попытка собрать рабочие решения, проверенные и опробованные мной лично. Прежде всего для себя. Но если кому то пригодится - я буду только рад! Пусть Ваше настроение всегда остается оптимистичным!
Ольга
2014-01-08 19:50:31
Посмотрите пож-та, есть неверные строки, кот. надо убрать?(не сильна). User-agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: */comment-page* Disallow: */replytocom= Disallow: /author* Disallow: */?author=* Disallow: */tag Disallow: /?feed= Disallow: /?s= Disallow: /?se=
Tkacheff.ru
Tkacheff.ru
2014-01-08 20:13:15
Трудно ответить, не зная подноготную вашего сайта. например я не знаю что могут означать строки Disallow: /template.html Disallow: /cgi-bin Disallow: /?se= просто потому, что не знаю есть ли вообще в наличии на вашем сайте такие URL )) В большинстве случаев, достаточно кода, который я указал в записи, только убрать оттуда Disallow: /kabinet Disallow: /js/ Disallow: /css/ потому что таких URL в стандартной установке нет. В случае с Robot.txt важно следовать правилу - не навреди, поскольку запретить лишнего - легко, а вот потом открыть - это время. Поэтому запрещать лучше только то что точно знаешь, что оно необходимо. Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Заменяются одним правилом Disallow: /wp-
Ольга
2014-01-08 22:08:44
спасибо большое за помощь.
Дима
2014-01-16 01:05:10
на самом деле, вот эти правила: Disallow: *?s= Disallow: *?attachment_id= Disallow: /*?* Disallow: /*? заменяются одним Disallow: *? +я закрыл индексацию .пхп итого, мой роботс.тхт выглядит так: User-agent: * Disallow: /archive Disallow: /category Disallow: /tag Disallow: /wp- Disallow: */feed Disallow: */page/ Disallow: */trackback Disallow: *? Disallow: *.php Allow: */uploads Sitemap: http://сайт.com/sitemap_index.xml Host: сайт.com проверенно в гугл и яндекс вебмастер тулзах, всё работает :)
http://dfesffght.com
2014-01-21 07:28:12
<strong>http://dfesffght.com</strong> Read More: http://dfesffght.com
Sanatan Pan
2014-05-12 02:11:09
а в какой дериктории этот файл на новом Вордпресс
Артшторм, рекламная мастерская
2014-05-19 21:07:15
robots.txt должен находиться в корне сайта. создавать его нужно самому, в wordpress его сроду не было )
Sanatan Pan
2014-06-27 01:19:13
Спасибо. Еще вопросы есть. Для чего ставят Disallow: /page в вордпресс и ссылки главного меню закрывают в "rel=nofollow" ? В этой рубрике нужно закрывать от индексации ставя Disallow: /page/* ?
Tkacheff.ru
Tkacheff.ru
2014-06-27 01:27:49
Не за что. ссылки главного меню ставят в нофоллоу, честно говоря даже не могу придумать зачем, поскольку нофоллоу имеет ставить только на внешние ссылки, за пределы домена. ну разве что уменьшить для яндекса количество внутренних ссылок. Честно говоря не уверен в нужности такой оптимизации. Disallow: /page/* делают для исключения из индексирования страниц пагинации, (разбивки на страницы). Причин множество, начиная от уменьшения количества внутренних ссылок, заканчивая дублированием содержимого на этих страницах.
Tkacheff.ru
Tkacheff.ru
2014-06-27 01:29:51
Не за что. ссылки главного меню ставят в нофоллоу, честно говоря даже не могу придумать зачем, поскольку нофоллоу имеет смысл ставить только на внешние ссылки, за пределы домена. ну разве что уменьшить для яндекса количество внутренних ссылок. Честно говоря не уверен в нужности такой оптимизации. Disallow: /page/* делают для исключения из индексирования страниц пагинации, (разбивки на страницы). Причин множество, начиная от уменьшения количества внутренних ссылок, заканчивая дублированием содержимого на этих страницах.
Sanatan Pan
2014-06-27 02:05:48
Спасибо. в моем случае, если я поставлю Disallow: /page/* , то как робот перейдет на другие анонсы материалов по теме. Ставить мне это в роботс или нет? http://new-lady.com/zhenskaia-krasota
Sanatan Pan
2014-06-27 02:08:17
"WordPress — БлогоСтроение. Так и хочется срифмовать с настроением ;-). Строя сайты, часто приходится уходить "в поиск", и разгребать мегобайты "мусора" в поисках нужного ответа. " Это очень точно сказано.
Tkacheff.ru
Tkacheff.ru
2014-06-27 15:04:23
индексировать нужно не анонсы материалов, а сами материалы. а анонсы это и есть дублирование контента.
Sanatan Pan
2014-06-27 17:10:54
Спасибо. Удачи вам!
Allan
2014-07-01 17:15:48
<strong><a href="http://google.com/?n=o=o=b=21&amp;lol= almost@physiologic.initiator" rel="nofollow">.</a></strong> hello!!
Илья (triangle.co.ua)
2015-05-01 23:27:46
Здравствуйте. Вот посмотрите http://zamki-dveri.kiev.ua/robots.txt Disallow: /wp-includes Disallow: /wp-content/plugins Я бы не рекомендовал использовать. Потому что Google, Яндекс не смогут корректно отобразить содержимое сайта. Вы запретили доступ к плагинам и скриптам.
Михаил
2015-06-08 02:45:29
)) а зачем нужна индексация плагинов и скриптов? )
Илья (triangle.co.ua)
2015-06-08 02:50:46
Для корректного отображения подгружаемых стилей плагинов и скриптов. Можете в инструментами google просмотреть, как видит поисковик ваш сайт с закрытыми скриптами и стилями плагинов. Возможно, в индивидуальных случаях стоит прикрыть. Но в большинстве случаев, этого делать не стоит.
Tkacheff.ru
Tkacheff.ru
2015-07-25 23:13:01
По моему, вы что то себе в голову вложили, что не соответствует действительности )
prl
2016-09-08 17:36:54
<strong>prc</strong> <a href="http://www.flickr.com/people/viagra-otc/? viagra@otc.substitute" rel="nofollow">.</a>