Правильный robots.txt для WordPress

Опубликовано: 23.08.2018

О том, как сделать правильный robots.txt для WordPress написано уже достаточно. Однако, чтобы угодить своим читателям, я решил опубликовать свой пост на эту тему. Тем более, что моими коллегами эта тема раскрыта не полностью и тут можно многое добавить.

Что такое robots.txt и зачем он нужен?

robots.txt это текстовый документ, составленный в обыкновенном блокноте, расположенный в корневой директории блога и содержащий в себе инструкции по индексации для поисковых роботов. Проще говоря, что индексировать, а что нет. Наличие этого файла является обязательным условием для качественной внутренней поисковой оптимизации блога.

Как известно, блоги на платформе WordPress содержат в себе множество дублей (копий основного содержимого блога), а также целый набор служебных файлов. Дубли контента снижают его уникальность на домене и поисковые роботы могут наложить на блог серьезные штрафные санкции.

Чтобы повысить уникальность контента, облегчить поисковым ботам работу и тем самым улучшить качество индексации блога, нам и нужен robots.txt .

Правильный robots.txt для WordPress

Рассмотрим на примере моего robots.txt, как его правильно оформить и что в него должно входить.

Скачайте его себе на жесткий диск по этой ссылке и откройте для редактирования. В качестве редактора текстовых файлов настоятельно рекомендую использовать Notepad++.

Строки 6,7: Принято считать, что необходимо закрывать поисковым роботам доступ к служебным файлам в папках "wp-content" и "wp-includes". Но, Гугл по этому поводу нам говорит следующее:

Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.

Таким образом, для Googlebot не рекомендуется запрещать доступ к файлам в этих папках.

Строка 40:  С весны 2018 года директива " Host ", указывающая главное зеркало сайта Яндексу, больше не действует. Главное зеркало для нашей поисковой системы теперь определяется только через 301 редирект.

Строки 42,43 : Если у Вас еще не создана карта сайта , обязательно сделайте ее. В пути к файлам карты вместо моего адреса wordpress-book.ru пропишите свой. Этот ход сделает индексацию блога поисковиками полной и увеличит ее скорость.

Уже сейчас, можно сказать, что ваш правильный robots.txt для WordPress готов. В таком виде он подойдет для абсолютного большинства блогов и сайтов. Останется только закачать его в корень блога (обычно в папку public_html).

Сделать robots.txt для блога можно и с помощью плагина, например, PC Robots.txt. С его помощью вы сможете создать и редактировать свой robots.txt прямо в админке блога. Но я не советую использовать плагины для создания robots.txt, чтобы исключить лишнюю нагрузку на блог.

Содержание robots.txt любого блога или сайта, если он конечно есть, вы всегда можете посмотреть. Для этого достаточно в адресной строке браузера ввести к нему путь – https://wordpress-book.ru/robots.txt.

Ниже приведена информация по содержанию этого документа и некоторые рекомендации по его оформлению и анализу.

Звездочка " *", прописанная в тексте robots.txt, означает, что на ее месте допускается последовательность любых символов.

Директива " User-agent " определяет, для каких поисковых роботов даны указания по индексации, прописанные под ней. Таким образом, " User-agent: * " ( строка 1 ) указывает, что инструкции, прописанные под ней, предназначены для всех поисковых систем.

Строка 21 : Персонально для Яндекса под " User-agent: Yandex " дублируем список этих команд. Дублирование инструкций для Яндекса дает нам гарантию их выполнения поисковой системой.

Директива " Disallow " запрещает индексацию прописанного для нее каталога или страниц. Директива " Allow " разрешает. Командой " Disallow: /wp-content/ " ( строка 7 ) я запретил индексацию служебного каталога " wp-content " на сервере и соответственно всех папок в ней с их содержимым, но командой " Allow: /wp-content/uploads " ( строка 8 ) разрешил индексировать все картинки в папке " upload " каталога " wp-content ". Так как " Allow " является приоритетной директивой для поисковых роботов, то в индекс попадут только изображения папки " upload " каталога " wp-content ".

Для директивы " Disallow " имеет смысл в некоторых случаях дополнительно прописывать следующие запреты:

-   /amp/ - дубли ускоренных мобильных страниц . На всякий случай для Яндекса. -    /comments - закрыть от индексации комментарии. Зачем закрывать содержащийся в комментариях уникальный контент? Для большей релевантности ключевых слов и неиндексации исходящих ссылок в комментариях. Вряд ли это поможет. - /comment-page-* - другое дело древовидные комментарии. Когда комментарии не помещаются на одну страницу (их количество вы проставили в настройках админки), создается дубль страницы типа wordpress-book.ru/.../comment-page-1.  Эти дубли конечно же надо закрывать. -    /xmlrpc.php - служебный файл для удаленных вызовов. У меня его нет и соответственно нет индексации и без запрета. -    /webstat/ - папка со статистикой сайта. Эта папка есть тоже далеко не у всех.

Нельзя не упомянуть про редко используемую, но очень полезную директиву для Яндекса - " Crawl-delay" . Она задает роботу паузу во времени в секундах между скачиванием страниц, прописывается после групп директив " Disallow " и " Allow " и используется в случае повышенной нагрузки на сервер. Прописью " Crawl-delay: 2" я задал эту паузу в 2 секунды.   При нормальной работе сервера качество индексации не пострадает, а при пиковых нагрузках не ухудшится.

Некоторым веб-мастерам может понадобится запретить индексацию файлов определенного  типа, например, с расширением pdf. Для этого пропишите - " Disallow: *.pdf$ ". Или поместите все файлы, индексацию которых требуется запретить, в предварительно созданную новую папку, например, pdf, и пропишите " Disallow: /pdf/ ".

При необходимости запрета индексации всей рубрики, такое бывает ,например, при публикации в нее чужих интересных записей, пропишите - " Disallow: /nazvanie-rubriki/* ", где "nazvanie-rubriki", как вы уже догадались - название рубрики, записи которой поисковикам индексировать не следует.

Тем, кто зарабатывает на своем блоге размещением контекстной рекламы в партнерстве с Google AdSense , будет нелишним прописать следующие две директивы:

User-agent: Mediapartners-Google

Disallow:

Это поможет роботу AdSense избежать ошибок сканирования страниц сайта и подбирать для них более релевантные объявления.

wp-content/uploads/2014/02/YouTube_Downloader_dlya_Ope.jpg",tid: "OIP.M3a4a31010ee6a500049754479585407do0

Обнаружил у себя только что вот такой вот новый вид дублей в Яндекс Вебмастере. 96 штук уже накопилось и это не предел. А ведь совсем недавно у wordpress-book.ru с дублями был полный порядок. Есть подозрение, что шлак с идентификатором  tid:"OIP  появляется в индексе поисковика после скачивания картинок роботом Яндекса. Если не лень, посмотрите сколько таких несуществующих страниц разных сайтов уже участвуют в поиске.

Понятно, что с этим чудом надо что-то делать. Достаточно добавить запрещающую директиву - " Disallow: /wp-content/uploads/*.jpg*tid* " в robots.txt. Если на сайте есть картинки png, gif и т.д., добавьте директивы с соответствующими расширениями изображений.

При редактировании robots.txt, учтите, что:

-   перед каждой новой директивой " User-agent " должна быть пустая строка, которая обозначает конец инструкций для предыдущего поисковика. И соответственно после " User-agent " и между " Disallow " и " Allow " пустых строк быть не должно;

-   запретом индексации страниц в результатах поиска " Disallow: /*?* " вы заодно можете случайно запретить индексацию всего контента, если адреса страниц вашего блога заданы по умолчанию со знаком вопроса в виде - /?p=123. Советую сделать для адресов ЧПУ (человеко понятные урлы :-)). Для этого в настройках постоянных ссылок выберите произвольный шаблон и поставьте плагин Rus-to-Lat .

Анализ robots.txt

Теперь, когда ваш robots.txt отредактирован и залит на сервер, остается только проверить, правильно ли он работает.

Зайдите в свой аккаунт Яндекс Вебмастер и перейдите " Настройки индексирования " → " Анализ robots.txt ". Нажмите на кнопку " Загрузить robots.txt с сайта " и далее на кнопку " Проверить ".

Если Яндексу понравится ваш файл, под кнопкой " Проверить " появится сообщение, примерно как на картинке выше.

Недавно в инструментах для веб-мастеров Гугла появилось очень полезная функция - " Инструмент проверки файла robots.txt ". Можно проверить свой файл на наличие ошибок и предупреждений.

Просто в своем аккаунте перейдите " Сканирование " → " Инструмент проверки файла robots.txt ".

Через некоторое время, когда бот Яндекса скачает ваш robots.txt, проанализируйте в Яндекс Вебмастере адреса страниц вошедших в индекс и исключенных из него в robots.txt. Вошедшие в индекс дубли срочно запрещайте к индексации.

Теперь ваш robots.txt для WordPress правильный и можно поставить еще одну галочку под пунктом выполнения задач по внутренней поисковой оптимизации блога.

robots.txt запретить индексацию всем

При создании тестового блога или при самом его рождении, если вы хотите полностью запретить индексацию сайта всеми поисковыми системами, в robots.txt должно быть прописано всего лишь следующее:

User-agent: *

Disallow: /

IRC (Internet Relay Chat)
rss