Правильная настройка файла robots.txt для WordPress

Поделится
  • 1
  •  
  •  
  • 1
  •  
  •  
  • 1
  •  
  •  
    3
    Поделились

Зачем нужен robots.txt

Правила написанные в robots.txt нужны исключительно поисковым роботам, что бы понять, какие страницы, разделы, файлы сайта посещать и индексировать, а какие нет.

У каждой поисковой системы (Google, Yandex и другие) есть роботы для мониторинга сайта, которые руководствуются алгоритмами обхода страниц сайта и индексирования. Настройки индексирования сайта и мониторинг осуществляется в Search Console у Google и Яндекс Вебмастер у Яндекса. Там же можно проверить правильность файла robots.txt, "скормить" поисковой системе карту сайта sitemap.xml, посмотреть результаты индексирования и многое другое.

Как происходит обход страниц со стороны поисковых систем я надеюсь понятно, а вот со стороны сайта файл robots.txt дает инструкции роботам поисковых систем, на какие странички переходить и индексировать, а какие нет.

Суть работы robots.txt
Суть работы robots.txt

Стоит также учитывать настройки дополнительного софта - плагинов, которые могут прямо влиять на индексирование сайтов, например такие популярные плагины WordPress, как All in One SEO или Yoast SEO и другие.

Настройки плагинов могут противоречить инструкциям в robots.txt, могут быть ссылки с других сайтов на запрещенную к индексированием страницу и поисковый робот будет действовать на свое усмотрение.

Это означает, что поисковая система не будут строго руководствоваться инструкциями robots.txt, например робот Google обойдет и  проиндексирует все что захочет, если посчитает нужным.

Google индексирует запрещенную в robots.txt запись
Google индексирует запрещенную в robots.txt запись

Базовая настройка robots.txt

У каждой поисковой системы есть рекомендации по настройке robots.txt и желательно с ними ознакомится, Google и Яндекс.

Идея правильного формирования robots.txt заключается в том, что бы дать поисковым системам правильное представление контента сайта, так, как видят его пользователи, скрыв при этом не нужную системную информацию, страницы дубли(пагинацию), поисковые запросы со страниц сайта, данные о пользователях(если это нужно), метки, отчеты и прочее.

Я изучил документацию, прочел рекомендации многих известных блогеров, тематических форумов, туториалы плагинов и могу сделать вывод, что для свежеустановленного сайта на WordPress достаточно базовых настроек. А дальше уже каждый веб-мастер дописывает инструкции в robots.txt под нужды данного конкретного сайта, охватить все возможные случаи не возможно, главное понять "как это работает", что бы дописать robots.txt "под себя", но и при базовых настройках, сайт на WordPress будет нормально функционировать.

Структура robots.txt

Условно файл можно разделить на четыре секции.

  1. User-agent: к какому поисковому роботу относятся инструкции.
  2. Disallow: и Allow: блок правил запрещающих и разрешающих.
  3. Host: инструкция для Яндекса.
  4. Sitemap: расположение карты сайта.

Рекомендации Clearfy

Неплохой базовый вариант, который предлагает плагин Clearfy, он не лишен недостатков, но его не сложно доработать под свои нужды добавив несколько инструкций.

Пояснения по robots.txt

  1. User-agent: * Пояснения, какому именно поисковому роботу адресуются заданные правила. Например для Google - "User-agent: Googlebot", для Яндекса -  "User-agent: Yandex" и тд. В этом случае создаются секции правил для каждого поискового робота отдельно. В нашем же случае задано "User-agent: *", и дальнейшие правила заданны для всех поисковых роботов одновременно.
  2. Правило Disallow: /wp-admin, Disallow: /wp-includes, Disallow: /wp-content/plugins, Disallow: /wp-content/cache,  запретить обход вышеназванных каталогов. Не самый элегантный и верный способ реализации.
  3. Правило Disallow: /xmlrpc.php. Файл xmlrpc.php нужен для удаленного управления WordPress и индексировать его не нужно.
  4. Правило Disallow: /readme.html. Файл readme.html - это туториал WordPress, индексировать его не нужно.
  5. Правила Disallow: /*? и Disallow: /?s= закрывают страницы поисковых запросов.
  6. Правила Allow: /*.css и Allow: /*.js указание роботу обязательно перейти на страницы css и js. Нужно для того, что бы поисковые системы правильно формировали страницы, подключая стили и скрипты. Если этого не сделать, будут ошибки в Google Search Console.
  7. Правило Host: https://sergei-loginov.com. Указываем главное зеркало сайта. Что бы поисковая система Яндекс понимала, какая версия сайта является основной: с https или http, с www или без www.
  8. Правило Sitemap: https://sergei-loginov.com/sitemap.xml указывает роботам, где находится XML версия карты сайта. Если бы я использовал сжатую версию карты сайта, то нужно было бы дописать правило и для сжатой версии сайта Sitemap: https://sergei-loginov.com/sitemap.xml.gz. Если карт несколько, нужно прописать путь к каждой.

С таким robots.txt ваш WordPress сайт будет нормально индексироваться роботами поисковых систем. Но данный файл далеко не идеален, нужно его усовершенствовать.

Оптимизация robots.txt

  1. Disallow: /cgi-bin закрываем каталог /cgi-bin, в них обычно находятся скрипты веб-сервера, у меня они в другом месте и папка пуста, но отдадим почтение классике и блогу wp-kama.
  2. Disallow: /?, Disallow: *?s=, Disallow: *&s=, Disallow: /search/ закрываем поиск на сайте для индексирования.
  3. Disallow: /wp-, Disallow: /wp/ закрываем каталог /wp/ если он есть, и все файлы каталога wp-, ниже мы откроем для поисковых роботов только нужные файлы.
  4. Disallow: */feed, Disallow: */rss, Disallow: */embed закрываем rss ленты, фиды и встраивания. Я использую rss ленту и скармливаю Яндексу, адрес ленты https://sergei-loginov.com/feed/turbo/, следовательно мне не нужно закрывать фиды.
  5. Disallow: */trackback закрываем трекбэки.
  6. Disallow: /author/ закрываем архивы автора и Disallow: /users/ авторов.
  7. Allow: /*/.js, Allow: /*/.css открываем js-скрипты и css-файлы внутри /wp- (/*/ - для приоритета). 
  8. Добавляем правила обхода мультимедиа контента, того, что используете: Allow: /wp-*.png, Allow: /wp-*.jpg, Allow: /wp-*.jpeg, Allow: /wp-*.gif, Allow: /wp-*.svg, Allow: /wp-*.pdf, Allow: */uploads.
  9. Нужно добавить дополнительную секцию для Яндекса, другие поисковики не понимают директиву Host.

Оптимизированный robots.txt

Резюмируя

Хотите узнать больше о robots.txt? Есть сайт посвященный этой тематике, там в нюансах и подробностях систематизирована информация, разобраны ошибки, которые часто допускают веб-мастера.

Не забывайте о мануалах поисковых систем, ссылки в начале статьи. А также о проверке robots.txt и карты сайта в консолях поисковых систем.


Поделится
  • 1
  •  
  •  
  • 1
  •  
  •  
  • 1
  •  
  •  
    3
    Поделились

Author: Сергей Логинов

Есть вопрос? Пишите комментарий или в личку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *