Правильная настройка файла robots.txt для WordPress

Поделится
  • 1
  • 1
  •  
  • 1
  •  
  •  
  • 1
  •  
  •  
    4
    Поделились


Зачем нужен robots.txt

Правила написанные в robots.txt нужны исключительно поисковым роботам, что бы понять, какие страницы, разделы, файлы сайта посещать и индексировать, а какие нет.

У каждой поисковой системы (Google, Yandex и другие) есть роботы для мониторинга сайта, которые руководствуются алгоритмами обхода страниц сайта и индексирования. Настройки индексирования сайта и мониторинг осуществляется в Search Console у Google и Яндекс Вебмастер у Яндекса. Там же можно проверить правильность файла robots.txt, «скормить» поисковой системе карту сайта sitemap.xml, посмотреть результаты индексирования и многое другое.

Как происходит обход страниц со стороны поисковых систем я надеюсь понятно, а вот со стороны сайта файл robots.txt дает инструкции роботам поисковых систем, на какие странички переходить и индексировать, а какие нет.

Суть работы robots.txt
Суть работы robots.txt

Стоит также учитывать настройки дополнительного софта — плагинов, которые могут прямо влиять на индексирование сайтов, например такие популярные плагины WordPress, как All in One SEO или Yoast SEO и другие.

Настройки плагинов могут противоречить инструкциям в robots.txt, могут быть ссылки с других сайтов на запрещенную к индексированием страницу и поисковый робот будет действовать на свое усмотрение.

Это означает, что поисковая система не будут строго руководствоваться инструкциями robots.txt, например робот Google обойдет и  проиндексирует все что захочет, если посчитает нужным.

Google индексирует запрещенную в robots.txt запись
Google индексирует запрещенную в robots.txt запись

Базовая настройка robots.txt

У каждой поисковой системы есть рекомендации по настройке robots.txt и желательно с ними ознакомится, Google и Яндекс.

Идея правильного формирования robots.txt заключается в том, что бы дать поисковым системам правильное представление контента сайта, так, как видят его пользователи, скрыв при этом не нужную системную информацию, страницы дубли(пагинацию), поисковые запросы со страниц сайта, данные о пользователях(если это нужно), метки, отчеты и прочее.

Я изучил документацию, прочел рекомендации многих известных блогеров, тематических форумов, туториалы плагинов и могу сделать вывод, что для свежеустановленного сайта на WordPress достаточно базовых настроек. А дальше уже каждый веб-мастер дописывает инструкции в robots.txt под нужды данного конкретного сайта, охватить все возможные случаи не возможно, главное понять «как это работает», что бы дописать robots.txt «под себя», но и при базовых настройках, сайт на WordPress будет нормально функционировать.

Структура robots.txt

Условно файл можно разделить на четыре секции.

  1. User-agent: к какому поисковому роботу относятся инструкции.
  2. Disallow: и Allow: блок правил запрещающих и разрешающих.
  3. Host: инструкция для Яндекса.
  4. Sitemap: расположение карты сайта.

Рекомендации Clearfy

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Host: https://sergei-loginov.com
Sitemap: https://sergei-loginov.com/sitemap.xml

Неплохой базовый вариант, который предлагает плагин Clearfy, он не лишен недостатков, но его не сложно доработать под свои нужды добавив несколько инструкций.

Пояснения по robots.txt

  1. User-agent: * Пояснения, какому именно поисковому роботу адресуются заданные правила. Например для Google — «User-agent: Googlebot», для Яндекса —  «User-agent: Yandex» и тд. В этом случае создаются секции правил для каждого поискового робота отдельно. В нашем же случае задано «User-agent: *», и дальнейшие правила заданны для всех поисковых роботов одновременно.
  2. Правило Disallow: /wp-admin, Disallow: /wp-includes, Disallow: /wp-content/plugins, Disallow: /wp-content/cache,  запретить обход вышеназванных каталогов. Не самый элегантный и верный способ реализации.
  3. Правило Disallow: /xmlrpc.php. Файл xmlrpc.php нужен для удаленного управления WordPress и индексировать его не нужно.
  4. Правило Disallow: /readme.html. Файл readme.html — это туториал WordPress, индексировать его не нужно.
  5. Правила Disallow: /*? и Disallow: /?s= закрывают страницы поисковых запросов.
  6. Правила Allow: /*.css и Allow: /*.js указание роботу обязательно перейти на страницы css и js. Нужно для того, что бы поисковые системы правильно формировали страницы, подключая стили и скрипты. Если этого не сделать, будут ошибки в Google Search Console.
  7. Правило Host: https://sergei-loginov.com. Указываем главное зеркало сайта. Что бы поисковая система Яндекс понимала, какая версия сайта является основной: с https или http, с www или без www.
  8. Правило Sitemap: https://sergei-loginov.com/sitemap.xml указывает роботам, где находится XML версия карты сайта. Если бы я использовал сжатую версию карты сайта, то нужно было бы дописать правило и для сжатой версии сайта Sitemap: https://sergei-loginov.com/sitemap.xml.gz. Если карт несколько, нужно прописать путь к каждой.

С таким robots.txt ваш WordPress сайт будет нормально индексироваться роботами поисковых систем. Но данный файл далеко не идеален, нужно его усовершенствовать.

Оптимизация robots.txt

  1. Disallow: /cgi-bin закрываем каталог /cgi-bin, в них обычно находятся скрипты веб-сервера, у меня они в другом месте и папка пуста, но отдадим почтение классике и блогу wp-kama.
  2. Disallow: /?, Disallow: *?s=, Disallow: *&s=, Disallow: /search/ закрываем поиск на сайте для индексирования.
  3. Disallow: /wp-, Disallow: /wp/ закрываем каталог /wp/ если он есть, и все файлы каталога wp-, ниже мы откроем для поисковых роботов только нужные файлы.
  4. Disallow: */feed, Disallow: */rss, Disallow: */embed закрываем rss ленты, фиды и встраивания. Я использую rss ленту и скармливаю Яндексу, адрес ленты https://sergei-loginov.com/feed/turbo/, следовательно мне не нужно закрывать фиды.
  5. Disallow: */trackback закрываем трекбэки.
  6. Disallow: /author/ закрываем архивы автора и Disallow: /users/ авторов.
  7. Allow: /*/.js, Allow: /*/.css открываем js-скрипты и css-файлы внутри /wp- (/*/ — для приоритета). 
  8. Добавляем правила обхода мультимедиа контента, того, что используете: Allow: /wp-*.png, Allow: /wp-*.jpg, Allow: /wp-*.jpeg, Allow: /wp-*.gif, Allow: /wp-*.svg, Allow: /wp-*.pdf, Allow: */uploads.
  9. Нужно добавить дополнительную секцию для Яндекса, другие поисковики не понимают директиву Host.

Оптимизированный robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: *?s=
Disallow: *&s=
Disallow: /wp-
Disallow: /wp/
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: /readme.html
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: */uploads
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: *?s=
Disallow: *&s=
Disallow: /wp-
Disallow: /wp/
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: /readme.html
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: */uploads
Allow: /wp-admin/admin-ajax.php

Host: ваш-сайт.com #указывайте главное зеркало сайта
Sitemap: https://ваш-сайт.com/sitemap.xml # если у вас нет SSL, то http, а не https
# Sitemap: https://ваш-сайт.com/sitemap.xml.gz
# если у вас есть сжатая версия сайта, раскомментируйте строку выше

Резюмируя

Хотите узнать больше о robots.txt? Есть сайт посвященный этой тематике, там в нюансах и подробностях систематизирована информация, разобраны ошибки, которые часто допускают веб-мастера.

Не забывайте о мануалах поисковых систем, ссылки в начале статьи. А также о проверке robots.txt и карты сайта в консолях поисковых систем.



Поделится
  • 1
  • 1
  •  
  • 1
  •  
  •  
  • 1
  •  
  •  
    4
    Поделились

Материалы по теме:

Как установить кнопку «Пожертвование» (Donate) для криптовалют от гейтвея криптовалютных платежей CoinPayments
Приветствую! Если ваш сайт подразумевает возможность пожертвований в криптовалюте, я покажу быстрый способ это реализовать с помощью платежного гейтвея CoinPayments. Установка кнопки "Донат" займет ...
SEO-оптимизация, секреты внутренних ссылок WordPress
На конференции WordCamp Moscow 2017 Павел Карпов поделился секретами SEO-оптимизации ссылок для WordPress. Спикер дал советы по правильному построению внутренних ссылок, поисковой оптимизации и ...
Clearfy — быстрая оптимизация сайта WordPress
Плагин Clearfy - удобный инструмент для оптимизации сайта на WordPress. Скачать его можно бесплатно в репозитории wordpress.org. Плагин имеет множество настроек и сделан по блочному ...
Новинка WordPress 4.9.8 и Gutenberg, новый визуальный редактор
Приветствую Друзья! Второго августа 2018 года, WordPress обновился до версии 4.9.8 и кроме исправления ошибок разработчики внесли в функционал CMS, то что так долго ...
Google AdSense 2018 эксперименты, оптимизация
Приветствую! Любой вебмастер, который монетизирует свой сайт с помощью Google AdSense заметил, что появились новые возможности для оптимизации "процент выполняемых запросов объявлений", "автоматизированные объявления" и ...