Правильно составленный robots.txt помогает правильно индексировать сайт и избавляет от дублей контента, которые есть в любой CMS. Я знаю, что многих авторов просто пугает необходимость лезть куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх нужно перебороть. Поверьте: ваш блог не «рухнет», даже если вы поместите в robots.txt собственный портрет (т.е. испортите его!). Зато, любые благотворные изменения повысят его статус в глазах поисковых систем.
Что такое файл robots.txt
Я не буду изображать эксперта, мучая вас терминами. Просто поделюсь своим, довольно простым, пониманием функций этого файла:
robots.txt – это инструкция, дорожная карта для роботов поисковых систем, посещающих наш блог с инспекцией. Нам только нужно указать им, какой контент является, так сказать, служебным, а какой – то самое ценное содержание, ради которого к нам стремятся (или должны стремиться) читатели. И именно эта часть контента должна индексироваться и попадать в поисковую выдачу!
А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд. И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу. И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.
Хотя есть примеры сайтов, у которых робоста нет вообще, но они занимают приличные позиции в поисковой выдаче, но это конечно исключение, а не правило.
Из чего состоит файл robots.txt
И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.
В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:
User-agent: Yandex
Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:
User-Agent: * — это все, любые, роботы
Далее мы записываем все, что хотим сообщить указанному роботу.
Disallow: и далее то, что запрещаем
Allow: и далее все, что разрешаем
Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.
Вот примеры запрещения индексировать:
Disallow: /cgi-bin* — файлы скриптов;
Disallow: /wp-admin* — административную консоль;
Disallow: /wp-includes* — служебные папки;
Disallow: /wp-content/plugins* — служебные папки;
Disallow: /wp-content/cache* — служебные папки;
Disallow: /wp-content/themes* — служебные папки;
Disallow: /feed* — ленту рассылки;
Disallow: */feed
Disallow: /comments* — комментарии;
Disallow: */comments
Disallow: /*/?replytocom=* — ответы на комментарии
Disallow: /tag/* — метки
Disallow: /archive/* — архивы
Disallow: /category/* — рубрики
Как создать собственный файл robots.txt
Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.
Роботс любого сайта доступен по адресу:
https://dramtezi.ru/robots.txt
Я тоже поступал подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки. Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.
Теперь посмотрим, как проверить корректность и эффективность нашего файла robots.txt.
Поскольку все, что связано с файлом robots.txt, может поначалу казаться слишком непонятным и даже опасным — я хочу показать вам простой и понятный инструмент его проверки. Это очевидный путь, который поможет вам не просто проверить, но и выверить ваш robots.txt, дополнив его всеми необходимыми инструкциями и убедившись, что роботы поисковых систем понимают, чего вы от них хотите.
Проверка файла robots.txt в Яндексе
Яндекс-вебмастер позволяет нам узнать отношение поискового робота этой системы к нашему творению. Для этого, очевидно, нужно открыть сведения, относящиеся к блогу и:
- перейти по вкладке Инструменты-> Анализ robots.txt
- нажмите кнопку «загрузить» и будем надеяться, что разместили файл robots.txt там, где нужно и робот его найдет:) (если не найдет — проверьте, где находится ваш файл: он должен быть в корне блога, там, где лежат папки wp-admin, wp-includes и т.д., а ниже отдельные файлы — среди них должен быть robots.txt)
- кликаем на «проверить».
Но самая важная информация находится в соседней вкладке — «Используемые секции»! Ведь, собственно, нам важно, чтобы робот понимал основную часть информации — а все остальное пусть пропускает:
На примере мы видим, что Яндекс понимает все, что касается его робота (строки с 1 по 15 и 32) — вот и прекрасно!
Проверка файла robots.txt в Гугле
У Гугл, тоже, есть инструмент проверки, который покажет нам, как эта поисковая система видит (или не видит) наш robots.txt:
- В инструментах для вебмастеров от Гугл (где ваш блог тоже обязательно должен быть зарегистрирован) есть свой сервис для проверки файла robots.txt. Он находится во вкладке Сканирование
- Найдя файл, система показывает анализирует его и выдает информацию об ошибках. Все просто.
На что стоит обратить внимание, анализируя файл robots.txt
Мы недаром рассмотрели инструменты анализа от двух, наиболее важных поисковых систем — Яндекс и Гугл. Ведь нам нужно убедиться, что каждая из них прочитает рекомендации, данные нами в robots.txt.
В примерах, приведенных здесь, можно увидеть, что Яндекс понимает инструкции, которые мы оставили для его робота и игнорирует все остальные (хотя везде написано одно и то же, только директива User-agent: — различная:)))
Важно понимать, что любые изменения в robots.txt нужно производить непосредственно с тем файлом, который находится у вас в корневой папке блога. То есть, вам нужно открыть его в любом блокноте, чтобы переписать, удалить, добавить какие-либо строки. Потом его нужно сохранить обратно в корень сайта и заново проверить реакцию на изменения поисковых систем.
Понять, что в нем написано, что следует добавить — нетрудно. А заниматься продвижением блога, не настроив файл robots.txt как следует (так, как нужно именно вам!) — усложнять себе задачу.