Знакомство с robots.txt. Создание, настройка, проверка. Читайте!

Правильно составленный robots.txt помогает правильно индексировать сайт и избавляет от дублей контента, которые есть в любой CMS. Я знаю, что многих авторов просто пугает необходимость лезть куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх нужно перебороть. Поверьте: ваш блог не «рухнет», даже если вы поместите в robots.txt собственный портрет (т.е. испортите его!). Зато, любые благотворные изменения повысят его статус в глазах поисковых систем.

Содержание статьи показать

Что такое файл robots.txt

Я не буду изображать эксперта, мучая вас терминами. Просто поделюсь своим, довольно простым, пониманием функций этого файла:

robots.txt – это инструкция, дорожная карта для роботов поисковых систем, посещающих наш блог с инспекцией. Нам только нужно указать им, какой контент является, так сказать, служебным, а какой – то самое ценное содержание, ради которого к нам стремятся (или должны стремиться) читатели. И именно эта часть контента должна индексироваться и попадать в поисковую выдачу!

А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд. И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу. И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.

Хотя есть примеры сайтов, у которых робоста нет вообще, но они занимают приличные позиции в поисковой выдаче, но это конечно исключение, а не правило.

Из чего состоит файл robots.txt

И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.

В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:

User-agent: Yandex

Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:

User-Agent: * — это все, любые, роботы

Далее мы записываем все, что хотим сообщить указанному роботу.

Disallow: и далее то, что запрещаем

Allow: и далее все, что разрешаем

Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.

Вот примеры запрещения индексировать:

Disallow: /cgi-bin* — файлы скриптов;

Disallow: /wp-admin* — административную консоль;

Disallow: /wp-includes* — служебные папки;

Disallow: /wp-content/plugins* — служебные папки;

Disallow: /wp-content/cache* — служебные папки;

Disallow: /wp-content/themes* — служебные папки;

Disallow: /feed* — ленту рассылки;

Disallow: */feed

Disallow: /comments* — комментарии;

Disallow: */comments

Disallow: /*/?replytocom=* — ответы на комментарии

Disallow: /tag/* — метки

Disallow: /archive/* — архивы

Disallow: /category/* — рубрики

Как создать собственный файл robots.txt

Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.

Роботс любого сайта доступен по адресу:

http://dramtezi.ru/robots.txt

Я тоже поступал подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки. Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.

Теперь посмотрим, как проверить корректность и эффективность нашего файла robots.txt.

Поскольку все, что связано с файлом robots.txt, может поначалу казаться слишком непонятным и даже опасным — я хочу показать вам простой и понятный инструмент его проверки. Это очевидный путь, который поможет вам не просто проверить, но и выверить ваш robots.txt, дополнив его всеми необходимыми инструкциями и убедившись, что роботы поисковых систем понимают, чего вы от них хотите.

Проверка файла robots.txt в Яндексе

Яндекс-вебмастер позволяет нам узнать отношение поискового робота этой системы к нашему творению. Для этого, очевидно, нужно открыть сведения, относящиеся к блогу и:

перейти по вкладке Инструменты-> Анализ robots.txt
нажмите кнопку «загрузить» и будем надеяться, что разместили файл robots.txt там, где нужно и робот его найдет:) (если не найдет — проверьте, где находится ваш файл: он должен быть в корне блога, там, где лежат папки wp-admin, wp-includes и т.д., а ниже отдельные файлы — среди них должен быть robots.txt)
кликаем на «проверить».

Но самая важная информация находится в соседней вкладке — «Используемые секции»! Ведь, собственно, нам важно, чтобы робот понимал основную часть информации — а все остальное пусть пропускает:

На примере мы видим, что Яндекс понимает все, что касается его робота (строки с 1 по 15 и 32) — вот и прекрасно!

Проверка файла robots.txt в Гугле

У Гугл, тоже, есть инструмент проверки, который покажет нам, как эта поисковая система видит (или не видит) наш robots.txt:

В инструментах для вебмастеров от Гугл (где ваш блог тоже обязательно должен быть зарегистрирован) есть свой сервис для проверки файла robots.txt. Он находится во вкладке Сканирование
Найдя файл, система показывает анализирует его и выдает информацию об ошибках. Все просто.

На что стоит обратить внимание, анализируя файл robots.txt

Мы недаром рассмотрели инструменты анализа от двух, наиболее важных поисковых систем — Яндекс и Гугл. Ведь нам нужно убедиться, что каждая из них прочитает рекомендации, данные нами в robots.txt.

В примерах, приведенных здесь, можно увидеть, что Яндекс понимает инструкции, которые мы оставили для его робота и игнорирует все остальные (хотя везде написано одно и то же, только директива User-agent: — различная:)))

Важно понимать, что любые изменения в robots.txt нужно производить непосредственно с тем файлом, который находится у вас в корневой папке блога. То есть, вам нужно открыть его в любом блокноте, чтобы переписать, удалить, добавить какие-либо строки. Потом его нужно сохранить обратно в корень сайта и заново проверить реакцию на изменения поисковых систем.

Понять, что в нем написано, что следует добавить — нетрудно. А заниматься продвижением блога, не настроив файл robots.txt как следует (так, как нужно именно вам!) — усложнять себе задачу.

Экспертный комментарий

Материал подготовлен практикующим специалистом по маркетингу

Михаил Каржин — Вебмастер, маркетолог, преподаватель и специалист по рекламным технологиям. Разрабатываю сайты, рекламные кампании и стратегии продвижения для бизнеса. Работаю с Яндекс Директ, SEO, контентом, аналитикой и комплексным интернет-маркетингом. Пишу полезные статьи и книги.

Преподаватель маркетинга. Специалист по рекламе. Разработка сайтов. Яндекс Директ

Получить консультацию

Консультация маркетолога Настройка Яндекс Директ Разработка сайтов