?Составляем Правильный robots.txt и пример интересного robots-a

Содержание статьи показать

Что такое robots. txt?

Это файл который указывает поисковым системам правила индексирования сайта. С его помощью можно указать какие страницы должны присутствовать в индексе, а каких там не должно быть, так же можно создать правила для отдельных пауков ПС (роботов Поисковой Системы).

Файл robots. txt создается в обычном блокноте и имеет обычный формат txt.

Находится в корне сайта, там где лежат все папки и файлы (для вордпрес — это папки wp-admin, wp-content, wp-includes и пр.)

Если файл размещен правильно, то он откроется по адресу site. ru/robots.txt. Так можно проверить робот любого сайта.

Директивы обращения к роботу

User-agent: * //созданы правила ко всем без исключения
User-agent: Yandex // правило действительно для Яндекса
User-agent: Google // правило действительно для бота Гугла
User-agent: Mediapartners-Google // обращения к роботу google adsense
Так же можно создать и для других ПС
Yandex # // используется для всех ботов Яндекса
User-agent: * # // для всех, кроме Яндекса
Директива Disallow: // запрет страниц к индексированию
Директива Allow: // страница должна присутствовать в индексе

В конце всех правил файла robots необходимо указать главное зеркало сайта и ссылку на карту сайта.

Карта сайта должна быть в формате xml если ее нет, то необходимо создать, либо воспользоваться плагинами, либо онлайн генераторами карт.

После его создания, сгенерированный файл, нужно загрузить в корень сайта, а уже потом прописать адрес карты в файле robots. txt.

Для того что бы robots был правильный, точнее использовался по назначению, нужно закрыть от индекса все системные и мусорные страницы, например /users и /registration — в поиске они не к чему.

Пример файла robots. txt

robots. txt для wordpress:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Host: https://dramtezi.ru
Sitemap: https://dramtezi.ru/sitemap.xml

Они могут быть длиннее или же наоборот короче, в зависимости от ваших установок.

Если необходимо закрыть весь раздел, но при этом оставить 1 статью из этого раздела, для этого используем дистрибутив Allow например:

User-agent: * Disallow: /blog
Allow: /blog/statya

Другой вариант, если нужно закрыть все разделы сайта от индексации, но статьи в этих разделах оставить:

User-agent: * Disallow: /blog $

Значения $ говорит роботу, что этот раздел индексировать нельзя, но статьи в этом разделе индексироваться должны.

Что бы запретить все до-пути определенной страницы, записываем */:

Disallow: /*/ blog/ — запрещает все содержимое до этого пути.
Disallow: /*. php$ // — запрещает все php на всем сайте
Disallow: /*/blog/*. zip$ — запрещает все файлы zip в директиве blog.

Если сайт долго грузится, а бот не успевает загружать файлы, можно использовать Crawl-delay она указывает роботу начало закачки документа и начало документа следующего.

Обозначается в секундах и прописывается после Disellow или Allow:
User-agent: * Disallow: /blog Crawl-delay: 2. 5 // таймаут в 0. 5 секунды (пол секунды)

Таким образом, можно ускорить индексацию сайта!

Что бы запретить роботу индексировать динамические страницы сайта, можно использовать директиву Clean-param, что лишний раз снижает нагрузку на сервер.
www. site. ru/get_blog. pl? ref =site_1&blog_id=271

Прописываем:
User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_blog. pl
PS

Как то, наткнулся на один прикольный robots. txt одного парня который рос в восточной Африке и был весьма не послушным Африканским мальчиком, потом он вырос стал интересоваться SEO и продавать швейцарские часы в интернет магазине, на чем немного зарабатывал, но его сводят с ума постоянные изменения в алгоритмах, даже доводят до психических расстройств, ведь это его единственный заработок!

Тогда он решил написать обращения к google через файл robots. txt, делюсь с вами:

https://explicitly.me/robots.txt

(посмотрите сначала без перевода, чтоб картинки не сбились, а потом уже переведя прочтите его обращения)

На этом закончу, до встреч в следующей статье!

Правильный robots.txt и пример интересного robots-a

Что такое robots. txt?

Директивы обращения к роботу

Пример файла robots. txt

Другие интересные статьи: