Что такое robots. txt?
Это файл который указывает поисковым системам правила индексирования сайта. С его помощью можно указать какие страницы должны присутствовать в индексе, а каких там не должно быть, так же можно создать правила для отдельных пауков ПС (роботов Поисковой Системы).
Файл robots. txt создается в обычном блокноте и имеет обычный формат txt.
Находится в корне сайта, там где лежат все папки и файлы (для вордпрес — это папки wp-admin, wp-content, wp-includes и пр.)
Если файл размещен правильно, то он откроется по адресу site. ru/robots.txt. Так можно проверить робот любого сайта.
Директивы обращения к роботу
- User-agent: * //созданы правила ко всем без исключения
- User-agent: Yandex // правило действительно для Яндекса
- User-agent: Google // правило действительно для бота Гугла
- User-agent: Mediapartners-Google // обращения к роботу google adsense
Так же можно создать и для других ПС - Yandex # // используется для всех ботов Яндекса
- User-agent: * # // для всех, кроме Яндекса
- Директива Disallow: // запрет страниц к индексированию
- Директива Allow: // страница должна присутствовать в индексе
В конце всех правил файла robots необходимо указать главное зеркало сайта и ссылку на карту сайта.
Карта сайта должна быть в формате xml если ее нет, то необходимо создать, либо воспользоваться плагинами, либо онлайн генераторами карт.
После его создания, сгенерированный файл, нужно загрузить в корень сайта, а уже потом прописать адрес карты в файле robots. txt.
Для того что бы robots был правильный, точнее использовался по назначению, нужно закрыть от индекса все системные и мусорные страницы, например /users и /registration — в поиске они не к чему.
Пример файла robots. txt
robots. txt для wordpress:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Host: https://dramtezi.ru
Sitemap: https://dramtezi.ru/sitemap.xml
Они могут быть длиннее или же наоборот короче, в зависимости от ваших установок.
Если необходимо закрыть весь раздел, но при этом оставить 1 статью из этого раздела, для этого используем дистрибутив Allow например:
User-agent: * Disallow: /blog
Allow: /blog/statya
Другой вариант, если нужно закрыть все разделы сайта от индексации, но статьи в этих разделах оставить:
User-agent: * Disallow: /blog $
Значения $ говорит роботу, что этот раздел индексировать нельзя, но статьи в этом разделе индексироваться должны.
Что бы запретить все до-пути определенной страницы, записываем */:
Disallow: /*/ blog/ — запрещает все содержимое до этого пути.
Disallow: /*. php$ // — запрещает все php на всем сайте
Disallow: /*/blog/*. zip$ — запрещает все файлы zip в директиве blog.
Если сайт долго грузится, а бот не успевает загружать файлы, можно использовать Crawl-delay она указывает роботу начало закачки документа и начало документа следующего.
Обозначается в секундах и прописывается после Disellow или Allow:
User-agent: * Disallow: /blog Crawl-delay: 2. 5 // таймаут в 0. 5 секунды (пол секунды)
Таким образом, можно ускорить индексацию сайта!
Что бы запретить роботу индексировать динамические страницы сайта, можно использовать директиву Clean-param, что лишний раз снижает нагрузку на сервер.
www. site. ru/get_blog. pl? ref =site_1&blog_id=271
Прописываем:
User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_blog. pl
PS
Как то, наткнулся на один прикольный robots. txt одного парня который рос в восточной Африке и был весьма не послушным Африканским мальчиком, потом он вырос стал интересоваться SEO и продавать швейцарские часы в интернет магазине, на чем немного зарабатывал, но его сводят с ума постоянные изменения в алгоритмах, даже доводят до психических расстройств, ведь это его единственный заработок!
Тогда он решил написать обращения к google через файл robots. txt, делюсь с вами:
https://explicitly.me/robots.txt
(посмотрите сначала без перевода, чтоб картинки не сбились, а потом уже переведя прочтите его обращения)
На этом закончу, до встреч в следующей статье!
Роботс.тхт — важный файл для SEO-оптимизации. Не забывайте учитывать все директивы и правильно указывать пути к страницам. Успехов в продвижении сайта!
Я никогда не задумывался о том, как важен robots.txt для SEO, пока не прочитал эту статью. Теперь я готов составить свой собственный файл и улучшить свой рейтинг!
Я уже давно хотел разобраться, как правильно составлять robots.txt. Статья дала мне необходимые знания и примеры работы разных директив. Очень полезно!
Важно учитывать, что файл robots.txt не является 100% защитой от индексации страниц. Он всего лишь указывает поисковикам на то, какие страницы нужно индексировать, а какие нет. Так же необходимо проверять, какие страницы можно индексировать, с помощью инструментов поисковых систем.
Роботы поисковых систем используют файл robots.txt для индексирования сайта. Статья поможет понять, как создать правильный файл, чтобы избежать проблем с индексацией и защитить данные.
Отличный гайд! Очень полезно знать, как настроить robots.txt для правильной индексации сайта. Спасибо!
Отличная статья! Я теперь точно знаю, как создать robots.txt. Спасибо за примеры и объяснения!