В файле robots.txt представлена информация о детальной настройке методов индексации сайта специализированными ботами поисковых систем Google и Яндекс. Итак, что же такое robots.txt? Это текстовый файл, который расположен в корневой директории сайта. В случае верного размещения файла, ссылка на него будет выглядеть следующим образом: site.ru/robots.txt
Управление индексацией – важно ли это?
Да, это действительно необходимо, поскольку в индекс поисковых систем, если не уделить особое внимание данному вопросу, попадают страница, не несущие никакой пользы пользователям. Вроде бы, что тут такого криминального? Дело в том, что к таким ресурсам снижается доверие поисковых систем, а значит и выдача будет не такая, какую бы хотелось видеть.
Какие страницы необходимо закрывать в robots.txt?
1 Корзину магазина и страницы оформления заказов
2 Страницы сравнения и сортировки товаров
3 Страницы регистрации пользователей и их авторизации
4 Фильтры, языковые версии и теги, если они не оптимизированы и модерированы
5 Личный кабинет и профили пользователей
6 Лэндинги акций и распродаж
7 Системные файлы и каталоги
8 Версии для печати и пустые страницы сайта
9 Прочие страницы, которые не полезны, не готовы и не проработаны
Влияние файла robots.txt на «Яндекс» и «Google»
Поисковая система «Яндекс» описанные в файле правила считает приоритетными и пока не индексирует страницы, указанные в нем. А вот поисковая система «Google» решает самостоятельно какие же страницы индексировать, но стоит учесть, что используя robots.txt снижается вероятность попадания в Google ненужных страниц.
В связи с особенностями работы Google предлагаем воспользоваться мета-тег robots:
« <html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<meta name=“description” content=“ страница ….”>
<title>…</title>
</head>
<body> »
Не стоит использовать онлайн-генераторы, поскольку выхлопа от их работы совершенно нет.
Как правильно настроить robots.txt?
По своей структуре файл robots.txt содержит несколько пронумерованных указаний робота, в которых прописываются директивы для выполнения и дополнительные опции. В зависимости от вида директивы прописывается различная система работы.
Итак, директива User-agent: в ней необходимо указать наиболее актуальные правила.
Наиболее часто встречаются записи:
Советуем использовать в работе обе записи как для роботов Яндекса, так и для все остальных.
Для Яндекса лучше использовать следующие юзер-агенты:
Для поисковой системы Google используются иные юзер-агенты:
Для поисковой системы Google используются иные юзер-агенты:
Директива Disallow наиболее часто используется в robots.txt, поскольку именно она позволяет качественно закрыть ненужные для индексации страницы.
Директива Host указывается в конце файла robots.txt. Наиболее часто встречаются записи:
User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru
Директива Sitemap прописывается в корне сайта. Важным фактором является то, что необходимо указывать абсолютный путь в виде: https://site.ru/site_structure/my_sitemaps1.xml
Директива Clean-param применяется в случаях, когда на сайте есть динамические параметры, не влияющие на содержимое страницы.
Комментарии: