Синтаксис robots.txt
Файл robots.txt состоит из групп записей (records). Каждая группа начинается с User-agent и содержит правила для указанного робота. Строки, начинающиеся с #, — комментарии.
Примеры конфигурации
Запретить всем роботам обход папки /admin/:
- User-agent: *
- Disallow: /admin/
Разрешить Googlebot доступ к файлу, закрытому для других:
- User-agent: *
- Disallow: /private/
- User-agent: Googlebot
- Allow: /private/report.html
Приоритет правил
При конфликте Allow и Disallow побеждает более длинное (специфичное) правило. Если длина одинакова — побеждает Allow. Google и Яндекс могут трактовать конфликты по-разному.
Типичные ошибки
Критическая: Disallow: /
Блокирует весь сайт. Частая причина — тестовый robots.txt, случайно выгруженный на продакшн.
Блокировка CSS и JavaScript
Запрет на обход /assets/ или /static/ мешает Google рендерить страницы. Следствие: Googlebot видит сайт без стилей и не может оценить его корректно.
Trailing slash
Disallow: /admin и Disallow: /admin/ — разные правила. Без слеша блокируется /admin и любой URL, начинающийся с /admin (например, /administrator).
Regexp не поддерживается
Robots.txt не поддерживает регулярные выражения (кроме символов * и $). Wildcards работают только для части имени пути.
Проверка robots.txt
- Google Search Console → Инструмент проверки robots.txt
- Яндекс.Вебмастер → Анализ robots.txt
