Robots.txt: управление доступом роботов
Файл robots.txt — стандарт исключения роботов (REP), расположенный по адресу site.ru/robots.txt. Он сообщает поисковым роботам, какие страницы они могут обходить.
Основные директивы
- User-agent — для кого правило (* = все роботы)
- Disallow — запрещённые пути
- Allow — явно разрешённые (имеет приоритет над Disallow)
- Sitemap — ссылка на карту сайта
- Crawl-delay — задержка между запросами (Яндекс)
Важные особенности
Robots.txt не защищает страницы от индексирования — он только запрещает обход. Страница может быть проиндексирована через внешние ссылки, даже если закрыта в robots.txt. Для исключения из индекса используйте мета-тег noindex.
XML Sitemap: карта сайта
XML-карта сайта — файл, перечисляющий важные URL сайта с дополнительными метаданными. Помогает поисковикам находить и обходить страницы, особенно новые и глубоко вложенные.
Что включать в Sitemap
- Канонические URL важных страниц
- Дата последнего изменения (lastmod)
- Изображения (image:image) для новостных и фото-сайтов
- Видео (video:video) для видеосайтов
Чего не включать
- Страницы с noindex
- Страницы с canonical на другой URL
- Закрытые от индексирования страницы
- Страницы с ошибками 4xx/5xx
Отправка Sitemap в поисковики
Укажите Sitemap в robots.txt: Sitemap: https://site.ru/sitemap.xml. Добавьте URL карты сайта в Google Search Console и Яндекс.Вебмастер.
