Robots.txt и XML-карта сайта

Управление обходом и индексированием: файл robots.txt и XML Sitemap как инструменты технического SEO.

📖7 мин чтения📊Уровень 8🗺️2 подтем📅16 апреля 2026 г.

Загрузка карты...

Robots.txt: управление доступом роботов

Файл robots.txt — стандарт исключения роботов (REP), расположенный по адресу site.ru/robots.txt. Он сообщает поисковым роботам, какие страницы они могут обходить.

Основные директивы

  • User-agent — для кого правило (* = все роботы)
  • Disallow — запрещённые пути
  • Allow — явно разрешённые (имеет приоритет над Disallow)
  • Sitemap — ссылка на карту сайта
  • Crawl-delay — задержка между запросами (Яндекс)

Важные особенности

Robots.txt не защищает страницы от индексирования — он только запрещает обход. Страница может быть проиндексирована через внешние ссылки, даже если закрыта в robots.txt. Для исключения из индекса используйте мета-тег noindex.

XML Sitemap: карта сайта

XML-карта сайта — файл, перечисляющий важные URL сайта с дополнительными метаданными. Помогает поисковикам находить и обходить страницы, особенно новые и глубоко вложенные.

Что включать в Sitemap

  • Канонические URL важных страниц
  • Дата последнего изменения (lastmod)
  • Изображения (image:image) для новостных и фото-сайтов
  • Видео (video:video) для видеосайтов

Чего не включать

  • Страницы с noindex
  • Страницы с canonical на другой URL
  • Закрытые от индексирования страницы
  • Страницы с ошибками 4xx/5xx

Отправка Sitemap в поисковики

Укажите Sitemap в robots.txt: Sitemap: https://site.ru/sitemap.xml. Добавьте URL карты сайта в Google Search Console и Яндекс.Вебмастер.

robots.txt vs XML Sitemap

Аспектrobots.txtXML Sitemap
ЦельУправление обходом (краулер какие пути может посещать)Помощь индексированию (указать важные URL)
ФорматТекстовый файл с директивамиXML-файл со списком URL
ОбязательностьНеобязателен, но рекомендованНе обязателен, помогает при большом сайте
Защита контентаНЕ защищает от индексированияНЕ защищает, только помощь
СинтаксисUser-agent, Disallow, Allowurl, lastmod, changefreq, priority

Сравнительная таблица: анализ различий

Директивы robots.txt

ДирективаЧто делаетПример
User-agentУказывает робота, для которого правилоUser-agent: Googlebot
DisallowЗапрещает доступDisallow: /admin/
AllowРазрешает (имеет приоритет)Allow: /admin/report.html
Crawl-delayЗадержка между запросами (Яндекс)Crawl-delay: 2
SitemapСсылка на карту сайтаSitemap: https://site.com/sitemap.xml

Технические характеристики

Часто задаваемые вопросы

Robots.txt запрещает обход, но не гарантирует исключение из индекса. Используйте мета-тег noindex для надёжного исключения.