Robots.txt and XML Sitemap

robots.txt: instructions for crawlers (User-agent, Disallow, Allow, Sitemap). XML sitemap: list of pages for indexing (priority, changefreq, lastmod). Submit to Google Search Console and Yandex.Webmaster

Article body and graph labels may still appear in Russian where English translations have not been added yet.
📖7 min read📊Level 8🗺️2 subtopics📅April 16, 2026

Loading map...

Robots.txt: управление доступом роботов

Файл robots.txt — стандарт исключения роботов (REP), расположенный по адресу site.ru/robots.txt. Он сообщает поисковым роботам, какие страницы они могут обходить.

Основные директивы

  • User-agent — для кого правило (* = все роботы)
  • Disallow — запрещённые пути
  • Allow — явно разрешённые (имеет приоритет над Disallow)
  • Sitemap — ссылка на карту сайта
  • Crawl-delay — задержка между запросами (Яндекс)

Важные особенности

Robots.txt не защищает страницы от индексирования — он только запрещает обход. Страница может быть проиндексирована через внешние ссылки, даже если закрыта в robots.txt. Для исключения из индекса используйте мета-тег noindex.

XML Sitemap: карта сайта

XML-карта сайта — файл, перечисляющий важные URL сайта с дополнительными метаданными. Помогает поисковикам находить и обходить страницы, особенно новые и глубоко вложенные.

Что включать в Sitemap

  • Канонические URL важных страниц
  • Дата последнего изменения (lastmod)
  • Изображения (image:image) для новостных и фото-сайтов
  • Видео (video:video) для видеосайтов

Чего не включать

  • Страницы с noindex
  • Страницы с canonical на другой URL
  • Закрытые от индексирования страницы
  • Страницы с ошибками 4xx/5xx

Отправка Sitemap в поисковики

Укажите Sitemap в robots.txt: Sitemap: https://site.ru/sitemap.xml. Добавьте URL карты сайта в Google Search Console и Яндекс.Вебмастер.

robots.txt vs XML Sitemap

Аспектrobots.txtXML Sitemap
ЦельУправление обходом (краулер какие пути может посещать)Помощь индексированию (указать важные URL)
ФорматТекстовый файл с директивамиXML-файл со списком URL
ОбязательностьНеобязателен, но рекомендованНе обязателен, помогает при большом сайте
Защита контентаНЕ защищает от индексированияНЕ защищает, только помощь
СинтаксисUser-agent, Disallow, Allowurl, lastmod, changefreq, priority

Сравнительная таблица: анализ различий

Директивы robots.txt

ДирективаЧто делаетПример
User-agentУказывает робота, для которого правилоUser-agent: Googlebot
DisallowЗапрещает доступDisallow: /admin/
AllowРазрешает (имеет приоритет)Allow: /admin/report.html
Crawl-delayЗадержка между запросами (Яндекс)Crawl-delay: 2
SitemapСсылка на карту сайтаSitemap: https://site.com/sitemap.xml

Технические характеристики

Часто задаваемые вопросы

Robots.txt запрещает обход, но не гарантирует исключение из индекса. Используйте мета-тег noindex для надёжного исключения.