TF-IDF: математика релевантности текста
TF-IDF (Term Frequency–Inverse Document Frequency) — статистическая мера, отражающая важность слова в документе относительно корпуса документов. В поиске: слово важно, если оно часто встречается на странице, но редко — в других документах.
Проще: «автомобиль» в тексте о машинах — обычное слово. «Карбюратор» — редкое специализированное слово, которое сигнализирует о глубоком знании темы.
Формула TF-IDF
TF (Term Frequency) = частота слова на странице / общее число слов. IDF (Inverse Document Frequency) = логарифм (общее число документов / число документов со словом). TF-IDF = TF × IDF.
Чем выше TF-IDF у нужного ключевого слова на вашей странице по сравнению с конкурентами — тем потенциально выше релевантность.
Практическое применение в SEO
Анализ конкурентов
TF-IDF анализ топ-10 по запросу показывает, какие слова конкуренты используют чаще вас. Это список «пропущенных» тематических слов, которые стоит добавить в свой текст.
Инструменты
- Just-magic.org — один из лучших русскоязычных TF-IDF анализаторов.
- Semrush Writing Assistant — рекомендации по TF-IDF в реальном времени.
- Serpstat — анализ семантики конкурентов с TF-IDF.
Ограничения TF-IDF
TF-IDF — полезный инструмент, но не абсолютный стандарт. Современные алгоритмы (BERT, YATI) идут дальше — оценивают смысл, а не только статистику слов. Используйте TF-IDF как дополнение к семантическому анализу, не как главный критерий.
