🔍Механизм Self-Attention
Query, Key, Value: Attention(Q,K,V) = softmax(QK^T/√d)V. Каждый токен вычисляет "важность" других токенов. Multi-head: несколько параллельных attention (8-96 голов). Сложность O(n²) по длине последовательности → проблема для длинных документов.
📖6 мин чтения📊Уровень 7📅19 февраля 2026 г.
🗺️ Mind Map
Загрузка карты...
❓Часто задаваемые вопросы
Механизм Self-Attention — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.