Что такое тензорные ядра
Представьте умножение двух больших таблиц чисел (матриц). Обычное CUDA-ядро умножает пары чисел по одной — медленно для таких задач. Тензорное ядро (Tensor Core) — специализированный вычислительный блок, который умножает блоки 4×4 (или 8×8, 16×16) за один такт. Это ускоряет матричные операции в 8–16 раз по сравнению с обычными CUDA-ядрами.
Тензоры в данном контексте — просто многомерные массивы чисел. Умножение матриц (GEMM, General Matrix Multiply) — основная операция в нейросетях, линейной алгебре и сигнальной обработке.
История и поколения
- Volta (2017) — первые тензорные ядра в V100, 125 TFLOPS FP16
- Turing (2018) — потребительские карты RTX 20xx, добавлен INT8/INT4
- Ampere (2020) — поддержка FP64 Tensor, структурированное разреживание (2×)
- Hopper (2022) — H100: FP8, трансформерный движок, 3958 TFLOPS FP8
- Blackwell (2024) — B100/B200: FP4, коммуникация между ядрами на чипе
Форматы чисел и скорость
Тензорные ядра работают с разными форматами:
- FP32 — полная точность, для финальных вычислений
- FP16 / BF16 — половинная точность, стандарт для обучения нейросетей
- INT8 / FP8 — низкая точность, для инференса (вывода ответов)
- INT4 / FP4 — сверхнизкая точность, квантизированные модели
Чем ниже точность — тем быстрее и тем больше модель помещается в VRAM. GPT-4 в FP16 требует сотни гигабайт; в INT4 — в 4 раза меньше.
Применение в ИИ
Тензорные ядра — причина, почему NVIDIA доминирует в ИИ. Обучение GPT-3 (175 млрд параметров) требовало примерно 10000 GPU-дней на V100. На A100 то же — в 7 раз быстрее. На H100 — ещё быстрее. Все крупнейшие ИИ-модели (GPT, Llama, Gemini, Claude) обучены на системах с тензорными ядрами NVIDIA.
Помимо ИИ: молекулярная динамика, физические симуляции, финансовые расчёты, геномика — всё, где нужны матричные операции.
DLSS и тензорные ядра
В игровых GPU (GeForce RTX) тензорные ядра используются для DLSS — нейросетевого масштабирования. Нейросеть DLSS прогоняется на тензорных ядрах за несколько миллисекунд, повышая разрешение изображения в реальном времени без заметных потерь FPS.
