Зачем нужно несколько форматов точности?

Обучение нейросетей требует FP16/FP32 для стабильности. Инференс можно делать в INT8/FP8 — быстрее и с меньшим энергопотреблением.

Есть ли аналоги тензорных ядер у других производителей?

AMD Matrix Cores в MI300, Google TPU Tensor Units, Intel AMX (Advanced Matrix Extensions). Но экосистема CUDA делает NVIDIA предпочтительным выбором.

Tensor Cores

Специализированные ядра NVIDIA для операций матричного умножения (mixed-precision matrix multiply-accumulate). Появились в Volta (2017, V100 для дата-центров, 640 Tensor Cores), улучшены в Turing (RTX 20-серия, INT8/INT4 для инференса), Ampere (sparsity support — пропуск нулевых весов, ускорение в 2 раза), Ada Lovelace (FP8 формат, Transformer Engine). Производительность: RTX 4090 — 1321 TFLOPS FP8 (vs 83 TFLOPS FP32 для CUDA ядер). Применение: обучение нейросетей (ускорение в 5-20 раз для операций типа dense layers, convolutions), DLSS (AI upscaling изображений в реальном времени 60-120 FPS)

📖3 мин чтения📊Уровень 7📅16 апреля 2026 г.

Автор: Бессмертный А.П.

Что такое тензорные ядра

Представьте умножение двух больших таблиц чисел (матриц). Обычное CUDA-ядро умножает пары чисел по одной — медленно для таких задач. Тензорное ядро (Tensor Core) — специализированный вычислительный блок, который умножает блоки 4×4 (или 8×8, 16×16) за один такт. Это ускоряет матричные операции в 8–16 раз по сравнению с обычными CUDA-ядрами.

Тензоры в данном контексте — просто многомерные массивы чисел. Умножение матриц (GEMM, General Matrix Multiply) — основная операция в нейросетях, линейной алгебре и сигнальной обработке.

История и поколения

Volta (2017) — первые тензорные ядра в V100, 125 TFLOPS FP16
Turing (2018) — потребительские карты RTX 20xx, добавлен INT8/INT4
Ampere (2020) — поддержка FP64 Tensor, структурированное разреживание (2×)
Hopper (2022) — H100: FP8, трансформерный движок, 3958 TFLOPS FP8
Blackwell (2024) — B100/B200: FP4, коммуникация между ядрами на чипе

Форматы чисел и скорость

Тензорные ядра работают с разными форматами:

FP32 — полная точность, для финальных вычислений
FP16 / BF16 — половинная точность, стандарт для обучения нейросетей
INT8 / FP8 — низкая точность, для инференса (вывода ответов)
INT4 / FP4 — сверхнизкая точность, квантизированные модели

Чем ниже точность — тем быстрее и тем больше модель помещается в VRAM. GPT-4 в FP16 требует сотни гигабайт; в INT4 — в 4 раза меньше.

Применение в ИИ

Тензорные ядра — причина, почему NVIDIA доминирует в ИИ. Обучение GPT-3 (175 млрд параметров) требовало примерно 10000 GPU-дней на V100. На A100 то же — в 7 раз быстрее. На H100 — ещё быстрее. Все крупнейшие ИИ-модели (GPT, Llama, Gemini, Claude) обучены на системах с тензорными ядрами NVIDIA.

Помимо ИИ: молекулярная динамика, физические симуляции, финансовые расчёты, геномика — всё, где нужны матричные операции.

DLSS и тензорные ядра

В игровых GPU (GeForce RTX) тензорные ядра используются для DLSS — нейросетевого масштабирования. Нейросеть DLSS прогоняется на тензорных ядрах за несколько миллисекунд, повышая разрешение изображения в реальном времени без заметных потерь FPS.

❓Часто задаваемые вопросы

RTX 4090 имеет 512 тензорных ядер 4-го поколения (Ada Lovelace), обеспечивающих 1321,6 TFLOPS в FP8.

🔗Узнать больше

YouTube

Что такое Tensor Cores Лекция об tensor cores тензорные ядра: разбор