Зачем нужно несколько форматов точности?

Обучение нейросетей требует FP16/FP32 для стабильности. Инференс можно делать в INT8/FP8 — быстрее и с меньшим энергопотреблением.

Есть ли аналоги тензорных ядер у других производителей?

AMD Matrix Cores в MI300, Google TPU Tensor Units, Intel AMX (Advanced Matrix Extensions). Но экосистема CUDA делает NVIDIA предпочтительным выбором.

Tensor Cores

NVIDIA's specialized cores for matrix operations, enhancing performance in AI and deep learning tasks. They were introduced in the Volta architecture and have evolved in subsequent generations

Article body and graph labels may still appear in Russian where English translations have not been added yet.

📖3 min read📊Level 7📅April 16, 2026

Author: Бессмертный А.П.

Что такое тензорные ядра

Представьте умножение двух больших таблиц чисел (матриц). Обычное CUDA-ядро умножает пары чисел по одной — медленно для таких задач. Тензорное ядро (Tensor Core) — специализированный вычислительный блок, который умножает блоки 4×4 (или 8×8, 16×16) за один такт. Это ускоряет матричные операции в 8–16 раз по сравнению с обычными CUDA-ядрами.

Тензоры в данном контексте — просто многомерные массивы чисел. Умножение матриц (GEMM, General Matrix Multiply) — основная операция в нейросетях, линейной алгебре и сигнальной обработке.

История и поколения

Volta (2017) — первые тензорные ядра в V100, 125 TFLOPS FP16
Turing (2018) — потребительские карты RTX 20xx, добавлен INT8/INT4
Ampere (2020) — поддержка FP64 Tensor, структурированное разреживание (2×)
Hopper (2022) — H100: FP8, трансформерный движок, 3958 TFLOPS FP8
Blackwell (2024) — B100/B200: FP4, коммуникация между ядрами на чипе

Форматы чисел и скорость

Тензорные ядра работают с разными форматами:

FP32 — полная точность, для финальных вычислений
FP16 / BF16 — половинная точность, стандарт для обучения нейросетей
INT8 / FP8 — низкая точность, для инференса (вывода ответов)
INT4 / FP4 — сверхнизкая точность, квантизированные модели

Чем ниже точность — тем быстрее и тем больше модель помещается в VRAM. GPT-4 в FP16 требует сотни гигабайт; в INT4 — в 4 раза меньше.

Применение в ИИ

Тензорные ядра — причина, почему NVIDIA доминирует в ИИ. Обучение GPT-3 (175 млрд параметров) требовало примерно 10000 GPU-дней на V100. На A100 то же — в 7 раз быстрее. На H100 — ещё быстрее. Все крупнейшие ИИ-модели (GPT, Llama, Gemini, Claude) обучены на системах с тензорными ядрами NVIDIA.

Помимо ИИ: молекулярная динамика, физические симуляции, финансовые расчёты, геномика — всё, где нужны матричные операции.

DLSS и тензорные ядра

В игровых GPU (GeForce RTX) тензорные ядра используются для DLSS — нейросетевого масштабирования. Нейросеть DLSS прогоняется на тензорных ядрах за несколько миллисекунд, повышая разрешение изображения в реальном времени без заметных потерь FPS.

❓Часто задаваемые вопросы

RTX 4090 имеет 512 тензорных ядер 4-го поколения (Ada Lovelace), обеспечивающих 1321,6 TFLOPS в FP8.

🔗Learn more

YouTube

What is Tensor Cores?Tensor Cores: lecture Tensor Cores: overview