Tensor Cores

NVIDIA's specialized cores for matrix operations, enhancing performance in AI and deep learning tasks. They were introduced in the Volta architecture and have evolved in subsequent generations

Article body and graph labels may still appear in Russian where English translations have not been added yet.
📖3 min read📊Level 7📅April 16, 2026

Loading map...

Что такое тензорные ядра

Представьте умножение двух больших таблиц чисел (матриц). Обычное CUDA-ядро умножает пары чисел по одной — медленно для таких задач. Тензорное ядро (Tensor Core) — специализированный вычислительный блок, который умножает блоки 4×4 (или 8×8, 16×16) за один такт. Это ускоряет матричные операции в 8–16 раз по сравнению с обычными CUDA-ядрами.

Тензоры в данном контексте — просто многомерные массивы чисел. Умножение матриц (GEMM, General Matrix Multiply) — основная операция в нейросетях, линейной алгебре и сигнальной обработке.

История и поколения

  • Volta (2017) — первые тензорные ядра в V100, 125 TFLOPS FP16
  • Turing (2018) — потребительские карты RTX 20xx, добавлен INT8/INT4
  • Ampere (2020) — поддержка FP64 Tensor, структурированное разреживание (2×)
  • Hopper (2022) — H100: FP8, трансформерный движок, 3958 TFLOPS FP8
  • Blackwell (2024) — B100/B200: FP4, коммуникация между ядрами на чипе

Форматы чисел и скорость

Тензорные ядра работают с разными форматами:

  • FP32 — полная точность, для финальных вычислений
  • FP16 / BF16 — половинная точность, стандарт для обучения нейросетей
  • INT8 / FP8 — низкая точность, для инференса (вывода ответов)
  • INT4 / FP4 — сверхнизкая точность, квантизированные модели

Чем ниже точность — тем быстрее и тем больше модель помещается в VRAM. GPT-4 в FP16 требует сотни гигабайт; в INT4 — в 4 раза меньше.

Применение в ИИ

Тензорные ядра — причина, почему NVIDIA доминирует в ИИ. Обучение GPT-3 (175 млрд параметров) требовало примерно 10000 GPU-дней на V100. На A100 то же — в 7 раз быстрее. На H100 — ещё быстрее. Все крупнейшие ИИ-модели (GPT, Llama, Gemini, Claude) обучены на системах с тензорными ядрами NVIDIA.

Помимо ИИ: молекулярная динамика, физические симуляции, финансовые расчёты, геномика — всё, где нужны матричные операции.

DLSS и тензорные ядра

В игровых GPU (GeForce RTX) тензорные ядра используются для DLSS — нейросетевого масштабирования. Нейросеть DLSS прогоняется на тензорных ядрах за несколько миллисекунд, повышая разрешение изображения в реальном времени без заметных потерь FPS.

Часто задаваемые вопросы

RTX 4090 имеет 512 тензорных ядер 4-го поколения (Ada Lovelace), обеспечивающих 1321,6 TFLOPS в FP8.