Tensor Cores

Специализированные ядра NVIDIA для операций матричного умножения (mixed-precision matrix multiply-accumulate). Появились в Volta (2017, V100 для дата-центров, 640 Tensor Cores), улучшены в Turing (RTX 20-серия, INT8/INT4 для инференса), Ampere (sparsity support — пропуск нулевых весов, ускорение в 2 раза), Ada Lovelace (FP8 формат, Transformer Engine). Производительность: RTX 4090 — 1321 TFLOPS FP8 (vs 83 TFLOPS FP32 для CUDA ядер). Применение: обучение нейросетей (ускорение в 5-20 раз для операций типа dense layers, convolutions), DLSS (AI upscaling изображений в реальном времени 60-120 FPS)

📖3 мин чтения📊Уровень 7📅16 апреля 2026 г.

Загрузка карты...

Что такое тензорные ядра

Представьте умножение двух больших таблиц чисел (матриц). Обычное CUDA-ядро умножает пары чисел по одной — медленно для таких задач. Тензорное ядро (Tensor Core) — специализированный вычислительный блок, который умножает блоки 4×4 (или 8×8, 16×16) за один такт. Это ускоряет матричные операции в 8–16 раз по сравнению с обычными CUDA-ядрами.

Тензоры в данном контексте — просто многомерные массивы чисел. Умножение матриц (GEMM, General Matrix Multiply) — основная операция в нейросетях, линейной алгебре и сигнальной обработке.

История и поколения

  • Volta (2017) — первые тензорные ядра в V100, 125 TFLOPS FP16
  • Turing (2018) — потребительские карты RTX 20xx, добавлен INT8/INT4
  • Ampere (2020) — поддержка FP64 Tensor, структурированное разреживание (2×)
  • Hopper (2022) — H100: FP8, трансформерный движок, 3958 TFLOPS FP8
  • Blackwell (2024) — B100/B200: FP4, коммуникация между ядрами на чипе

Форматы чисел и скорость

Тензорные ядра работают с разными форматами:

  • FP32 — полная точность, для финальных вычислений
  • FP16 / BF16 — половинная точность, стандарт для обучения нейросетей
  • INT8 / FP8 — низкая точность, для инференса (вывода ответов)
  • INT4 / FP4 — сверхнизкая точность, квантизированные модели

Чем ниже точность — тем быстрее и тем больше модель помещается в VRAM. GPT-4 в FP16 требует сотни гигабайт; в INT4 — в 4 раза меньше.

Применение в ИИ

Тензорные ядра — причина, почему NVIDIA доминирует в ИИ. Обучение GPT-3 (175 млрд параметров) требовало примерно 10000 GPU-дней на V100. На A100 то же — в 7 раз быстрее. На H100 — ещё быстрее. Все крупнейшие ИИ-модели (GPT, Llama, Gemini, Claude) обучены на системах с тензорными ядрами NVIDIA.

Помимо ИИ: молекулярная динамика, физические симуляции, финансовые расчёты, геномика — всё, где нужны матричные операции.

DLSS и тензорные ядра

В игровых GPU (GeForce RTX) тензорные ядра используются для DLSS — нейросетевого масштабирования. Нейросеть DLSS прогоняется на тензорных ядрах за несколько миллисекунд, повышая разрешение изображения в реальном времени без заметных потерь FPS.

Часто задаваемые вопросы

RTX 4090 имеет 512 тензорных ядер 4-го поколения (Ada Lovelace), обеспечивающих 1321,6 TFLOPS в FP8.