Как нейросеть обучается — что такое backpropagation?

Сеть делает предсказание, вычисляет ошибку, передаёт её назад через слои (chain rule из матанализа), корректирует веса. Повторяет миллионы раз, минимизируя ошибку градиентным спуском.

Почему ИИ иногда ошибается глупо — adversarial examples?

Добавь невидимый глазу шум на изображение — сеть видит совсем другой объект. Причина: нейросети учат статистические корреляции, а не понимают суть. Защита: adversarial training.

Заменит ли ИИ программистов/врачей/художников?

Узкие задачи — да (генерация кода, диагностика по снимкам, иллюстрации). Но креативность, контекст, этика — пока вне досягаемости. ИИ — инструмент, усиливающий человека, не заменяющий.

💻. Теория Искусственного Интеллекта

Математические модели обучения. Создание систем, способных к обучению и принятию решений.

📖8 мин чтения📊Уровень 4🗺️5 подтем📅16 апреля 2026 г.

Автор: Бессмертный А.П.

Искусственный интеллект (ИИ) — область информатики, изучающая создание систем, способных выполнять задачи, требующие человеческого интеллекта: распознавание образов, понимание языка, принятие решений, обучение на данных.

Может ли машина мыслить? Алан Тьюринг в 1950 году переформулировал вопрос: если человек не отличит диалог с машиной от диалога с человеком, значит ли это, что машина разумна? ChatGPT в 2023 году прошёл бы тест Тьюринга — но понимает ли он, о чём говорит? Спор длится 75 лет.

Почему мечта о думающих машинах так стара

Идея искусственного разума старше компьютеров. Античные мифы: Талос (бронзовый гигант, охраняющий Крит), Галатея (статуя, ожившая по молитве). Средневековье: Голем раввина Лёва, механический турок фон Кемпелена (1770, фальшивка — внутри сидел шахматист).

Настоящая теория началась с формальной логики. Джордж Буль (1854) превратил рассуждения в алгебру. Алан Тьюринг (1936) доказал: любой алгоритм можно записать на универсальной вычислительной машине. Если мышление — алгоритм, его можно автоматизировать.

На практике первая AI-программа появилась в 1951 году: Кристофер Стрейчи написал шашки для компьютера Ferranti Mark 1. Артур Самуэль (IBM, 1959) создал самообучающуюся программу — она играла сама с собой, улучшая стратегию. Первый пример машинного обучения за 10 лет до термина.

Три эпохи ИИ: эйфория, зима, возрождение

Символьный ИИ (1956-1974) — первая волна. Конференция в Дартмуте (1956): Джон Маккарти, Марвин Минский, Клод Шеннон верили — через 20 лет ИИ достигнет человеческого уровня. Подход: формализовать знания в правилах (if-then). LISP (1958) — язык для символьных вычислений.

Экспертные системы (1970-е): MYCIN диагностировал инфекции крови по 600 правилам — точность 69% (человек-эксперт — 65%). DENDRAL определял молекулярную структуру по масс-спектрометрии. Казалось, скоро ИИ заменит врачей и химиков.

AI-зима (1974-1980, 1987-1993) — крах надежд. Проблемы: правила не масштабируются (миллионы исключений), здравый смысл не формализуется ("кошка не может быть больше слона" — как записать?), комбинаторный взрыв (шахматы — 10¹²⁰ позиций). Финансирование урезали, исследователи переключились на другие темы.

Коннекционизм и deep learning (1986-н.в.) — возрождение через нейросети. Вместо правил — обучение на данных. Алгоритм обратного распространения ошибки (backpropagation, 1986) позволил обучать многослойные сети. Но до 2012 года не хватало данных и вычислительной мощности.

Три парадигмы обучения

Supervised learning (обучение с учителем) — есть правильные ответы. Примеры: распознавание рукописных цифр (MNIST — 60 тысяч образцов), классификация email (спам/не спам), перевод текста. Модель подгоняется под данные, минимизируя ошибку.

Архитектуры: свёрточные сети (CNN) для изображений (фильтры выделяют края, текстуры), рекуррентные сети (RNN/LSTM) для последовательностей (текст, речь). Проблема: нужны миллионы размеченных примеров — дорого и долго.

Unsupervised learning (обучение без учителя) — нет правильных ответов, модель ищет закономерности. Кластеризация (k-means разбивает данные на группы), снижение размерности (PCA сжимает признаки), автокодировщики (сжимают и восстанавливают данные).

Генеративные модели: GAN (генеративно-состязательная сеть, 2014) — две сети соревнуются: одна генерирует фейковые изображения, другая отличает их от настоящих. Через миллионы итераций генератор обманывает дискриминатор — получаются реалистичные лица, которых не существует.

Reinforcement learning (обучение с подкреплением) — агент взаимодействует со средой, получает награды и штрафы. Цель: максимизировать суммарную награду. Примеры: AlphaGo обыграл чемпиона мира по го (2016) через самообучение, роботы учатся ходить методом проб и ошибок.

Q-learning, policy gradient, actor-critic — алгоритмы, исследующие пространство действий. Проблема: награда часто отложенная (выиграл партию в го через 200 ходов — какой ход был решающим?). Временная разность ошибки (TD-error) распределяет вклад.

Революция 2012 года: почему ИИ взлетел

AlexNet (2012) выиграл ImageNet Competition — распознавание изображений с ошибкой 15% (предыдущий рекорд — 26%). Секрет: глубокая свёрточная сеть (8 слоёв), GPU для параллельных вычислений, dropout против переобучения, ReLU вместо сигмоиды.

Три фактора взлёта: (1) Большие данные — интернет дал миллиарды изображений, текстов, видео. (2) GPU-вычисления — видеокарты NVIDIA ускорили обучение в 100 раз. (3) Алгоритмы — batch normalization, residual networks (ResNet, 2015) позволили обучать сети в 1000 слоёв.

Трансформеры (2017, "Attention is All You Need") убили рекуррентные сети. Механизм внимания (attention) смотрит на все слова сразу, а не последовательно. BERT (2018), GPT-3 (2020, 175 млрд параметров), ChatGPT (2022) — всё на трансформерах. Языковые модели понимают контекст через self-attention.

Где ИИ работает сегодня (и где нет)

Узкий ИИ (narrow AI) решает одну задачу лучше человека: распознавание лиц (точность 99,9%), перевод текста (Google Translate — 100+ языков), игра в шахматы (Stockfish), диагностика рака по снимкам (иногда точнее радиолога).

Но общий ИИ (AGI — artificial general intelligence) не существует. ChatGPT не понимает физику (попроси посчитать траекторию — ошибётся), не имеет здравого смысла ("можно ли сварить яйцо в микроволновке?" — галлюцинирует). Moravec's paradox: то, что легко человеку (ходить, видеть), сложно ИИ, и наоборот.

Проблемы: (1) Интерпретируемость — нейросеть с миллиардом параметров — чёрный ящик. Почему она так решила? Неизвестно. (2) Смещение данных (bias) — если обучать на исторических данных о найме, ИИ унаследует дискриминацию. (3) Атаки — adversarial examples: добавь шум на 1% — панда превращается в гиббона для сети.

Границы машинного мышления

Тест Тьюринга пройден, но спор не решён. Джон Сёрл (1980) предложил мысленный эксперимент "Китайская комната": человек в комнате получает иероглифы, по правилам составляет ответ — снаружи кажется, что он знает китайский. Но он не понимает ни слова. Так и ИИ — манипулирует символами без понимания?

Контринтуитивный факт: GPT-3 может написать код, стихи, эссе — но не знает, сколько будет 2+2, если не видел это в обучающих данных. Языковые модели — статистические попугаи (Эмили Бендер, 2021) или зачатки разума? Вопрос открыт.

👤

Алан Тьюринг

1912-1954

Отец теоретической информатики и ИИ

👤

Джон Маккарти

1927-2011

Создатель термина «искусственный интеллект»

👤

Джеффри Хинтон

1947-н.в.

Крёстный отец deep learning

👤

Ян ЛеКун

1960-н.в.

Пионер свёрточных сетей

4 личности

❓Часто задаваемые вопросы

Узкий ИИ (narrow AI) решает одну задачу: распознавание лиц, перевод, шахматы. AGI — гипотетический ИИ человеческого уровня, способный учиться любой задаче. AGI пока не существует.

🔗Узнать больше

YouTube