🎮Q-Learning and DQN

Watkins (1989) introduced Q-learning for training the Q-function (expected reward). The Bellman equation defines Q(s,a) = r + γ·max Q(s',a'). Tabular Q-learning evolved into DQN (DeepMind 2013), using a neural network as a Q approximator with experience replay and target networks, achieving superhuman performance in Atari games

Article body and graph labels may still appear in Russian where English translations have not been added yet.
📖6 min read📊Level 7🗺️1 subtopics📅April 16, 2026

Loading map...

Q-Learning и DQN

Простыми словами

Q-Learning и DQN — это способ понять, как в этой сфере устроены правила, решения и реальные последствия для людей.

Более точно

Q-Learning и DQN — предметная область общественного знания, описывающая устойчивые механизмы взаимодействия участников, норм и институтов.

Зачем это нужно

Тема нужна, чтобы принимать более точные решения в контексте раздела «Обучение с подкреплением»: видеть структуру проблемы, ограничения и рабочие инструменты.

Примеры

Практический разбор включает кейсы, сравнение сценариев и проверку результата по понятным критериям.

Частые ошибки

Чаще всего ошибаются из-за упрощения причин, игнорирования контекста и отсутствия проверяемых критериев результата.

Связанные понятия
Policy Gradient методыAlphaGo и AlphaZeroQ-LearningPolicy Gradient

Часто задаваемые вопросы

Q-Learning и DQN — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.