🎮Q-Learning и DQN

Watkins (1989): обучение Q-функции (ожидаемая награда). Bellman equation: Q(s,a) = r + γ·max Q(s',a'). Tabular Q-learning → DQN (DeepMind 2013): нейросеть как аппроксиматор Q. Experience replay, target network. Atari games: superhuman на 29/49 играх.

📖6 мин чтения📊Уровень 7🗺️1 подтем📅19 февраля 2026 г.

🗺️ Mind Map

Загрузка карты...

Часто задаваемые вопросы

Q-Learning и DQN — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.