👾DQN на Atari

DeepMind (2013, Nature 2015). Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия. Experience replay buffer (1M переходов). Target network (обновление каждые 10K шагов). Superhuman на Breakout, Pong. Проблемы: Montezuma's Revenge (sparse rewards).

📖1 мин чтения📊Уровень 8🗺️2 подтем📅19 февраля 2026 г.

🗺️ Mind Map

Загрузка карты...
DQN на Atari — DeepMind (2013, Nature 2015).

Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия.

Предпосылки и причины

Experience replay buffer (1M переходов). Target network (обновление каждые 10K шагов).

Ход событий

Superhuman на Breakout, Pong. Проблемы: Montezuma's Revenge (sparse rewards)..

Последствия и значение

Результаты оказали влияние на дальнейшее развитие событий.

Часто задаваемые вопросы

DeepMind (2013, Nature 2015). Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия. Experience replay buffer (1M переходов). Targ