DQN на Atari — DeepMind (2013, Nature 2015).
👾DQN on Atari
DeepMind (2013, Nature 2015). Input: 4 consecutive frames 84×84. CNN → Q-values for each action. Experience replay buffer (1M transitions). Target network (updated every 10K steps). Superhuman on Breakout, Pong. Issues: Montezuma's Revenge (sparse rewards)
Article body and graph labels may still appear in Russian where English translations have not been added yet.
Loading map...
Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия.
Предпосылки и причины
Experience replay buffer (1M переходов). Target network (обновление каждые 10K шагов).
Ход событий
Superhuman на Breakout, Pong. Проблемы: Montezuma's Revenge (sparse rewards)..
Последствия и значение
Результаты оказали влияние на дальнейшее развитие событий.
- 1
Начало
- 2
Ключевой момент
2 ключевых событий
❓Часто задаваемые вопросы
DeepMind (2013, Nature 2015). Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия. Experience replay buffer (1M переходов). Targ
