👾DQN на Atari

DeepMind (2013, Nature 2015). Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия. Experience replay buffer (1M переходов). Target network (обновление каждые 10K шагов). Superhuman на Breakout, Pong. Проблемы: Montezuma's Revenge (sparse rewards).

📖1 мин чтения📊Уровень 8🗺️2 подтем📅16 апреля 2026 г.

Автор: Бессмертный А.П.

Загрузка карты...

Experience Replay
DQN сохраняет переходы (s,a,r,s') в буфер и обучается на случайных мини-батчах. Разрушает корреляцию между последовательными наблюдениями. DeepMind (2015).
Target Network
Отдельная копия сети для вычисления целевых Q-значений. Обновляется раз в C шагов. Стабилизирует обучение, предотвращая осцилляции.

DQN на Atari — DeepMind (2013, Nature 2015).

Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия.

Предпосылки и причины

Experience replay buffer (1M переходов). Target network (обновление каждые 10K шагов).

Ход событий

Superhuman на Breakout, Pong. Проблемы: Montezuma's Revenge (sparse rewards)..

Последствия и значение

Результаты оказали влияние на дальнейшее развитие событий.

1
2013
Начало
2
2015
Ключевой момент

2 ключевых событий

❓Часто задаваемые вопросы

DeepMind (2013, Nature 2015). Вход: 4 последовательных кадра 84×84. CNN → Q-values для каждого действия. Experience replay buffer (1M переходов). Targ

🔗Узнать больше

YouTube

Что такое DQN на Atari Лекция об dqn на atari DQN на Atari: разбор

👾DQN на Atari

Содержание карты

Предпосылки и причины

Ход событий

Последствия и значение

📅Хроника событий

Начало

Ключевой момент

❓Часто задаваемые вопросы

🔗Узнать больше