🎭Policy Gradient
Прямая оптимизация политики π(a|s). REINFORCE: gradient ∝ reward × ∇log π. Actor-Critic: actor (политика) + critic (оценка). A2C, A3C: асинхронное обучение. PPO (Proximal Policy Optimization): стабильность, OpenAI default. SAC (Soft Actor-Critic): максимизация энтропии. Лучше для continuous action space.
📖6 мин чтения📊Уровень 7📅19 февраля 2026 г.
🗺️ Mind Map
Загрузка карты...
❓Часто задаваемые вопросы
Policy Gradient — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.