💬ChatGPT и RLHF
OpenAI, ноябрь 2022. GPT-3.5 + RLHF (Reinforcement Learning from Human Feedback). Процесс: SFT (fine-tuning на диалогах) → обучение reward model → PPO оптимизация. 100M пользователей за 2 месяца. GPT-4 (март 2023): мультимодальность, 1.76T параметров (неофициально). Конкуренты: Claude, Gemini, Llama.
📖6 мин чтения📊Уровень 6🗺️2 подтем📅19 февраля 2026 г.
🗺️ Mind Map
Загрузка карты...
❓Часто задаваемые вопросы
ChatGPT и RLHF — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.