💬ChatGPT и RLHF

OpenAI, ноябрь 2022. GPT-3.5 + RLHF (Reinforcement Learning from Human Feedback). Процесс: SFT (fine-tuning на диалогах) → обучение reward model → PPO оптимизация. 100M пользователей за 2 месяца. GPT-4 (март 2023): мультимодальность, 1.76T параметров (неофициально). Конкуренты: Claude, Gemini, Llama.

📖6 мин чтения📊Уровень 6🗺️2 подтем📅19 февраля 2026 г.

🗺️ Mind Map

Загрузка карты...

Часто задаваемые вопросы

ChatGPT и RLHF — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.