Процесс RLHF
🔄Процесс RLHF
1) SFT: fine-tuning на диалогах (InstructGPT). 2) Reward Model: люди ранжируют ответы, модель учится предсказывать предпочтения. 3) PPO: оптимизация политики по reward model. Constitutional AI (Anthropic): RL from AI Feedback + принципы. DPO (2023): прямая оптимизация без RM.
Загрузка карты...
Простыми словами
Процесс RLHF — это способ понять, как в этой сфере устроены правила, решения и реальные последствия для людей.
Более точно
Процесс RLHF — предметная область общественного знания, описывающая устойчивые механизмы взаимодействия участников, норм и институтов.
Зачем это нужно
Тема нужна, чтобы принимать более точные решения в контексте раздела «ChatGPT и RLHF»: видеть структуру проблемы, ограничения и рабочие инструменты.
Примеры
Практический разбор включает кейсы, сравнение сценариев и проверку результата по понятным критериям.
Частые ошибки
Чаще всего ошибаются из-за упрощения причин, игнорирования контекста и отсутствия проверяемых критериев результата.