После предобучения на огромных массивах текста языковая модель умеет многое — но это «сырая» модель. Как из неё делают полезного ассистента? Разбираем RLHF и Constitutional AI.
Зачем нужна дополнительная настройка?
Базовая LLM обучена предсказывать следующий токен. Она не «знает», что её задача — отвечать на вопросы полезно и безопасно. Без дополнительной настройки она может продолжать токсичный текст, отказываться от задач или уверенно галлюцинировать.
Шаг 1: Supervised Fine-Tuning (SFT)
Люди-аннотаторы пишут образцовые ответы на разные запросы. Модель дообучается на этих примерах воспроизводить нужный стиль и поведение. Необходимо, но недостаточно.
Шаг 2: RLHF
Reinforcement Learning from Human Feedback — разработан в OpenAI, применён в InstructGPT (2022). Процесс: модель генерирует несколько вариантов ответа → аннотаторы ранжируют их → на этих оценках обучается Reward Model → основная модель через PPO обучается максимизировать reward.
Альтернатива: Constitutional AI (Anthropic)
Вместо разметки людьми — (1) задаём «конституцию» принципов, (2) модель сама критикует свои ответы по конституции, (3) модель переписывает ответ с учётом критики, (4) на этих парах обучается Preference Model. Масштабируется без огромных команд аннотаторов.
DPO: прямая оптимизация предпочтений
Метод 2023 года: вместо отдельной Reward Model + PPO — обучение напрямую на данных предпочтений через специальную функцию потерь. Проще в реализации, часто не уступает RLHF. Применяется в Llama 3, Mistral и других открытых моделях.
Добавить комментарий