⚡ Новости
OpenAI анонсировала GPT-5 с возможностями AGI DeepMind: AlphaFold 3 решает задачи, недоступные людям Elon Musk: xAI строит суперкомпьютер на 100 000 GPU Новые бенчмарки 2026: сравнение Claude 4, GPT-5 и Gemini Ultra OpenAI анонсировала GPT-5 с возможностями AGI DeepMind: AlphaFold 3 решает задачи, недоступные людям Elon Musk: xAI строит суперкомпьютер на 100 000 GPU Новые бенчмарки 2026: сравнение Claude 4, GPT-5 и Gemini Ultra
Средний уровень

RLHF и Constitutional AI: как учат ChatGPT и Claude быть полезными

После предобучения на огромных массивах текста языковая модель умеет многое — но это «сырая» модель. Как из неё делают полезного ассистента? Разбираем RLHF и Constitutional AI.

Зачем нужна дополнительная настройка?

Базовая LLM обучена предсказывать следующий токен. Она не «знает», что её задача — отвечать на вопросы полезно и безопасно. Без дополнительной настройки она может продолжать токсичный текст, отказываться от задач или уверенно галлюцинировать.

Шаг 1: Supervised Fine-Tuning (SFT)

Люди-аннотаторы пишут образцовые ответы на разные запросы. Модель дообучается на этих примерах воспроизводить нужный стиль и поведение. Необходимо, но недостаточно.

Шаг 2: RLHF

Reinforcement Learning from Human Feedback — разработан в OpenAI, применён в InstructGPT (2022). Процесс: модель генерирует несколько вариантов ответа → аннотаторы ранжируют их → на этих оценках обучается Reward Model → основная модель через PPO обучается максимизировать reward.

Альтернатива: Constitutional AI (Anthropic)

Вместо разметки людьми — (1) задаём «конституцию» принципов, (2) модель сама критикует свои ответы по конституции, (3) модель переписывает ответ с учётом критики, (4) на этих парах обучается Preference Model. Масштабируется без огромных команд аннотаторов.

DPO: прямая оптимизация предпочтений

Метод 2023 года: вместо отдельной Reward Model + PPO — обучение напрямую на данных предпочтений через специальную функцию потерь. Проще в реализации, часто не уступает RLHF. Применяется в Llama 3, Mistral и других открытых моделях.

Читайте также

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *