Средний уровень

RLHF и Constitutional AI: как учат ChatGPT и Claude быть полезными

📅 29 апреля 2026 🕐 1 мин чтения 👁 20 просмотров 📂 Для профессионалов

После предобучения на огромных массивах текста языковая модель умеет многое — но это «сырая» модель. Как из неё делают полезного ассистента? Разбираем RLHF и Constitutional AI.

Зачем нужна дополнительная настройка?

Базовая LLM обучена предсказывать следующий токен. Она не «знает», что её задача — отвечать на вопросы полезно и безопасно. Без дополнительной настройки она может продолжать токсичный текст, отказываться от задач или уверенно галлюцинировать.

Шаг 1: Supervised Fine-Tuning (SFT)

Люди-аннотаторы пишут образцовые ответы на разные запросы. Модель дообучается на этих примерах воспроизводить нужный стиль и поведение. Необходимо, но недостаточно.

Шаг 2: RLHF

Reinforcement Learning from Human Feedback — разработан в OpenAI, применён в InstructGPT (2022). Процесс: модель генерирует несколько вариантов ответа → аннотаторы ранжируют их → на этих оценках обучается Reward Model → основная модель через PPO обучается максимизировать reward.

Альтернатива: Constitutional AI (Anthropic)

Вместо разметки людьми — (1) задаём «конституцию» принципов, (2) модель сама критикует свои ответы по конституции, (3) модель переписывает ответ с учётом критики, (4) на этих парах обучается Preference Model. Масштабируется без огромных команд аннотаторов.

DPO: прямая оптимизация предпочтений

Метод 2023 года: вместо отдельной Reward Model + PPO — обучение напрямую на данных предпочтений через специальную функцию потерь. Проще в реализации, часто не уступает RLHF. Применяется в Llama 3, Mistral и других открытых моделях.

# ChatGPT # искусственный интеллект

RLHF и Constitutional AI: как учат ChatGPT и Claude быть полезными

Зачем нужна дополнительная настройка?

Шаг 1: Supervised Fine-Tuning (SFT)

Шаг 2: RLHF

Альтернатива: Constitutional AI (Anthropic)

DPO: прямая оптимизация предпочтений

Читайте также

Архитектура Transformer: как устроены современные LLM — для специалистов

Проблема выравнивания ИИ (AI Alignment): почему это сложнее, чем кажется

Мультимодальные нейросети: GPT-4o, Gemini и ИИ с «глазами» и «ушами»

Добавить комментарий Отменить ответ