AI Alignment — центральная нерешённая проблема безопасности ИИ. Почему так сложно создать систему, которая хочет того же, чего хотим мы?
Определение проблемы
Как гарантировать, что ИИ-система действует согласно человеческим ценностям — особенно когда она умнее создателей? Это не про текущие чат-боты, а про AGI/ASI уровень.
Почему фундаментально сложно?
- Specification problem: человеческие ценности невозможно полностью формализовать
- Goodhart’s Law: когда мера становится целью — она перестаёт быть хорошей мерой
- Inner alignment: внутренние цели модели могут отличаться от заданных
- Scalable oversight: как контролировать систему умнее себя?
Подходы
- RLHF/DPO — работает сейчас, не масштабируется до ASI
- Debate — два ИИ спорят, люди судят
- Mechanistic Interpretability — понять, что внутри модели (Anthropic)
- Formal verification — математически доказать свойства
Добавить комментарий