Как объективно сравнить разные нейросети? Для этого существуют бенчмарки — стандартизированные тесты. Разбираемся в главных из них и объясняем, где смотреть актуальные рейтинги.
Что такое бенчмарк?
Бенчмарк — набор задач с известными правильными ответами, на котором измеряется производительность модели. Как ЕГЭ, только для нейросетей.
Главные бенчмарки
| Бенчмарк | Что измеряет |
|---|---|
| MMLU | Знания в 57 областях: история, медицина, право, физика |
| HumanEval | Написание рабочего кода на Python |
| MATH | Математика уровня школьных олимпиад |
| ARC-AGI | Решение новых задач из минимума примеров — ближайший к AGI тест |
| GSM8K | Математика с пошаговым рассуждением |
| HellaSwag | Завершение предложений здравым смыслом |
Где смотреть актуальные рейтинги?
- lmarena.ai — Chatbot Arena, оценки от реальных пользователей вслепую. Самый честный рейтинг.
- huggingface.co/spaces/open-llm-leaderboard — рейтинг открытых моделей
- artificialanalysis.ai — скорость, цена, качество в одной таблице
- livebench.ai — задачи меняются ежемесячно, защита от «зазубривания»
- paperswithcode.com/sota — SOTA по каждой задаче с привязкой к статьям
Проблема «загрязнения» бенчмарков
Серьёзная проблема отрасли: модели обучаются на данных из интернета, куда часто попадают тестовые задачи. Модель «запоминает» ответы и показывает завышенный результат. LiveBench и ARC-AGI созданы специально для борьбы с этим явлением.
Добавить комментарий