⚡ Новости
OpenAI анонсировала GPT-5 с возможностями AGI DeepMind: AlphaFold 3 решает задачи, недоступные людям Elon Musk: xAI строит суперкомпьютер на 100 000 GPU Новые бенчмарки 2026: сравнение Claude 4, GPT-5 и Gemini Ultra OpenAI анонсировала GPT-5 с возможностями AGI DeepMind: AlphaFold 3 решает задачи, недоступные людям Elon Musk: xAI строит суперкомпьютер на 100 000 GPU Новые бенчмарки 2026: сравнение Claude 4, GPT-5 и Gemini Ultra
Средний уровень

Бенчмарки ИИ: что такое MMLU, HumanEval, ARC и где смотреть рейтинги

Как объективно сравнить разные нейросети? Для этого существуют бенчмарки — стандартизированные тесты. Разбираемся в главных из них и объясняем, где смотреть актуальные рейтинги.

Что такое бенчмарк?

Бенчмарк — набор задач с известными правильными ответами, на котором измеряется производительность модели. Как ЕГЭ, только для нейросетей.

Главные бенчмарки

Бенчмарк Что измеряет
MMLU Знания в 57 областях: история, медицина, право, физика
HumanEval Написание рабочего кода на Python
MATH Математика уровня школьных олимпиад
ARC-AGI Решение новых задач из минимума примеров — ближайший к AGI тест
GSM8K Математика с пошаговым рассуждением
HellaSwag Завершение предложений здравым смыслом

Где смотреть актуальные рейтинги?

  • lmarena.ai — Chatbot Arena, оценки от реальных пользователей вслепую. Самый честный рейтинг.
  • huggingface.co/spaces/open-llm-leaderboard — рейтинг открытых моделей
  • artificialanalysis.ai — скорость, цена, качество в одной таблице
  • livebench.ai — задачи меняются ежемесячно, защита от «зазубривания»
  • paperswithcode.com/sota — SOTA по каждой задаче с привязкой к статьям

Проблема «загрязнения» бенчмарков

Серьёзная проблема отрасли: модели обучаются на данных из интернета, куда часто попадают тестовые задачи. Модель «запоминает» ответы и показывает завышенный результат. LiveBench и ARC-AGI созданы специально для борьбы с этим явлением.

Читайте также

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *