TECHAGENT - MY AI LIFE

Бенчмарки AI Моделей

Стандартные: 36 · HF: 22

О бенчмарках

Бенчмарки - это стандартизированные тесты, оценивающие, насколько хорошо ИИ-модели справляются с рассуждением, знаниями, математикой и программированием. Используйте их, чтобы объективно сравнивать модели и выбирать подходящую под задачу.

📊 Стандартные. Стандартные - четыре самых цитируемых публичных бенчмарка (MMLU, GPQA, HumanEval, SWE-Bench), взятые со страниц анонсов моделей; наша Оценка сводит их в одно число.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - шесть задач (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro), измеренных единообразно для open-source моделей; ранжирование по Среднему.

📚MMLU
57 академических предметов
o1
OpenAI
92.3%
🔬GPQA Diamond
Вопросы уровня PhD
o1
OpenAI
77.3%
💻HumanEval
Генерация Python-кода
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
Реальные задачи с GitHub
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 академических предметов

🔬GPQA Diamond

Вопросы уровня PhD

💻HumanEval

Генерация Python-кода

🔧SWE-Bench

Реальные задачи с GitHub

#МодельПровайдерMMLUGPQAHumanEvalSWE-BenchОценка
1GoogleGemma 2 27BGoogle
75.2
38.4
74.0
14.7
48.7
2GoogleGemini 1.5 FlashGoogle
78.9
37.0
78.9
16.2
50.7
3GoogleGemini 2.0 FlashGoogle
83.0
45.0
85.0
22.0
56.9
4GoogleGemini 1.5 ProGoogle
85.9
46.2
84.1
26.9
58.8
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Все оценки в % · выше - лучше→ Полная таблица моделей с ценами и скоростью