Бенчмарки AI Моделей

Стандартные: 36 · HF: 22

О бенчмарках

Бенчмарки - это стандартизированные тесты, оценивающие, насколько хорошо ИИ-модели справляются с рассуждением, знаниями, математикой и программированием. Используйте их, чтобы объективно сравнивать модели и выбирать подходящую под задачу.

📊 Стандартные. Стандартные - четыре самых цитируемых публичных бенчмарка (MMLU, GPQA, HumanEval, SWE-Bench), взятые со страниц анонсов моделей; наша Оценка сводит их в одно число.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - шесть задач (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro), измеренных единообразно для open-source моделей; ранжирование по Среднему.

📊 Стандартные (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 академических предметов

OpenAI

92.3%

🔬GPQA Diamond

Вопросы уровня PhD

OpenAI

77.3%

💻HumanEval

Генерация Python-кода

DeepSeek

92.6%

🔧SWE-Bench

Реальные задачи с GitHub

Claude Opus 4.1

Anthropic

74.5%

📚MMLU

57 академических предметов

🔬GPQA Diamond

Вопросы уровня PhD

💻HumanEval

Генерация Python-кода

🔧SWE-Bench

Реальные задачи с GitHub

Все Открытый кодAnthropic (4)OpenAI (4)Google (4)Yandex (3)Meta (3)

#	Модель↕	Провайдер↕	MMLU↕	GPQA↕	HumanEval↕	SWE-Bench↕	Оценка↓
1	Claude Opus 4.7	Anthropic	90.1	74.3	92.1	72.5	81.5
2	Moonshot v1 128K	Moonshot AI	83.0	-	77.0	-	79.7
3	GLM-4 Plus	Zhipu AI	83.0	-	76.0	-	79.1
4	ERNIE 4.0 Turbo	Baidu	82.0	-	76.0	-	78.7
5	Doubao Pro 32K	ByteDance	82.0	-	75.0	-	78.1
6	Hunyuan Pro	Tencent	81.0	-	74.0	-	77.1
7	o1	OpenAI	92.3	77.3	92.4	48.9	77.0
8	DeepSeek R1	DeepSeek	90.8	71.5	92.6	49.2	75.1
9	YandexGPT 4 Pro	Yandex	78.0	-	72.0	-	74.7
10	Claude Sonnet 4.6	Anthropic	88.3	65.0	92.0	57.0	74.4
11	MiniMax Text-01	MiniMax	88.0	56.0	84.0	-	73.9
12	o3-mini	OpenAI	86.9	67.4	91.7	49.3	72.9
13	ERNIE 4.5	Baidu	88.0	55.0	82.0	-	72.8
14	GigaChat Max	Sber	74.0	-	68.0	-	70.7
15	DeepSeek V3	DeepSeek	88.5	59.1	89.4	42.0	68.3
16	YandexGPT 3 Pro	Yandex	72.0	-	65.0	-	68.1
17	Qwen Max	Alibaba	89.0	59.0	87.0	37.0	66.5
18	GPT-4o	OpenAI	88.7	53.6	90.2	38.3	65.9
19	HyperCLOVA X	Naver	79.0	-	55.0	-	65.7
20	YandexGPT 4 Lite	Yandex	69.0	-	62.0	-	65.1
21	Llama 3.1 405B	Meta	88.6	50.7	89.0	34.1	63.7
22	GigaChat Pro	Sber	68.0	-	60.0	-	63.6
23	Mistral Large 2	Mistral AI	84.0	47.2	92.1	32.6	62.1
24	Claude Haiku 4.5	Anthropic	82.9	43.0	88.3	33.2	59.9
25	Qwen 2.5 72B	Alibaba/Qwen	86.1	49.0	86.5	23.7	59.5
26	Qwen 2.5 Coder 32B	Alibaba/Qwen	80.0	42.0	92.3	30.0	59.2
27	Gemini 1.5 Pro	Google	85.9	46.2	84.1	26.9	58.8
28	Gemini 2.0 Flash	Google	83.0	45.0	85.0	22.0	56.9
29	Llama 3.1 70B	Meta	83.6	46.7	80.5	21.8	56.3
30	GPT-4o mini	OpenAI	82.0	40.1	87.1	22.8	55.9
31	Gemini 1.5 Flash	Google	78.9	37.0	78.9	16.2	50.7
32	Gemma 2 27B	Google	75.2	38.4	74.0	14.7	48.7
33	Command R+	Cohere	80.4	30.1	74.2	16.8	47.9
34	Mistral NeMo	Mistral AI	68.0	32.0	73.4	15.0	45.3
35	Llama 3.2 3B	Meta	63.4	24.7	58.3	9.5	37.0
36	Claude Opus 4.1	Anthropic	-	-	-	74.5	-

Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Все оценки в % · выше - лучше→ Полная таблица моделей с ценами и скоростью