基准测试 · TECHAGENT

基准测试是标准化测试，用于评估 AI 模型在推理、知识、数学和编程方面的表现。借助它们可以客观比较模型，并为任务选择合适的模型。

📊 标准. 标准 - 四个最常被引用的公开基准（MMLU、GPQA、HumanEval、SWE-Bench），取自各模型的发布页；我们的评分将其汇总为一个数值。

🤗 HF开放LLM排行榜. HF Open LLM Leaderboard - 对开源模型统一测量的六项任务（IFEval、BBH、MATH、GPQA、MuSR、MMLU-Pro），按平均分排名。

#	模型↕	提供商↕	MMLU↕	GPQA↕	HumanEval↕	SWE-Bench↕	评分↑
1	Llama 3.2 3B	Meta	63.4	24.7	58.3	9.5	37.0
2	Mistral NeMo	Mistral AI	68.0	32.0	73.4	15.0	45.3
3	Command R+	Cohere	80.4	30.1	74.2	16.8	47.9
4	Gemma 2 27B	Google	75.2	38.4	74.0	14.7	48.7
5	Gemini 1.5 Flash	Google	78.9	37.0	78.9	16.2	50.7
6	GPT-4o mini	OpenAI	82.0	40.1	87.1	22.8	55.9
7	Llama 3.1 70B	Meta	83.6	46.7	80.5	21.8	56.3
8	Gemini 2.0 Flash	Google	83.0	45.0	85.0	22.0	56.9
9	Gemini 1.5 Pro	Google	85.9	46.2	84.1	26.9	58.8
10	Qwen 2.5 Coder 32B	Alibaba/Qwen	80.0	42.0	92.3	30.0	59.2
11	Qwen 2.5 72B	Alibaba/Qwen	86.1	49.0	86.5	23.7	59.5
12	Claude Haiku 4.5	Anthropic	82.9	43.0	88.3	33.2	59.9
13	Mistral Large 2	Mistral AI	84.0	47.2	92.1	32.6	62.1
14	GigaChat Pro	Sber	68.0	-	60.0	-	63.6
15	Llama 3.1 405B	Meta	88.6	50.7	89.0	34.1	63.7
16	YandexGPT 4 Lite	Yandex	69.0	-	62.0	-	65.1
17	HyperCLOVA X	Naver	79.0	-	55.0	-	65.7
18	GPT-4o	OpenAI	88.7	53.6	90.2	38.3	65.9
19	Qwen Max	Alibaba	89.0	59.0	87.0	37.0	66.5
20	YandexGPT 3 Pro	Yandex	72.0	-	65.0	-	68.1
21	DeepSeek V3	DeepSeek	88.5	59.1	89.4	42.0	68.3
22	GigaChat Max	Sber	74.0	-	68.0	-	70.7
23	ERNIE 4.5	Baidu	88.0	55.0	82.0	-	72.8
24	o3-mini	OpenAI	86.9	67.4	91.7	49.3	72.9
25	MiniMax Text-01	MiniMax	88.0	56.0	84.0	-	73.9
26	Claude Sonnet 4.6	Anthropic	88.3	65.0	92.0	57.0	74.4
27	YandexGPT 4 Pro	Yandex	78.0	-	72.0	-	74.7
28	DeepSeek R1	DeepSeek	90.8	71.5	92.6	49.2	75.1
29	o1	OpenAI	92.3	77.3	92.4	48.9	77.0
30	Hunyuan Pro	Tencent	81.0	-	74.0	-	77.1
31	Doubao Pro 32K	ByteDance	82.0	-	75.0	-	78.1
32	ERNIE 4.0 Turbo	Baidu	82.0	-	76.0	-	78.7
33	GLM-4 Plus	Zhipu AI	83.0	-	76.0	-	79.1
34	Moonshot v1 128K	Moonshot AI	83.0	-	77.0	-	79.7
35	Claude Opus 4.7	Anthropic	90.1	74.3	92.1	72.5	81.5
36	Claude Opus 4.1	Anthropic	-	-	-	74.5	-

AI模型基准测试