Benchmark Model AI

Standar: 36 · HF: 22

Tentang benchmark

Benchmark adalah uji terstandar yang menilai seberapa baik model AI dalam penalaran, pengetahuan, matematika, dan pemrograman. Gunakan untuk membandingkan model secara objektif dan memilih yang tepat untuk tugas Anda.

📊 Standar. Standar - empat benchmark publik paling banyak dikutip (MMLU, GPQA, HumanEval, SWE-Bench), diambil dari halaman pengumuman tiap model; Skor kami menggabungkannya menjadi satu angka.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - enam tugas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) yang diukur seragam untuk model open source; diurutkan berdasarkan Rata-rata.

📊 Standar (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 subjek akademik

OpenAI

92.3%

🔬GPQA Diamond

Pertanyaan sains level PhD

OpenAI

77.3%

💻HumanEval

Pembuatan kode Python

DeepSeek

92.6%

🔧SWE-Bench

Tugas rekayasa GitHub nyata

Claude Opus 4.1

Anthropic

74.5%

📚MMLU

57 subjek akademik

🔬GPQA Diamond

Pertanyaan sains level PhD

💻HumanEval

Pembuatan kode Python

🔧SWE-Bench

Tugas rekayasa GitHub nyata

Semua Open SourceAnthropic (4)OpenAI (4)Google (4)Yandex (3)Meta (3)

#	Model↕	Penyedia↕	MMLU↕	GPQA↕	HumanEval↕	SWE-Bench↕	Skor↑
1	Llama 3.2 3B	Meta	63.4	24.7	58.3	9.5	37.0
2	Mistral NeMo	Mistral AI	68.0	32.0	73.4	15.0	45.3
3	Command R+	Cohere	80.4	30.1	74.2	16.8	47.9
4	Gemma 2 27B	Google	75.2	38.4	74.0	14.7	48.7
5	Gemini 1.5 Flash	Google	78.9	37.0	78.9	16.2	50.7
6	GPT-4o mini	OpenAI	82.0	40.1	87.1	22.8	55.9
7	Llama 3.1 70B	Meta	83.6	46.7	80.5	21.8	56.3
8	Gemini 2.0 Flash	Google	83.0	45.0	85.0	22.0	56.9
9	Gemini 1.5 Pro	Google	85.9	46.2	84.1	26.9	58.8
10	Qwen 2.5 Coder 32B	Alibaba/Qwen	80.0	42.0	92.3	30.0	59.2
11	Qwen 2.5 72B	Alibaba/Qwen	86.1	49.0	86.5	23.7	59.5
12	Claude Haiku 4.5	Anthropic	82.9	43.0	88.3	33.2	59.9
13	Mistral Large 2	Mistral AI	84.0	47.2	92.1	32.6	62.1
14	GigaChat Pro	Sber	68.0	-	60.0	-	63.6
15	Llama 3.1 405B	Meta	88.6	50.7	89.0	34.1	63.7
16	YandexGPT 4 Lite	Yandex	69.0	-	62.0	-	65.1
17	HyperCLOVA X	Naver	79.0	-	55.0	-	65.7
18	GPT-4o	OpenAI	88.7	53.6	90.2	38.3	65.9
19	Qwen Max	Alibaba	89.0	59.0	87.0	37.0	66.5
20	YandexGPT 3 Pro	Yandex	72.0	-	65.0	-	68.1
21	DeepSeek V3	DeepSeek	88.5	59.1	89.4	42.0	68.3
22	GigaChat Max	Sber	74.0	-	68.0	-	70.7
23	ERNIE 4.5	Baidu	88.0	55.0	82.0	-	72.8
24	o3-mini	OpenAI	86.9	67.4	91.7	49.3	72.9
25	MiniMax Text-01	MiniMax	88.0	56.0	84.0	-	73.9
26	Claude Sonnet 4.6	Anthropic	88.3	65.0	92.0	57.0	74.4
27	YandexGPT 4 Pro	Yandex	78.0	-	72.0	-	74.7
28	DeepSeek R1	DeepSeek	90.8	71.5	92.6	49.2	75.1
29	o1	OpenAI	92.3	77.3	92.4	48.9	77.0
30	Hunyuan Pro	Tencent	81.0	-	74.0	-	77.1
31	Doubao Pro 32K	ByteDance	82.0	-	75.0	-	78.1
32	ERNIE 4.0 Turbo	Baidu	82.0	-	76.0	-	78.7
33	GLM-4 Plus	Zhipu AI	83.0	-	76.0	-	79.1
34	Moonshot v1 128K	Moonshot AI	83.0	-	77.0	-	79.7
35	Claude Opus 4.7	Anthropic	90.1	74.3	92.1	72.5	81.5
36	Claude Opus 4.1	Anthropic	-	-	-	74.5	-

Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Semua skor dalam % · lebih tinggi lebih baik→ Tabel model lengkap dengan harga & kecepatan