Benchmark Model AI

Standar: 36 · HF: 22

Tentang benchmark

Benchmark adalah uji terstandar yang menilai seberapa baik model AI dalam penalaran, pengetahuan, matematika, dan pemrograman. Gunakan untuk membandingkan model secara objektif dan memilih yang tepat untuk tugas Anda.

📊 Standar. Standar - empat benchmark publik paling banyak dikutip (MMLU, GPQA, HumanEval, SWE-Bench), diambil dari halaman pengumuman tiap model; Skor kami menggabungkannya menjadi satu angka.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - enam tugas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) yang diukur seragam untuk model open source; diurutkan berdasarkan Rata-rata.

📊 Standar (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

Buka di HF →

Semua Open SourceMeta (8)Alibaba/Qwen (5)Microsoft (3)

#	Model↕	Penyedia↕	IFEval↕	BBH↕	MATH↕	GPQA↕	MuSR↕	MMLU-Pro↕	Rata-rata↑
1	Llama 3 8B InstructOSS	Meta	24.0	18.4	3.9	2.1	19.9	17.8	14.3
2	Llama 3.2 1B InstructOSS	Meta	58.1	8.3	8.2	2.4	1.9	8.2	14.5
3	Llama 3.1 8B InstructOSS	Meta	50.6	29.2	15.5	9.5	8.5	30.9	24.0
4	Llama 3.2 3B Instruct (free)OSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
5	Llama 3.2 3BOSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
6	Llama 3.1 70B InstructOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
7	Llama 3.1 70BOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
8	Llama 3.3 70B Instruct (free)OSS	Meta	90.0	56.6	48.3	10.5	15.6	48.1	44.9

Rata-rata = IFEval · BBH · MATH · GPQA · MuSR · MMLU-ProSemua skor dalam % · lebih tinggi lebih baik