Benchmark Model AI
Standar: 36 · HF: 22
Tentang benchmark
Benchmark adalah uji terstandar yang menilai seberapa baik model AI dalam penalaran, pengetahuan, matematika, dan pemrograman. Gunakan untuk membandingkan model secara objektif dan memilih yang tepat untuk tugas Anda.
📊 Standar. Standar - empat benchmark publik paling banyak dikutip (MMLU, GPQA, HumanEval, SWE-Bench), diambil dari halaman pengumuman tiap model; Skor kami menggabungkannya menjadi satu angka.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - enam tugas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) yang diukur seragam untuk model open source; diurutkan berdasarkan Rata-rata.
📚MMLU
57 subjek akademik
🔬GPQA Diamond
Pertanyaan sains level PhD
💻HumanEval
Pembuatan kode Python
🔧SWE-Bench
Tugas rekayasa GitHub nyata
| # | Model↕ | Penyedia↕ | MMLU↕ | GPQA↕ | HumanEval↕ | SWE-Bench↕ | Skor↓ |
|---|---|---|---|---|---|---|---|
| 1 | Anthropic | 90.1 | 74.3 | 92.1 | 72.5 | 81.5 | |
| 2 | Anthropic | 88.3 | 65.0 | 92.0 | 57.0 | 74.4 | |
| 3 | Anthropic | 82.9 | 43.0 | 88.3 | 33.2 | 59.9 | |
| 4 | Anthropic | - | - | - | 74.5 | - |
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Semua skor dalam % · lebih tinggi lebih baik→ Tabel model lengkap dengan harga & kecepatan

