Benchmark Model AI

Standar: 36 · HF: 22

Tentang benchmark

Benchmark adalah uji terstandar yang menilai seberapa baik model AI dalam penalaran, pengetahuan, matematika, dan pemrograman. Gunakan untuk membandingkan model secara objektif dan memilih yang tepat untuk tugas Anda.

📊 Standar. Standar - empat benchmark publik paling banyak dikutip (MMLU, GPQA, HumanEval, SWE-Bench), diambil dari halaman pengumuman tiap model; Skor kami menggabungkannya menjadi satu angka.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - enam tugas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) yang diukur seragam untuk model open source; diurutkan berdasarkan Rata-rata.

📊 Standar (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 subjek akademik

OpenAI

92.3%

🔬GPQA Diamond

Pertanyaan sains level PhD

OpenAI

77.3%

💻HumanEval

Pembuatan kode Python

DeepSeek R1

DeepSeek

92.6%

🔧SWE-Bench

Tugas rekayasa GitHub nyata

Claude Opus 4.1

Anthropic

74.5%