TECHAGENT - MY AI LIFE

Benchmark Model AI

Standar: 36 · HF: 22

Tentang benchmark

Benchmark adalah uji terstandar yang menilai seberapa baik model AI dalam penalaran, pengetahuan, matematika, dan pemrograman. Gunakan untuk membandingkan model secara objektif dan memilih yang tepat untuk tugas Anda.

📊 Standar. Standar - empat benchmark publik paling banyak dikutip (MMLU, GPQA, HumanEval, SWE-Bench), diambil dari halaman pengumuman tiap model; Skor kami menggabungkannya menjadi satu angka.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - enam tugas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) yang diukur seragam untuk model open source; diurutkan berdasarkan Rata-rata.

📚MMLU
57 subjek akademik
o1
OpenAI
92.3%
🔬GPQA Diamond
Pertanyaan sains level PhD
o1
OpenAI
77.3%
💻HumanEval
Pembuatan kode Python
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
Tugas rekayasa GitHub nyata
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 subjek akademik

🔬GPQA Diamond

Pertanyaan sains level PhD

💻HumanEval

Pembuatan kode Python

🔧SWE-Bench

Tugas rekayasa GitHub nyata

Belum ada data
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Semua skor dalam % · lebih tinggi lebih baik→ Tabel model lengkap dengan harga & kecepatan