AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

📊 मानक (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

में खोलें HF →

सभी ओपन सोर्सMeta (8)Alibaba/Qwen (5)Microsoft (3)

#	मॉडल↕	प्रदाता↕	IFEval↕	BBH↕	MATH↕	GPQA↕	MuSR↕	MMLU-Pro↕	औसत↑
1	Llama 3 8B InstructOSS	Meta	24.0	18.4	3.9	2.1	19.9	17.8	14.3
2	Llama 3.2 1B InstructOSS	Meta	58.1	8.3	8.2	2.4	1.9	8.2	14.5
3	Llama 3.1 8B InstructOSS	Meta	50.6	29.2	15.5	9.5	8.5	30.9	24.0
4	Llama 3.2 3B Instruct (free)OSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
5	Llama 3.2 3BOSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
6	Llama 3.1 70B InstructOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
7	Llama 3.1 70BOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
8	Llama 3.3 70B Instruct (free)OSS	Meta	90.0	56.6	48.3	10.5	15.6	48.1	44.9

औसत = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proसभी स्कोर % में · अधिक बेहतर