AI मॉडल बेंचमार्क
मानक: 36 · HF: 22
बेंचमार्क के बारे में
बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।
📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।
📚MMLU
57 शैक्षणिक विषय
🔬GPQA Diamond
PhD स्तर के विज्ञान प्रश्न
💻HumanEval
Python कोड जनरेशन
🔧SWE-Bench
वास्तविक GitHub कार्य
| # | मॉडल↕ | प्रदाता↕ | MMLU↕ | GPQA↕ | HumanEval↕ | SWE-Bench↕ | स्कोर↓ |
|---|---|---|---|---|---|---|---|
| 1 | 75.2 | 38.4 | 74.0 | 14.7 | 48.7 |
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%सभी स्कोर % में · अधिक बेहतर→ मूल्य और गति के साथ पूरी मॉडल तालिका

