TECHAGENT - MY AI LIFE

AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

में खोलें HF →
#मॉडलप्रदाताIFEvalBBHMATHGPQAMuSRMMLU-Proऔसत
1MicrosoftPhi 4 Mini InstructOSSMicrosoft
73.8
38.7
17.0
7.9
6.5
32.6
29.4
2MicrosoftWizardLM-2 8x22BOSSMicrosoft
52.7
48.6
25.0
17.6
14.5
40.0
33.1
3MicrosoftPhi 4OSSMicrosoft
68.8
55.3
50.0
11.5
10.1
48.6
40.7
औसत = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proसभी स्कोर % में · अधिक बेहतर