TECHAGENT - MY AI LIFE

AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

में खोलें HF →
#मॉडलप्रदाताIFEvalBBHMATHGPQAMuSRMMLU-Proऔसत
1MetaLlama 3.3 70B Instruct (free)OSSMeta
90.0
56.6
48.3
10.5
15.6
48.1
44.9
2MetaLlama 3.1 70B InstructOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
3MetaLlama 3.1 70BOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
4MetaLlama 3.2 3B Instruct (free)OSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
5MetaLlama 3.2 3BOSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
6MetaLlama 3.1 8B InstructOSSMeta
50.6
29.2
15.5
9.5
8.5
30.9
24.0
7MetaLlama 3.2 1B InstructOSSMeta
58.1
8.3
8.2
2.4
1.9
8.2
14.5
8MetaLlama 3 8B InstructOSSMeta
24.0
18.4
3.9
2.1
19.9
17.8
14.3
औसत = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proसभी स्कोर % में · अधिक बेहतर