TECHAGENT - MY AI LIFE

AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

📚MMLU
57 शैक्षणिक विषय
o1
OpenAI
92.3%
🔬GPQA Diamond
PhD स्तर के विज्ञान प्रश्न
o1
OpenAI
77.3%
💻HumanEval
Python कोड जनरेशन
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
वास्तविक GitHub कार्य
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 शैक्षणिक विषय

🔬GPQA Diamond

PhD स्तर के विज्ञान प्रश्न

💻HumanEval

Python कोड जनरेशन

🔧SWE-Bench

वास्तविक GitHub कार्य

#मॉडलप्रदाताMMLUGPQAHumanEvalSWE-Benchस्कोर
1GoogleGemma 2 27BGoogle
75.2
38.4
74.0
14.7
48.7
2GoogleGemini 1.5 FlashGoogle
78.9
37.0
78.9
16.2
50.7
3GoogleGemini 2.0 FlashGoogle
83.0
45.0
85.0
22.0
56.9
4GoogleGemini 1.5 ProGoogle
85.9
46.2
84.1
26.9
58.8
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%सभी स्कोर % में · अधिक बेहतर→ मूल्य और गति के साथ पूरी मॉडल तालिका