TECHAGENT - MY AI LIFE

AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

📚MMLU
57 शैक्षणिक विषय
o1
OpenAI
92.3%
🔬GPQA Diamond
PhD स्तर के विज्ञान प्रश्न
o1
OpenAI
77.3%
💻HumanEval
Python कोड जनरेशन
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
वास्तविक GitHub कार्य
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 शैक्षणिक विषय

🔬GPQA Diamond

PhD स्तर के विज्ञान प्रश्न

💻HumanEval

Python कोड जनरेशन

🔧SWE-Bench

वास्तविक GitHub कार्य

#मॉडलप्रदाताMMLUGPQAHumanEvalSWE-Benchस्कोर
1AnthropicClaude Opus 4.7Anthropic
90.1
74.3
92.1
72.5
81.5
2AnthropicClaude Sonnet 4.6Anthropic
88.3
65.0
92.0
57.0
74.4
3AnthropicClaude Haiku 4.5Anthropic
82.9
43.0
88.3
33.2
59.9
4AnthropicClaude Opus 4.1Anthropic---
74.5
-
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%सभी स्कोर % में · अधिक बेहतर→ मूल्य और गति के साथ पूरी मॉडल तालिका