TECHAGENT - MY AI LIFE

AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

📚MMLU
57 शैक्षणिक विषय
o1
OpenAI
92.3%
🔬GPQA Diamond
PhD स्तर के विज्ञान प्रश्न
o1
OpenAI
77.3%
💻HumanEval
Python कोड जनरेशन
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
वास्तविक GitHub कार्य
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 शैक्षणिक विषय

🔬GPQA Diamond

PhD स्तर के विज्ञान प्रश्न

💻HumanEval

Python कोड जनरेशन

🔧SWE-Bench

वास्तविक GitHub कार्य

#मॉडलप्रदाताMMLUGPQAHumanEvalSWE-Benchस्कोर
1AnthropicClaude Haiku 4.5Anthropic
82.9
43.0
88.3
33.2
59.9
2AnthropicClaude Sonnet 4.6Anthropic
88.3
65.0
92.0
57.0
74.4
3AnthropicClaude Opus 4.7Anthropic
90.1
74.3
92.1
72.5
81.5
4AnthropicClaude Opus 4.1Anthropic---
74.5
-
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%सभी स्कोर % में · अधिक बेहतर→ मूल्य और गति के साथ पूरी मॉडल तालिका