AI मॉडल बेंचमार्क

मानक: 36 · HF: 22

बेंचमार्क के बारे में

बेंचमार्क मानकीकृत परीक्षण हैं जो आंकते हैं कि AI मॉडल तर्क, ज्ञान, गणित और कोडिंग में कितना अच्छा प्रदर्शन करते हैं। इनसे मॉडलों की निष्पक्ष तुलना करें और अपने काम के लिए सही मॉडल चुनें।

📊 मानक. स्टैंडर्ड - चार सबसे अधिक उद्धृत सार्वजनिक बेंचमार्क (MMLU, GPQA, HumanEval, SWE-Bench), जो प्रत्येक मॉडल के घोषणा पृष्ठ से लिए गए हैं; हमारा स्कोर इन्हें एक संख्या में जोड़ता है।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ओपन-सोर्स मॉडलों के लिए समान रूप से मापे गए छह कार्य (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); औसत के आधार पर रैंकिंग।

📊 मानक (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 शैक्षणिक विषय

OpenAI

92.3%

🔬GPQA Diamond

PhD स्तर के विज्ञान प्रश्न

OpenAI

77.3%

💻HumanEval

Python कोड जनरेशन

DeepSeek R1

DeepSeek

92.6%

🔧SWE-Bench

वास्तविक GitHub कार्य

Claude Opus 4.1

Anthropic

74.5%