TECHAGENT - MY AI LIFE

معايير نماذج AI

قياسي: 36 · HF: 22

حول المعايير

المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.

📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.

📚MMLU
57 مادة أكاديمية
o1
OpenAI
92.3%
🔬GPQA Diamond
أسئلة علمية بمستوى دكتوراه
o1
OpenAI
77.3%
💻HumanEval
توليد كود Python
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
مهام هندسية حقيقية من GitHub
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 مادة أكاديمية

🔬GPQA Diamond

أسئلة علمية بمستوى دكتوراه

💻HumanEval

توليد كود Python

🔧SWE-Bench

مهام هندسية حقيقية من GitHub

#النموذجالمزودMMLUGPQAHumanEvalSWE-Benchالنقاط
1GoogleGemma 2 27BGoogle
75.2
38.4
74.0
14.7
48.7
2GoogleGemini 1.5 FlashGoogle
78.9
37.0
78.9
16.2
50.7
3GoogleGemini 2.0 FlashGoogle
83.0
45.0
85.0
22.0
56.9
4GoogleGemini 1.5 ProGoogle
85.9
46.2
84.1
26.9
58.8
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%جميع النقاط بنسبة % · الأعلى أفضل→ جدول النماذج الكامل مع الأسعار والسرعة