معايير نماذج AI
قياسي: 36 · HF: 22
حول المعايير
المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.
📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.
📚MMLU
57 مادة أكاديمية
🔬GPQA Diamond
أسئلة علمية بمستوى دكتوراه
💻HumanEval
توليد كود Python
🔧SWE-Bench
مهام هندسية حقيقية من GitHub
| # | النموذج↕ | المزود↕ | MMLU↕ | GPQA↕ | HumanEval↕ | SWE-Bench↕ | النقاط↑ |
|---|---|---|---|---|---|---|---|
| 1 | OpenAI | 82.0 | 40.1 | 87.1 | 22.8 | 55.9 | |
| 2 | OpenAI | 88.7 | 53.6 | 90.2 | 38.3 | 65.9 | |
| 3 | OpenAI | 86.9 | 67.4 | 91.7 | 49.3 | 72.9 | |
| 4 | OpenAI | 92.3 | 77.3 | 92.4 | 48.9 | 77.0 |
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%جميع النقاط بنسبة % · الأعلى أفضل→ جدول النماذج الكامل مع الأسعار والسرعة

