معايير نماذج AI
قياسي: 36 · HF: 22
حول المعايير
المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.
📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.
📚MMLU
57 مادة أكاديمية
🔬GPQA Diamond
أسئلة علمية بمستوى دكتوراه
💻HumanEval
توليد كود Python
🔧SWE-Bench
مهام هندسية حقيقية من GitHub
| # | النموذج↕ | المزود↕ | MMLU↕ | GPQA↕ | HumanEval↕ | SWE-Bench↕ | النقاط↑ |
|---|---|---|---|---|---|---|---|
| 1 | 75.2 | 38.4 | 74.0 | 14.7 | 48.7 | ||
| 2 | 78.9 | 37.0 | 78.9 | 16.2 | 50.7 | ||
| 3 | 83.0 | 45.0 | 85.0 | 22.0 | 56.9 | ||
| 4 | 85.9 | 46.2 | 84.1 | 26.9 | 58.8 |
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%جميع النقاط بنسبة % · الأعلى أفضل→ جدول النماذج الكامل مع الأسعار والسرعة

