معايير نماذج AI
قياسي: 36 · HF: 22
حول المعايير
المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.
📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.
| # | النموذج↕ | المزود↕ | IFEval↕ | BBH↕ | MATH↕ | GPQA↕ | MuSR↕ | MMLU-Pro↕ | متوسط↑ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Meta | 24.0 | 18.4 | 3.9 | 2.1 | 19.9 | 17.8 | 14.3 | |
| 2 | Meta | 58.1 | 8.3 | 8.2 | 2.4 | 1.9 | 8.2 | 14.5 | |
| 3 | Meta | 50.6 | 29.2 | 15.5 | 9.5 | 8.5 | 30.9 | 24.0 | |
| 4 | Meta | 73.9 | 24.1 | 17.7 | 3.8 | 1.4 | 24.4 | 24.2 | |
| 5 | Meta | 73.9 | 24.1 | 17.7 | 3.8 | 1.4 | 24.4 | 24.2 | |
| 6 | Meta | 86.7 | 55.9 | 38.1 | 14.2 | 17.7 | 47.9 | 43.4 | |
| 7 | Meta | 86.7 | 55.9 | 38.1 | 14.2 | 17.7 | 47.9 | 43.4 | |
| 8 | Meta | 90.0 | 56.6 | 48.3 | 10.5 | 15.6 | 48.1 | 44.9 |
متوسط = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proجميع النقاط بنسبة % · الأعلى أفضل

