معايير نماذج AI
قياسي: 36 · HF: 22
حول المعايير
المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.
📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.
| # | النموذج↕ | المزود↕ | IFEval↕ | BBH↕ | MATH↕ | GPQA↕ | MuSR↕ | MMLU-Pro↕ | متوسط↑ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Microsoft | 73.8 | 38.7 | 17.0 | 7.9 | 6.5 | 32.6 | 29.4 | |
| 2 | Microsoft | 52.7 | 48.6 | 25.0 | 17.6 | 14.5 | 40.0 | 33.1 | |
| 3 | Microsoft | 68.8 | 55.3 | 50.0 | 11.5 | 10.1 | 48.6 | 40.7 |
متوسط = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proجميع النقاط بنسبة % · الأعلى أفضل

