معايير نماذج AI
قياسي: 36 · HF: 22
حول المعايير
المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.
📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.
📚MMLU
57 مادة أكاديمية
🔬GPQA Diamond
أسئلة علمية بمستوى دكتوراه
💻HumanEval
توليد كود Python
🔧SWE-Bench
مهام هندسية حقيقية من GitHub
| # | النموذج↕ | المزود↕ | MMLU↕ | GPQA↕ | HumanEval↕ | SWE-Bench↕ | النقاط↑ |
|---|---|---|---|---|---|---|---|
| 1 | 75.2 | 38.4 | 74.0 | 14.7 | 48.7 |
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%جميع النقاط بنسبة % · الأعلى أفضل→ جدول النماذج الكامل مع الأسعار والسرعة

