معايير نماذج AI
قياسي: 36 · HF: 22
حول المعايير
المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.
📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.
📚MMLU
57 مادة أكاديمية
🔬GPQA Diamond
أسئلة علمية بمستوى دكتوراه
💻HumanEval
توليد كود Python
🔧SWE-Bench
مهام هندسية حقيقية من GitHub
| # | النموذج↕ | المزود↕ | MMLU↕ | GPQA↕ | HumanEval↕ | SWE-Bench↕ | النقاط↓ |
|---|---|---|---|---|---|---|---|
| 1 | Yandex | 78.0 | - | 72.0 | - | 74.7 | |
| 2 | Yandex | 72.0 | - | 65.0 | - | 68.1 | |
| 3 | Yandex | 69.0 | - | 62.0 | - | 65.1 |
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%جميع النقاط بنسبة % · الأعلى أفضل→ جدول النماذج الكامل مع الأسعار والسرعة

