TECHAGENT - MY AI LIFE

معايير نماذج AI

قياسي: 36 · HF: 22

حول المعايير

المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.

📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

فتح في HF →
#النموذجالمزودIFEvalBBHMATHGPQAMuSRMMLU-Proمتوسط
1MicrosoftPhi 4OSSMicrosoft
68.8
55.3
50.0
11.5
10.1
48.6
40.7
2MicrosoftWizardLM-2 8x22BOSSMicrosoft
52.7
48.6
25.0
17.6
14.5
40.0
33.1
3MicrosoftPhi 4 Mini InstructOSSMicrosoft
73.8
38.7
17.0
7.9
6.5
32.6
29.4
متوسط = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proجميع النقاط بنسبة % · الأعلى أفضل