TECHAGENT - MY AI LIFE

معايير نماذج AI

قياسي: 36 · HF: 22

حول المعايير

المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.

📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

فتح في HF →
#النموذجالمزودIFEvalBBHMATHGPQAMuSRMMLU-Proمتوسط
1MetaLlama 3 8B InstructOSSMeta
24.0
18.4
3.9
2.1
19.9
17.8
14.3
2MetaLlama 3.2 1B InstructOSSMeta
58.1
8.3
8.2
2.4
1.9
8.2
14.5
3MetaLlama 3.1 8B InstructOSSMeta
50.6
29.2
15.5
9.5
8.5
30.9
24.0
4MetaLlama 3.2 3B Instruct (free)OSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
5MetaLlama 3.2 3BOSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
6MetaLlama 3.1 70B InstructOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
7MetaLlama 3.1 70BOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
8MetaLlama 3.3 70B Instruct (free)OSSMeta
90.0
56.6
48.3
10.5
15.6
48.1
44.9
متوسط = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proجميع النقاط بنسبة % · الأعلى أفضل