معايير نماذج AI

قياسي: 36 · HF: 22

حول المعايير

المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.

📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.

📊 قياسي (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

فتح في HF →

الكل مفتوح المصدرMeta (8)Alibaba/Qwen (5)Microsoft (3)

#	النموذج↕	المزود↕	IFEval↕	BBH↕	MATH↕	GPQA↕	MuSR↕	MMLU-Pro↕	متوسط↑
1	Phi 4 Mini InstructOSS	Microsoft	73.8	38.7	17.0	7.9	6.5	32.6	29.4
2	WizardLM-2 8x22BOSS	Microsoft	52.7	48.6	25.0	17.6	14.5	40.0	33.1
3	Phi 4OSS	Microsoft	68.8	55.3	50.0	11.5	10.1	48.6	40.7

متوسط = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proجميع النقاط بنسبة % · الأعلى أفضل