معايير نماذج AI

قياسي: 36 · HF: 22

حول المعايير

المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.

📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.

📊 قياسي (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

فتح في HF →

الكل مفتوح المصدرMeta (8)Alibaba/Qwen (5)Microsoft (3)

#	النموذج↕	المزود↕	IFEval↕	BBH↕	MATH↕	GPQA↕	MuSR↕	MMLU-Pro↕	متوسط↑
1	Mistral 7B Instruct v0.1OSS	Mistral AI	44.9	7.7	2.3	0.0	6.1	15.7	12.8
2	Llama 3 8B InstructOSS	Meta	24.0	18.4	3.9	2.1	19.9	17.8	14.3
3	Llama 3.2 1B InstructOSS	Meta	58.1	8.3	8.2	2.4	1.9	8.2	14.5
4	Hermes 2 Pro - Llama-3 8BOSS	Nousresearch	53.6	30.7	8.4	5.7	11.3	22.8	22.1
5	R1 Distill Qwen 32BOSS	DeepSeek	41.9	17.1	17.1	4.6	16.1	41.0	23.0
6	Llama 3.1 8B InstructOSS	Meta	50.6	29.2	15.5	9.5	8.5	30.9	24.0
7	Llama 3.2 3B Instruct (free)OSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
8	Llama 3.2 3BOSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
9	R1 Distill Llama 70BOSS	DeepSeek	43.4	35.8	30.7	2.0	13.3	41.6	27.8
10	Phi 4 Mini InstructOSS	Microsoft	73.8	38.7	17.0	7.9	6.5	32.6	29.4
11	WizardLM-2 8x22BOSS	Microsoft	52.7	48.6	25.0	17.6	14.5	40.0	33.1
12	Qwen2.5 7B InstructOSS	Alibaba/Qwen	75.8	34.9	50.0	5.5	8.4	36.5	35.2
13	Gemma 2 27BOSS	Google	79.8	49.3	23.9	16.7	9.1	38.4	36.2
14	Hermes 3 70B InstructOSS	Nousresearch	76.6	53.8	21.0	14.9	23.4	41.4	38.5
15	Qwen2.5 Coder 32B InstructOSS	Alibaba/Qwen	72.7	52.3	49.5	13.2	13.7	37.9	39.9
16	Qwen 2.5 Coder 32BOSS	Alibaba/Qwen	72.7	52.3	49.5	13.2	13.7	37.9	39.9
17	Phi 4OSS	Microsoft	68.8	55.3	50.0	11.5	10.1	48.6	40.7
18	Llama 3.1 70B InstructOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
19	Llama 3.1 70BOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
20	Llama 3.3 70B Instruct (free)OSS	Meta	90.0	56.6	48.3	10.5	15.6	48.1	44.9
21	Qwen2.5 72B InstructOSS	Alibaba/Qwen	86.4	61.9	59.8	16.7	11.7	51.4	48.0
22	Qwen 2.5 72BOSS	Alibaba/Qwen	86.4	61.9	59.8	16.7	11.7	51.4	48.0

متوسط = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proجميع النقاط بنسبة % · الأعلى أفضل