Бенчмарки AI Моделей

Стандартные: 36 · HF: 22

О бенчмарках

Бенчмарки - это стандартизированные тесты, оценивающие, насколько хорошо ИИ-модели справляются с рассуждением, знаниями, математикой и программированием. Используйте их, чтобы объективно сравнивать модели и выбирать подходящую под задачу.

📊 Стандартные. Стандартные - четыре самых цитируемых публичных бенчмарка (MMLU, GPQA, HumanEval, SWE-Bench), взятые со страниц анонсов моделей; наша Оценка сводит их в одно число.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - шесть задач (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro), измеренных единообразно для open-source моделей; ранжирование по Среднему.

📊 Стандартные (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - опенсорс модели по стандартным тестам.

Открыть в HF →

Все Открытый кодMeta (8)Alibaba/Qwen (5)Microsoft (3)

#	Модель↕	Провайдер↕	IFEval↕	BBH↕	MATH↕	GPQA↕	MuSR↕	MMLU-Pro↕	Среднее↓
1	Qwen2.5 72B InstructOSS	Alibaba/Qwen	86.4	61.9	59.8	16.7	11.7	51.4	48.0
2	Qwen 2.5 72BOSS	Alibaba/Qwen	86.4	61.9	59.8	16.7	11.7	51.4	48.0
3	Llama 3.3 70B Instruct (free)OSS	Meta	90.0	56.6	48.3	10.5	15.6	48.1	44.9
4	Llama 3.1 70B InstructOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
5	Llama 3.1 70BOSS	Meta	86.7	55.9	38.1	14.2	17.7	47.9	43.4
6	Phi 4OSS	Microsoft	68.8	55.3	50.0	11.5	10.1	48.6	40.7
7	Qwen2.5 Coder 32B InstructOSS	Alibaba/Qwen	72.7	52.3	49.5	13.2	13.7	37.9	39.9
8	Qwen 2.5 Coder 32BOSS	Alibaba/Qwen	72.7	52.3	49.5	13.2	13.7	37.9	39.9
9	Hermes 3 70B InstructOSS	Nousresearch	76.6	53.8	21.0	14.9	23.4	41.4	38.5
10	Gemma 2 27BOSS	Google	79.8	49.3	23.9	16.7	9.1	38.4	36.2
11	Qwen2.5 7B InstructOSS	Alibaba/Qwen	75.8	34.9	50.0	5.5	8.4	36.5	35.2
12	WizardLM-2 8x22BOSS	Microsoft	52.7	48.6	25.0	17.6	14.5	40.0	33.1
13	Phi 4 Mini InstructOSS	Microsoft	73.8	38.7	17.0	7.9	6.5	32.6	29.4
14	R1 Distill Llama 70BOSS	DeepSeek	43.4	35.8	30.7	2.0	13.3	41.6	27.8
15	Llama 3.2 3B Instruct (free)OSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
16	Llama 3.2 3BOSS	Meta	73.9	24.1	17.7	3.8	1.4	24.4	24.2
17	Llama 3.1 8B InstructOSS	Meta	50.6	29.2	15.5	9.5	8.5	30.9	24.0
18	R1 Distill Qwen 32BOSS	DeepSeek	41.9	17.1	17.1	4.6	16.1	41.0	23.0
19	Hermes 2 Pro - Llama-3 8BOSS	Nousresearch	53.6	30.7	8.4	5.7	11.3	22.8	22.1
20	Llama 3.2 1B InstructOSS	Meta	58.1	8.3	8.2	2.4	1.9	8.2	14.5
21	Llama 3 8B InstructOSS	Meta	24.0	18.4	3.9	2.1	19.9	17.8	14.3
22	Mistral 7B Instruct v0.1OSS	Mistral AI	44.9	7.7	2.3	0.0	6.1	15.7	12.8

Среднее = IFEval · BBH · MATH · GPQA · MuSR · MMLU-ProВсе оценки в % · выше - лучше