TECHAGENT - MY AI LIFE

Бенчмарки AI Моделей

Стандартные: 36 · HF: 22

О бенчмарках

Бенчмарки - это стандартизированные тесты, оценивающие, насколько хорошо ИИ-модели справляются с рассуждением, знаниями, математикой и программированием. Используйте их, чтобы объективно сравнивать модели и выбирать подходящую под задачу.

📊 Стандартные. Стандартные - четыре самых цитируемых публичных бенчмарка (MMLU, GPQA, HumanEval, SWE-Bench), взятые со страниц анонсов моделей; наша Оценка сводит их в одно число.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - шесть задач (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro), измеренных единообразно для open-source моделей; ранжирование по Среднему.

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - опенсорс модели по стандартным тестам.

Открыть в HF →
#МодельПровайдерIFEvalBBHMATHGPQAMuSRMMLU-ProСреднее
1MetaLlama 3.3 70B Instruct (free)OSSMeta
90.0
56.6
48.3
10.5
15.6
48.1
44.9
2MetaLlama 3.1 70B InstructOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
3MetaLlama 3.1 70BOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
4MetaLlama 3.2 3B Instruct (free)OSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
5MetaLlama 3.2 3BOSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
6MetaLlama 3.1 8B InstructOSSMeta
50.6
29.2
15.5
9.5
8.5
30.9
24.0
7MetaLlama 3.2 1B InstructOSSMeta
58.1
8.3
8.2
2.4
1.9
8.2
14.5
8MetaLlama 3 8B InstructOSSMeta
24.0
18.4
3.9
2.1
19.9
17.8
14.3
Среднее = IFEval · BBH · MATH · GPQA · MuSR · MMLU-ProВсе оценки в % · выше - лучше