TECHAGENT - MY AI LIFE

Бенчмарки AI Моделей

Стандартные: 36 · HF: 22

О бенчмарках

Бенчмарки - это стандартизированные тесты, оценивающие, насколько хорошо ИИ-модели справляются с рассуждением, знаниями, математикой и программированием. Используйте их, чтобы объективно сравнивать модели и выбирать подходящую под задачу.

📊 Стандартные. Стандартные - четыре самых цитируемых публичных бенчмарка (MMLU, GPQA, HumanEval, SWE-Bench), взятые со страниц анонсов моделей; наша Оценка сводит их в одно число.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - шесть задач (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro), измеренных единообразно для open-source моделей; ранжирование по Среднему.

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - опенсорс модели по стандартным тестам.

Открыть в HF →
#МодельПровайдерIFEvalBBHMATHGPQAMuSRMMLU-ProСреднее
1MicrosoftPhi 4 Mini InstructOSSMicrosoft
73.8
38.7
17.0
7.9
6.5
32.6
29.4
2MicrosoftWizardLM-2 8x22BOSSMicrosoft
52.7
48.6
25.0
17.6
14.5
40.0
33.1
3MicrosoftPhi 4OSSMicrosoft
68.8
55.3
50.0
11.5
10.1
48.6
40.7
Среднее = IFEval · BBH · MATH · GPQA · MuSR · MMLU-ProВсе оценки в % · выше - лучше