Бенчмарки AI Моделей

Стандартные: 36 · HF: 22

О бенчмарках

Бенчмарки - это стандартизированные тесты, оценивающие, насколько хорошо ИИ-модели справляются с рассуждением, знаниями, математикой и программированием. Используйте их, чтобы объективно сравнивать модели и выбирать подходящую под задачу.

📊 Стандартные. Стандартные - четыре самых цитируемых публичных бенчмарка (MMLU, GPQA, HumanEval, SWE-Bench), взятые со страниц анонсов моделей; наша Оценка сводит их в одно число.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - шесть задач (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro), измеренных единообразно для open-source моделей; ранжирование по Среднему.

📊 Стандартные (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 академических предметов

OpenAI

92.3%

🔬GPQA Diamond

Вопросы уровня PhD

OpenAI

77.3%

💻HumanEval

Генерация Python-кода

DeepSeek R1

DeepSeek

92.6%

🔧SWE-Bench

Реальные задачи с GitHub

Claude Opus 4.1

Anthropic

74.5%