Benchmarks de Modelos IA

Estándar: 36 · HF: 22

Sobre los benchmarks

Los benchmarks son pruebas estandarizadas que puntúan el rendimiento de los modelos de IA en razonamiento, conocimiento, matemáticas y programación. Úsalos para comparar modelos de forma objetiva y elegir el adecuado para tu tarea.

📊 Estándar. Estándar - los cuatro benchmarks públicos más citados (MMLU, GPQA, HumanEval, SWE-Bench), extraídos de la página de anuncio de cada modelo; nuestra Puntuación los combina en un solo número.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - seis tareas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas de forma uniforme para modelos open source; ordenados por la Media.

📊 Estándar (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 materias académicas

OpenAI

92.3%

🔬GPQA Diamond

Preguntas científicas de nivel PhD

OpenAI

77.3%

💻HumanEval

Generación de código Python

DeepSeek

92.6%

🔧SWE-Bench

Tareas reales de GitHub

Claude Opus 4.1

Anthropic

74.5%

📚MMLU

57 materias académicas

🔬GPQA Diamond

Preguntas científicas de nivel PhD

💻HumanEval

Generación de código Python

🔧SWE-Bench

Tareas reales de GitHub

Todo Código abiertoAnthropic (4)OpenAI (4)Google (4)Yandex (3)Meta (3)

#	Modelo↕	Proveedor↕	MMLU↕	GPQA↕	HumanEval↕	SWE-Bench↕	Puntuación↑
1	Llama 3.2 3B	Meta	63.4	24.7	58.3	9.5	37.0
2	Mistral NeMo	Mistral AI	68.0	32.0	73.4	15.0	45.3
3	Command R+	Cohere	80.4	30.1	74.2	16.8	47.9
4	Gemma 2 27B	Google	75.2	38.4	74.0	14.7	48.7
5	Gemini 1.5 Flash	Google	78.9	37.0	78.9	16.2	50.7
6	GPT-4o mini	OpenAI	82.0	40.1	87.1	22.8	55.9
7	Llama 3.1 70B	Meta	83.6	46.7	80.5	21.8	56.3
8	Gemini 2.0 Flash	Google	83.0	45.0	85.0	22.0	56.9
9	Gemini 1.5 Pro	Google	85.9	46.2	84.1	26.9	58.8
10	Qwen 2.5 Coder 32B	Alibaba/Qwen	80.0	42.0	92.3	30.0	59.2
11	Qwen 2.5 72B	Alibaba/Qwen	86.1	49.0	86.5	23.7	59.5
12	Claude Haiku 4.5	Anthropic	82.9	43.0	88.3	33.2	59.9
13	Mistral Large 2	Mistral AI	84.0	47.2	92.1	32.6	62.1
14	GigaChat Pro	Sber	68.0	-	60.0	-	63.6
15	Llama 3.1 405B	Meta	88.6	50.7	89.0	34.1	63.7
16	YandexGPT 4 Lite	Yandex	69.0	-	62.0	-	65.1
17	HyperCLOVA X	Naver	79.0	-	55.0	-	65.7
18	GPT-4o	OpenAI	88.7	53.6	90.2	38.3	65.9
19	Qwen Max	Alibaba	89.0	59.0	87.0	37.0	66.5
20	YandexGPT 3 Pro	Yandex	72.0	-	65.0	-	68.1
21	DeepSeek V3	DeepSeek	88.5	59.1	89.4	42.0	68.3
22	GigaChat Max	Sber	74.0	-	68.0	-	70.7
23	ERNIE 4.5	Baidu	88.0	55.0	82.0	-	72.8
24	o3-mini	OpenAI	86.9	67.4	91.7	49.3	72.9
25	MiniMax Text-01	MiniMax	88.0	56.0	84.0	-	73.9
26	Claude Sonnet 4.6	Anthropic	88.3	65.0	92.0	57.0	74.4
27	YandexGPT 4 Pro	Yandex	78.0	-	72.0	-	74.7
28	DeepSeek R1	DeepSeek	90.8	71.5	92.6	49.2	75.1
29	o1	OpenAI	92.3	77.3	92.4	48.9	77.0
30	Hunyuan Pro	Tencent	81.0	-	74.0	-	77.1
31	Doubao Pro 32K	ByteDance	82.0	-	75.0	-	78.1
32	ERNIE 4.0 Turbo	Baidu	82.0	-	76.0	-	78.7
33	GLM-4 Plus	Zhipu AI	83.0	-	76.0	-	79.1
34	Moonshot v1 128K	Moonshot AI	83.0	-	77.0	-	79.7
35	Claude Opus 4.7	Anthropic	90.1	74.3	92.1	72.5	81.5
36	Claude Opus 4.1	Anthropic	-	-	-	74.5	-

Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Todas las puntuaciones en % · mayor es mejor→ Tabla completa de modelos con precios y velocidad