TECHAGENT - MY AI LIFE

Benchmarks de Modelos IA

Estándar: 36 · HF: 22

Sobre los benchmarks

Los benchmarks son pruebas estandarizadas que puntúan el rendimiento de los modelos de IA en razonamiento, conocimiento, matemáticas y programación. Úsalos para comparar modelos de forma objetiva y elegir el adecuado para tu tarea.

📊 Estándar. Estándar - los cuatro benchmarks públicos más citados (MMLU, GPQA, HumanEval, SWE-Bench), extraídos de la página de anuncio de cada modelo; nuestra Puntuación los combina en un solo número.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - seis tareas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas de forma uniforme para modelos open source; ordenados por la Media.

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - modelos open-source en tareas estandarizadas.

Abrir en HF →
#ModeloProveedorIFEvalBBHMATHGPQAMuSRMMLU-ProPromedio
1MetaLlama 3 8B InstructOSSMeta
24.0
18.4
3.9
2.1
19.9
17.8
14.3
2MetaLlama 3.2 1B InstructOSSMeta
58.1
8.3
8.2
2.4
1.9
8.2
14.5
3MetaLlama 3.1 8B InstructOSSMeta
50.6
29.2
15.5
9.5
8.5
30.9
24.0
4MetaLlama 3.2 3B Instruct (free)OSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
5MetaLlama 3.2 3BOSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
6MetaLlama 3.1 70B InstructOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
7MetaLlama 3.1 70BOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
8MetaLlama 3.3 70B Instruct (free)OSSMeta
90.0
56.6
48.3
10.5
15.6
48.1
44.9
Promedio = IFEval · BBH · MATH · GPQA · MuSR · MMLU-ProTodas las puntuaciones en % · mayor es mejor