Benchmarks de Modelos IA
Estándar: 36 · HF: 22
Sobre los benchmarks
Los benchmarks son pruebas estandarizadas que puntúan el rendimiento de los modelos de IA en razonamiento, conocimiento, matemáticas y programación. Úsalos para comparar modelos de forma objetiva y elegir el adecuado para tu tarea.
📊 Estándar. Estándar - los cuatro benchmarks públicos más citados (MMLU, GPQA, HumanEval, SWE-Bench), extraídos de la página de anuncio de cada modelo; nuestra Puntuación los combina en un solo número.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - seis tareas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas de forma uniforme para modelos open source; ordenados por la Media.
HF Open LLM Leaderboard v2
IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - modelos open-source en tareas estandarizadas.
| # | Modelo↕ | Proveedor↕ | IFEval↕ | BBH↕ | MATH↕ | GPQA↕ | MuSR↕ | MMLU-Pro↕ | Promedio↓ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Microsoft | 68.8 | 55.3 | 50.0 | 11.5 | 10.1 | 48.6 | 40.7 | |
| 2 | Microsoft | 52.7 | 48.6 | 25.0 | 17.6 | 14.5 | 40.0 | 33.1 | |
| 3 | Microsoft | 73.8 | 38.7 | 17.0 | 7.9 | 6.5 | 32.6 | 29.4 |

