Benchmarks de Modelos IA
Estándar: 36 · HF: 22
Sobre los benchmarks
Los benchmarks son pruebas estandarizadas que puntúan el rendimiento de los modelos de IA en razonamiento, conocimiento, matemáticas y programación. Úsalos para comparar modelos de forma objetiva y elegir el adecuado para tu tarea.
📊 Estándar. Estándar - los cuatro benchmarks públicos más citados (MMLU, GPQA, HumanEval, SWE-Bench), extraídos de la página de anuncio de cada modelo; nuestra Puntuación los combina en un solo número.
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - seis tareas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas de forma uniforme para modelos open source; ordenados por la Media.
HF Open LLM Leaderboard v2
IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - modelos open-source en tareas estandarizadas.
| # | Modelo↕ | Proveedor↕ | IFEval↕ | BBH↕ | MATH↕ | GPQA↕ | MuSR↕ | MMLU-Pro↕ | Promedio↓ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Alibaba/Qwen | 86.4 | 61.9 | 59.8 | 16.7 | 11.7 | 51.4 | 48.0 | |
| 2 | Alibaba/Qwen | 86.4 | 61.9 | 59.8 | 16.7 | 11.7 | 51.4 | 48.0 | |
| 3 | Alibaba/Qwen | 72.7 | 52.3 | 49.5 | 13.2 | 13.7 | 37.9 | 39.9 | |
| 4 | Alibaba/Qwen | 72.7 | 52.3 | 49.5 | 13.2 | 13.7 | 37.9 | 39.9 | |
| 5 | Alibaba/Qwen | 75.8 | 34.9 | 50.0 | 5.5 | 8.4 | 36.5 | 35.2 |

