TECHAGENT - MY AI LIFE

Comparativos de mercado do modelo de IA

Padrão: 36 · HF: 22

Sobre os benchmarks

Benchmarks são testes padronizados que avaliam o desempenho de modelos de IA em raciocínio, conhecimento, matemática e programação. Use-os para comparar modelos de forma objetiva e escolher o modelo certo para sua tarefa.

📊 Padrão. Padrão - os quatro benchmarks públicos mais citados (MMLU, GPQA, HumanEval, SWE-Bench), retirados da página de anúncio de cada modelo; nossa pontuação os combina em um único número.

🤗 Tabela de classificação HF Open LLM. HF Open LLM Leaderboard - seis tarefas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas uniformemente para modelos de código aberto; ordenada pela média.

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro - modelos de código aberto em tarefas padronizadas.

Abrir em HF →
#ModeloFornecedorIFEvalBBHMATHGPQAMuSRMMLU-ProMédia
1MetaLlama 3.3 70B Instruct (free)OSSMeta
90.0
56.6
48.3
10.5
15.6
48.1
44.9
2MetaLlama 3.1 70B InstructOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
3MetaLlama 3.1 70BOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
4MetaLlama 3.2 3B Instruct (free)OSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
5MetaLlama 3.2 3BOSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
6MetaLlama 3.1 8B InstructOSSMeta
50.6
29.2
15.5
9.5
8.5
30.9
24.0
7MetaLlama 3.2 1B InstructOSSMeta
58.1
8.3
8.2
2.4
1.9
8.2
14.5
8MetaLlama 3 8B InstructOSSMeta
24.0
18.4
3.9
2.1
19.9
17.8
14.3
Média = IFEval · BBH · MATH · GPQA · MuSR · MMLU-ProTodas as pontuações em % · quanto maior, melhor