TECHAGENT - MY AI LIFE

Comparativos de mercado do modelo de IA

Padrão: 36 · HF: 22

Sobre os benchmarks

Benchmarks são testes padronizados que avaliam o desempenho de modelos de IA em raciocínio, conhecimento, matemática e programação. Use-os para comparar modelos de forma objetiva e escolher o modelo certo para sua tarefa.

📊 Padrão. Padrão - os quatro benchmarks públicos mais citados (MMLU, GPQA, HumanEval, SWE-Bench), retirados da página de anúncio de cada modelo; nossa pontuação os combina em um único número.

🤗 Tabela de classificação HF Open LLM. HF Open LLM Leaderboard - seis tarefas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas uniformemente para modelos de código aberto; ordenada pela média.

📚MMLU
57 disciplinas acadêmicas
o1
OpenAI
92.3%
🔬GPQA Diamond
Questões científicas de nível de doutorado
o1
OpenAI
77.3%
💻HumanEval
Geração de código Python
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
Tarefas reais do GitHub
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 disciplinas acadêmicas

🔬GPQA Diamond

Questões científicas de nível de doutorado

💻HumanEval

Geração de código Python

🔧SWE-Bench

Tarefas reais do GitHub

#ModeloFornecedorMMLUGPQAHumanEvalSWE-BenchPontuação
1GoogleGemma 2 27BGoogle
75.2
38.4
74.0
14.7
48.7
2GoogleGemini 1.5 FlashGoogle
78.9
37.0
78.9
16.2
50.7
3GoogleGemini 2.0 FlashGoogle
83.0
45.0
85.0
22.0
56.9
4GoogleGemini 1.5 ProGoogle
85.9
46.2
84.1
26.9
58.8
Pontuação = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Todas as pontuações em % · quanto maior, melhor→ Tabela completa de modelos com preços e rapidez