TECHAGENT - MY AI LIFE

Comparativos de mercado do modelo de IA

Padrão: 36 · HF: 22

Sobre os benchmarks

Benchmarks são testes padronizados que avaliam o desempenho de modelos de IA em raciocínio, conhecimento, matemática e programação. Use-os para comparar modelos de forma objetiva e escolher o modelo certo para sua tarefa.

📊 Padrão. Padrão - os quatro benchmarks públicos mais citados (MMLU, GPQA, HumanEval, SWE-Bench), retirados da página de anúncio de cada modelo; nossa pontuação os combina em um único número.

🤗 Tabela de classificação HF Open LLM. HF Open LLM Leaderboard - seis tarefas (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro) medidas uniformemente para modelos de código aberto; ordenada pela média.

📚MMLU
57 disciplinas acadêmicas
o1
OpenAI
92.3%
🔬GPQA Diamond
Questões científicas de nível de doutorado
o1
OpenAI
77.3%
💻HumanEval
Geração de código Python
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
Tarefas reais do GitHub
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

57 disciplinas acadêmicas

🔬GPQA Diamond

Questões científicas de nível de doutorado

💻HumanEval

Geração de código Python

🔧SWE-Bench

Tarefas reais do GitHub

#ModeloFornecedorMMLUGPQAHumanEvalSWE-BenchPontuação
1AnthropicClaude Opus 4.7Anthropic
90.1
74.3
92.1
72.5
81.5
2Moonshot AIMoonshot v1 128KMoonshot AI
83.0
-
77.0
-79.7
3Zhipu AIGLM-4 PlusZhipu AI
83.0
-
76.0
-79.1
4BaiduERNIE 4.0 TurboBaidu
82.0
-
76.0
-78.7
5ByteDanceDoubao Pro 32KByteDance
82.0
-
75.0
-78.1
6TencentHunyuan ProTencent
81.0
-
74.0
-77.1
7OpenAIo1OpenAI
92.3
77.3
92.4
48.9
77.0
8DeepSeekDeepSeek R1DeepSeek
90.8
71.5
92.6
49.2
75.1
9YandexYandexGPT 4 ProYandex
78.0
-
72.0
-74.7
10AnthropicClaude Sonnet 4.6Anthropic
88.3
65.0
92.0
57.0
74.4
11MiniMax Text-01MiniMax
88.0
56.0
84.0
-73.9
12OpenAIo3-miniOpenAI
86.9
67.4
91.7
49.3
72.9
13BaiduERNIE 4.5Baidu
88.0
55.0
82.0
-72.8
14SberGigaChat MaxSber
74.0
-
68.0
-70.7
15DeepSeekDeepSeek V3DeepSeek
88.5
59.1
89.4
42.0
68.3
16YandexYandexGPT 3 ProYandex
72.0
-
65.0
-68.1
17AlibabaQwen MaxAlibaba
89.0
59.0
87.0
37.0
66.5
18OpenAIGPT-4oOpenAI
88.7
53.6
90.2
38.3
65.9
19HyperCLOVA XNaver
79.0
-
55.0
-65.7
20YandexYandexGPT 4 LiteYandex
69.0
-
62.0
-65.1
21MetaLlama 3.1 405BMeta
88.6
50.7
89.0
34.1
63.7
22SberGigaChat ProSber
68.0
-
60.0
-63.6
23Mistral AIMistral Large 2Mistral AI
84.0
47.2
92.1
32.6
62.1
24AnthropicClaude Haiku 4.5Anthropic
82.9
43.0
88.3
33.2
59.9
25Alibaba/QwenQwen 2.5 72BAlibaba/Qwen
86.1
49.0
86.5
23.7
59.5
26Alibaba/QwenQwen 2.5 Coder 32BAlibaba/Qwen
80.0
42.0
92.3
30.0
59.2
27GoogleGemini 1.5 ProGoogle
85.9
46.2
84.1
26.9
58.8
28GoogleGemini 2.0 FlashGoogle
83.0
45.0
85.0
22.0
56.9
29MetaLlama 3.1 70BMeta
83.6
46.7
80.5
21.8
56.3
30OpenAIGPT-4o miniOpenAI
82.0
40.1
87.1
22.8
55.9
31GoogleGemini 1.5 FlashGoogle
78.9
37.0
78.9
16.2
50.7
32GoogleGemma 2 27BGoogle
75.2
38.4
74.0
14.7
48.7
33CohereCommand R+Cohere
80.4
30.1
74.2
16.8
47.9
34Mistral AIMistral NeMoMistral AI
68.0
32.0
73.4
15.0
45.3
35MetaLlama 3.2 3BMeta
63.4
24.7
58.3
9.5
37.0
36AnthropicClaude Opus 4.1Anthropic---
74.5
-
Pontuação = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%Todas as pontuações em % · quanto maior, melhor→ Tabela completa de modelos com preços e rapidez