LMARENA LEADERBOARD
🏆 LMArena 全球大模型 Top 50
基于 arena.ai 真实人类盲测对战数据的全球大模型排行榜。每月 1 日自动更新一次。
📅 最新快照:2026-06-05 · 共观察 363 个模型 · 展示 Top 50
📊 Top 50 厂商分布
Anthropic ×11 OpenAI ×9 Google ×7 xAI ×6 Alibaba ×3 Baidu ×3 Z.ai ×2 Xiaomi ×2 Moonshot ×2 DeepSeek ×2 Meta ×1 Bytedance ×1 MiniMax ×1
| 排名 | 模型 | 厂商 | 优势赛道 | 月度变化 |
|---|---|---|---|---|
| 🥇 | claude-opus-4-6-thinking | Anthropic | 🏆 创意写作 #1 🏆 多轮上下文 #1 🏆 指令遵循 #1 | ↑ 1 |
| 🥈 | claude-opus-4-7-thinking | Anthropic | 🏆 多轮对话 #1 🏆 创意写作 #2 🏆 多轮上下文 #2 | ↓ 1 |
| 🥉 | claude-opus-4-6 | Anthropic | 🏆 专家级 #2 🏆 英文难题 #2 🏆 长查询 #2 | — |
| #4 | claude-opus-4-7 | Anthropic | 🏆 多轮对话 #2 🏆 专家级 #3 🏆 代码 #3 | ↑ 1 |
| #5 | muse-spark | Meta | 🏆 英文难题 #5 🏆 多轮对话 #6 🏆 难题 #6 | ↑ 1 |
| #6 | gemini-3.1-pro-preview | 🏆 创意写作 #5 🏆 多轮上下文 #5 🏆 多轮对话 #5 | ↓ 2 | |
| #7 | gemini-3-pro | 🏆 创意写作 #3 🏆 多轮上下文 #7 🏆 多轮对话 #7 | ↑ 1 | |
| #8 | gpt-5.5-high | OpenAI | 🏆 专家级 #4 🏆 指令遵循 #7 🏆 数学 #9 | ↓ 1 |
| #9 | gpt-5.4-high | OpenAI | 🏆 数学 #3 🏆 专家级 #5 🏆 指令遵循 #8 | ↑ 2 |
| #10 | gemini-3.5-flash | 🏆 数学 #1 🏆 专家级 #8 🏆 创意写作 #9 | 🆕 新增 | |
| #11 | gpt-5.2-chat-latest-20260210 | OpenAI | 🏆 多轮对话 #9 🏆 医疗行业 #8 🏆 商业金融行业 #8 | ↑ 1 |
| #12 | glm-5.1 | Z.ai | 🏆 多轮上下文 #6 🏆 代码 #6 🏆 英文难题 #7 | ↑ 6 |
| #13 | gpt-5.5 | OpenAI | 🏆 数学 #10 🏆 中文 #4 🏆 商业金融行业 #7 | — |
| #14 | grok-4.20-beta1 | xAI | 🏆 医疗行业 #10 🏆 德文 #10 🏆 西文 #10 | ↓ 5 |
| #15 | qwen3.7-max-preview | Alibaba | 🏆 数学 #6 🏆 长查询 #8 🏆 多轮上下文 #9 | 🆕 新增 |
| #16 | gemini-3-flash | 🏆 娱乐媒体行业 #10 🏆 日文 #6 🏆 波兰文 #7 | — | |
| #17 | grok-4.20-beta-0309-reasoning | xAI | 🏆 法文 #10 多轮对话 #15 数学 #21 | ↓ 7 |
| #18 | claude-opus-4-5-20251101-thinking-32k | Anthropic | 🏆 指令遵循 #5 🏆 代码 #5 🏆 创意写作 #7 | ↓ 1 |
| #19 | grok-4.20-multi-agent-beta-0309 | xAI | 代码 #17 多轮对话 #22 创意写作 #23 | ↓ 5 |
| #20 | gpt-5.5-instant | OpenAI | 🏆 西文 #5 🏆 韩文 #8 创意写作 #15 | 🆕 新增 |
| #21 | claude-sonnet-4-6 | Anthropic | 🏆 长查询 #6 🏆 英文难题 #8 🏆 难题 #8 | ↑ 2 |
| #22 | ernie-5.1 | Baidu | 🏆 数学行业 #10 数学 #15 代码 #18 | 🆕 新增 |
| #23 | claude-opus-4-5-20251101 | Anthropic | 🏆 创意写作 #8 🏆 指令遵循 #10 🏆 长查询 #10 | ↓ 3 |
| #24 | gpt-5.4 | OpenAI | 指令遵循 #19 长查询 #20 专家级 #21 | ↓ 3 |
| #25 | grok-4.1-thinking | xAI | 🏆 医疗行业 #9 难题 #35 多轮上下文 #40 | ↓ 6 |
| #26 | qwen3.5-max-preview | Alibaba | 🏆 日文 #2 指令遵循 #15 多轮上下文 #17 | ↓ 1 |
| #27 | mimo-v2.5-pro | Xiaomi | 🏆 专家级 #9 🏆 英文难题 #10 🏆 数学行业 #3 | ↓ 5 |
| #28 | kimi-k2.6 | Moonshot | 🏆 中文 #6 数学 #14 专家级 #18 | — |
| #29 | gemini-3-flash (thinking-minimal) | 创意写作 #20 多轮对话 #24 多轮上下文 #32 | ↓ 3 | |
| #30 | qwen3.6-max-preview | Alibaba | 数学 #13 专家级 #19 长查询 #26 | ↑ 1 |
| #31 | grok-4.1 | xAI | 多轮上下文 #37 创意写作 #39 难题 #41 | ↓ 2 |
| #32 | deepseek-v4-pro-thinking | DeepSeek | 🏆 法律政府行业 #10 数学 #19 长查询 #25 | ↓ 5 |
| #33 | glm-5 | Z.ai | 创意写作 #17 专家级 #28 长查询 #31 | ↓ 1 |
| #34 | deepseek-v4-pro | DeepSeek | 创意写作 #30 指令遵循 #30 长查询 #30 | ↓ 10 |
| #35 | dola-seed-2.0-pro | Bytedance | 代码 #26 难题 #31 专家级 #37 | ↓ 5 |
| #36 | claude-sonnet-4-5-20250929-thinking-32k | Anthropic | 代码 #14 长查询 #15 英文难题 #16 | — |
| #37 | claude-sonnet-4-5-20250929 | Anthropic | 创意写作 #14 长查询 #17 多轮上下文 #20 | — |
| #38 | gpt-5.1-high | OpenAI | 指令遵循 #33 数学 #34 专家级 #36 | ↓ 3 |
| #39 | gemma-4-31b | 数学 #24 指令遵循 #29 英文难题 #33 | ↓ 1 | |
| #40 | gpt-5.4-mini-high | OpenAI | 多轮对话 #29 专家级 #31 代码 #40 | ↓ 7 |
| #41 | kimi-k2.5-thinking | Moonshot | 数学 #20 专家级 #33 代码 #36 | ↓ 1 |
| #42 | mimo-v2-pro | Xiaomi | 英文难题 #21 专家级 #23 长查询 #33 | — |
| #43 | ernie-5.0-preview-1203 | Baidu | 🏆 西文 #8 🏆 波兰文 #10 创意写作 #49 | ↓ 2 |
| #44 | claude-opus-4-1-20250805-thinking-16k | Anthropic | 长查询 #16 代码 #21 指令遵循 #22 | ↓ 1 |
| #45 | minimax-m3 | MiniMax | 数学 #12 专家级 #26 代码 #27 | 🆕 新增 |
| #46 | gpt-5.3-chat-latest | OpenAI | 多轮对话 #38 多轮上下文 #44 代码 #44 | ↓ 2 |
| #47 | ernie-5.0-0110 | Baidu | 创意写作 #45 难题 #49 代码 #50 | ↓ 8 |
| #48 | claude-opus-4-1-20250805 | Anthropic | 多轮上下文 #24 指令遵循 #27 长查询 #27 | — |
| #49 | gemini-2.5-pro | 创意写作 #27 长查询 #42 指令遵循 #43 | ↓ 4 | |
| #50 | grok-4.3 | xAI | 创意写作 #40 多轮对话 #44 多轮上下文 #51 | ↓ 16 |
🥇 Anthropic
↑1
claude-opus-4-6-thinking
🏆 创意写作 #1 🏆 多轮上下文 #1 🏆 指令遵循 #1
🥈 Anthropic
↓1
claude-opus-4-7-thinking
🏆 多轮对话 #1 🏆 创意写作 #2 🏆 多轮上下文 #2
🥉 Anthropic
claude-opus-4-6
🏆 专家级 #2 🏆 英文难题 #2 🏆 长查询 #2
#4 Anthropic
↑1
claude-opus-4-7
🏆 多轮对话 #2 🏆 专家级 #3 🏆 代码 #3
#5 Meta
↑1
muse-spark
🏆 英文难题 #5 🏆 多轮对话 #6 🏆 难题 #6
#6 Google
↓2
gemini-3.1-pro-preview
🏆 创意写作 #5 🏆 多轮上下文 #5 🏆 多轮对话 #5
#7 Google
↑1
gemini-3-pro
🏆 创意写作 #3 🏆 多轮上下文 #7 🏆 多轮对话 #7
#8 OpenAI
↓1
gpt-5.5-high
🏆 专家级 #4 🏆 指令遵循 #7 🏆 数学 #9
#9 OpenAI
↑2
gpt-5.4-high
🏆 数学 #3 🏆 专家级 #5 🏆 指令遵循 #8
#10 Google
🆕
gemini-3.5-flash
🏆 数学 #1 🏆 专家级 #8 🏆 创意写作 #9
#11 OpenAI
↑1
gpt-5.2-chat-latest-20260210
🏆 多轮对话 #9 🏆 医疗行业 #8 🏆 商业金融行业 #8
#12 Z.ai
↑6
glm-5.1
🏆 多轮上下文 #6 🏆 代码 #6 🏆 英文难题 #7
#13 OpenAI
gpt-5.5
🏆 数学 #10 🏆 中文 #4 🏆 商业金融行业 #7
#14 xAI
↓5
grok-4.20-beta1
🏆 医疗行业 #10 🏆 德文 #10 🏆 西文 #10
#15 Alibaba
🆕
qwen3.7-max-preview
🏆 数学 #6 🏆 长查询 #8 🏆 多轮上下文 #9
#16 Google
gemini-3-flash
🏆 娱乐媒体行业 #10 🏆 日文 #6 🏆 波兰文 #7
#17 xAI
↓7
grok-4.20-beta-0309-reasoning
🏆 法文 #10 多轮对话 #15 数学 #21
#18 Anthropic
↓1
claude-opus-4-5-20251101-thinking-32k
🏆 指令遵循 #5 🏆 代码 #5 🏆 创意写作 #7
#19 xAI
↓5
grok-4.20-multi-agent-beta-0309
代码 #17 多轮对话 #22 创意写作 #23
#20 OpenAI
🆕
gpt-5.5-instant
🏆 西文 #5 🏆 韩文 #8 创意写作 #15
#21 Anthropic
↑2
claude-sonnet-4-6
🏆 长查询 #6 🏆 英文难题 #8 🏆 难题 #8
#22 Baidu
🆕
ernie-5.1
🏆 数学行业 #10 数学 #15 代码 #18
#23 Anthropic
↓3
claude-opus-4-5-20251101
🏆 创意写作 #8 🏆 指令遵循 #10 🏆 长查询 #10
#24 OpenAI
↓3
gpt-5.4
指令遵循 #19 长查询 #20 专家级 #21
#25 xAI
↓6
grok-4.1-thinking
🏆 医疗行业 #9 难题 #35 多轮上下文 #40
#26 Alibaba
↓1
qwen3.5-max-preview
🏆 日文 #2 指令遵循 #15 多轮上下文 #17
#27 Xiaomi
↓5
mimo-v2.5-pro
🏆 专家级 #9 🏆 英文难题 #10 🏆 数学行业 #3
#28 Moonshot
kimi-k2.6
🏆 中文 #6 数学 #14 专家级 #18
#29 Google
↓3
gemini-3-flash (thinking-minimal)
创意写作 #20 多轮对话 #24 多轮上下文 #32
#30 Alibaba
↑1
qwen3.6-max-preview
数学 #13 专家级 #19 长查询 #26
#31 xAI
↓2
grok-4.1
多轮上下文 #37 创意写作 #39 难题 #41
#32 DeepSeek
↓5
deepseek-v4-pro-thinking
🏆 法律政府行业 #10 数学 #19 长查询 #25
#33 Z.ai
↓1
glm-5
创意写作 #17 专家级 #28 长查询 #31
#34 DeepSeek
↓10
deepseek-v4-pro
创意写作 #30 指令遵循 #30 长查询 #30
#35 Bytedance
↓5
dola-seed-2.0-pro
代码 #26 难题 #31 专家级 #37
#36 Anthropic
claude-sonnet-4-5-20250929-thinking-32k
代码 #14 长查询 #15 英文难题 #16
#37 Anthropic
claude-sonnet-4-5-20250929
创意写作 #14 长查询 #17 多轮上下文 #20
#38 OpenAI
↓3
gpt-5.1-high
指令遵循 #33 数学 #34 专家级 #36
#39 Google
↓1
gemma-4-31b
数学 #24 指令遵循 #29 英文难题 #33
#40 OpenAI
↓7
gpt-5.4-mini-high
多轮对话 #29 专家级 #31 代码 #40
#41 Moonshot
↓1
kimi-k2.5-thinking
数学 #20 专家级 #33 代码 #36
#42 Xiaomi
mimo-v2-pro
英文难题 #21 专家级 #23 长查询 #33
#43 Baidu
↓2
ernie-5.0-preview-1203
🏆 西文 #8 🏆 波兰文 #10 创意写作 #49
#44 Anthropic
↓1
claude-opus-4-1-20250805-thinking-16k
长查询 #16 代码 #21 指令遵循 #22
#45 MiniMax
🆕
minimax-m3
数学 #12 专家级 #26 代码 #27
#46 OpenAI
↓2
gpt-5.3-chat-latest
多轮对话 #38 多轮上下文 #44 代码 #44
#47 Baidu
↓8
ernie-5.0-0110
创意写作 #45 难题 #49 代码 #50
#48 Anthropic
claude-opus-4-1-20250805
多轮上下文 #24 指令遵循 #27 长查询 #27
#49 Google
↓4
gemini-2.5-pro
创意写作 #27 长查询 #42 指令遵循 #43
#50 xAI
↓16
grok-4.3
创意写作 #40 多轮对话 #44 多轮上下文 #51
⛔ 本月退出 Top 50(共 5 个)
ernie-5.1-preview (上月 #15) qwen3.6-plus (上月 #46) qwen3.5-397b-a17b (上月 #47) gpt-4.5-preview-2025-02-27 (上月 #49) chatgpt-4o-latest-20250326 (上月 #50)
📖 说明
数据来源:arena.ai 官方排行榜,基于全球用户对模型对战的盲测投票。排名为相对位次(rank position),不是 ELO 分数。
优势赛道生成规则:从该模型在 27 个评测维度(综合 / 难题 / 代码 / 数学 / 创意写作 / 中文 / 各行业等)中:
- 🏆 优先显示 Top 10 的核心维度(最多 3 个)
- 不足 3 个时,用该模型自身相对最强的维度补足(不带 🏆)
- 核心能力(难题/代码/数学/写作等)优先于行业 / 小语种维度
月度变化:与上月快照对比。↑ 上升 / ↓ 下降 / 🆕 新进 Top 50 / 📊 基线(首期或上月不在 Top 50)。
更新频率:每月 1 日 09:00(北京时间)自动从 arena.ai 抓取最新数据并发布。