aidigest.club
LMARENA LEADERBOARD

🏆 LMArena 全球大模型 Top 50

基于 arena.ai 真实人类盲测对战数据的全球大模型排行榜。每月 1 日自动更新一次。

📅 最新快照:2026-06-05 · 共观察 363 个模型 · 展示 Top 50

📊 Top 50 厂商分布

Anthropic ×11 OpenAI ×9 Google ×7 xAI ×6 Alibaba ×3 Baidu ×3 Z.ai ×2 Xiaomi ×2 Moonshot ×2 DeepSeek ×2 Meta ×1 Bytedance ×1 MiniMax ×1
🥇 Anthropic
↑1
claude-opus-4-6-thinking
🏆 创意写作 #1 🏆 多轮上下文 #1 🏆 指令遵循 #1
🥈 Anthropic
↓1
claude-opus-4-7-thinking
🏆 多轮对话 #1 🏆 创意写作 #2 🏆 多轮上下文 #2
🥉 Anthropic
claude-opus-4-6
🏆 专家级 #2 🏆 英文难题 #2 🏆 长查询 #2
#4 Anthropic
↑1
claude-opus-4-7
🏆 多轮对话 #2 🏆 专家级 #3 🏆 代码 #3
#5 Meta
↑1
muse-spark
🏆 英文难题 #5 🏆 多轮对话 #6 🏆 难题 #6
#6 Google
↓2
gemini-3.1-pro-preview
🏆 创意写作 #5 🏆 多轮上下文 #5 🏆 多轮对话 #5
#7 Google
↑1
gemini-3-pro
🏆 创意写作 #3 🏆 多轮上下文 #7 🏆 多轮对话 #7
#8 OpenAI
↓1
gpt-5.5-high
🏆 专家级 #4 🏆 指令遵循 #7 🏆 数学 #9
#9 OpenAI
↑2
gpt-5.4-high
🏆 数学 #3 🏆 专家级 #5 🏆 指令遵循 #8
#10 Google
🆕
gemini-3.5-flash
🏆 数学 #1 🏆 专家级 #8 🏆 创意写作 #9
#11 OpenAI
↑1
gpt-5.2-chat-latest-20260210
🏆 多轮对话 #9 🏆 医疗行业 #8 🏆 商业金融行业 #8
#12 Z.ai
↑6
glm-5.1
🏆 多轮上下文 #6 🏆 代码 #6 🏆 英文难题 #7
#13 OpenAI
gpt-5.5
🏆 数学 #10 🏆 中文 #4 🏆 商业金融行业 #7
#14 xAI
↓5
grok-4.20-beta1
🏆 医疗行业 #10 🏆 德文 #10 🏆 西文 #10
#15 Alibaba
🆕
qwen3.7-max-preview
🏆 数学 #6 🏆 长查询 #8 🏆 多轮上下文 #9
#16 Google
gemini-3-flash
🏆 娱乐媒体行业 #10 🏆 日文 #6 🏆 波兰文 #7
#17 xAI
↓7
grok-4.20-beta-0309-reasoning
🏆 法文 #10 多轮对话 #15 数学 #21
#18 Anthropic
↓1
claude-opus-4-5-20251101-thinking-32k
🏆 指令遵循 #5 🏆 代码 #5 🏆 创意写作 #7
#19 xAI
↓5
grok-4.20-multi-agent-beta-0309
代码 #17 多轮对话 #22 创意写作 #23
#20 OpenAI
🆕
gpt-5.5-instant
🏆 西文 #5 🏆 韩文 #8 创意写作 #15
#21 Anthropic
↑2
claude-sonnet-4-6
🏆 长查询 #6 🏆 英文难题 #8 🏆 难题 #8
#22 Baidu
🆕
ernie-5.1
🏆 数学行业 #10 数学 #15 代码 #18
#23 Anthropic
↓3
claude-opus-4-5-20251101
🏆 创意写作 #8 🏆 指令遵循 #10 🏆 长查询 #10
#24 OpenAI
↓3
gpt-5.4
指令遵循 #19 长查询 #20 专家级 #21
#25 xAI
↓6
grok-4.1-thinking
🏆 医疗行业 #9 难题 #35 多轮上下文 #40
#26 Alibaba
↓1
qwen3.5-max-preview
🏆 日文 #2 指令遵循 #15 多轮上下文 #17
#27 Xiaomi
↓5
mimo-v2.5-pro
🏆 专家级 #9 🏆 英文难题 #10 🏆 数学行业 #3
#28 Moonshot
kimi-k2.6
🏆 中文 #6 数学 #14 专家级 #18
#29 Google
↓3
gemini-3-flash (thinking-minimal)
创意写作 #20 多轮对话 #24 多轮上下文 #32
#30 Alibaba
↑1
qwen3.6-max-preview
数学 #13 专家级 #19 长查询 #26
#31 xAI
↓2
grok-4.1
多轮上下文 #37 创意写作 #39 难题 #41
#32 DeepSeek
↓5
deepseek-v4-pro-thinking
🏆 法律政府行业 #10 数学 #19 长查询 #25
#33 Z.ai
↓1
glm-5
创意写作 #17 专家级 #28 长查询 #31
#34 DeepSeek
↓10
deepseek-v4-pro
创意写作 #30 指令遵循 #30 长查询 #30
#35 Bytedance
↓5
dola-seed-2.0-pro
代码 #26 难题 #31 专家级 #37
#36 Anthropic
claude-sonnet-4-5-20250929-thinking-32k
代码 #14 长查询 #15 英文难题 #16
#37 Anthropic
claude-sonnet-4-5-20250929
创意写作 #14 长查询 #17 多轮上下文 #20
#38 OpenAI
↓3
gpt-5.1-high
指令遵循 #33 数学 #34 专家级 #36
#39 Google
↓1
gemma-4-31b
数学 #24 指令遵循 #29 英文难题 #33
#40 OpenAI
↓7
gpt-5.4-mini-high
多轮对话 #29 专家级 #31 代码 #40
#41 Moonshot
↓1
kimi-k2.5-thinking
数学 #20 专家级 #33 代码 #36
#42 Xiaomi
mimo-v2-pro
英文难题 #21 专家级 #23 长查询 #33
#43 Baidu
↓2
ernie-5.0-preview-1203
🏆 西文 #8 🏆 波兰文 #10 创意写作 #49
#44 Anthropic
↓1
claude-opus-4-1-20250805-thinking-16k
长查询 #16 代码 #21 指令遵循 #22
#45 MiniMax
🆕
minimax-m3
数学 #12 专家级 #26 代码 #27
#46 OpenAI
↓2
gpt-5.3-chat-latest
多轮对话 #38 多轮上下文 #44 代码 #44
#47 Baidu
↓8
ernie-5.0-0110
创意写作 #45 难题 #49 代码 #50
#48 Anthropic
claude-opus-4-1-20250805
多轮上下文 #24 指令遵循 #27 长查询 #27
#49 Google
↓4
gemini-2.5-pro
创意写作 #27 长查询 #42 指令遵循 #43
#50 xAI
↓16
grok-4.3
创意写作 #40 多轮对话 #44 多轮上下文 #51

⛔ 本月退出 Top 50(共 5 个)

ernie-5.1-preview (上月 #15) qwen3.6-plus (上月 #46) qwen3.5-397b-a17b (上月 #47) gpt-4.5-preview-2025-02-27 (上月 #49) chatgpt-4o-latest-20250326 (上月 #50)

📖 说明

数据来源arena.ai 官方排行榜,基于全球用户对模型对战的盲测投票。排名为相对位次(rank position),不是 ELO 分数。

优势赛道生成规则:从该模型在 27 个评测维度(综合 / 难题 / 代码 / 数学 / 创意写作 / 中文 / 各行业等)中:

  • 🏆 优先显示 Top 10 的核心维度(最多 3 个)
  • 不足 3 个时,用该模型自身相对最强的维度补足(不带 🏆)
  • 核心能力(难题/代码/数学/写作等)优先于行业 / 小语种维度

月度变化:与上月快照对比。 上升 / 下降 / 🆕 新进 Top 50 / 📊 基线(首期或上月不在 Top 50)。

更新频率:每月 1 日 09:00(北京时间)自动从 arena.ai 抓取最新数据并发布。