Grok 4.1 评测登顶：LMArena 双冠与体验升级全景解读

最新更新：2026年4月

如果把 2025 年末的大模型竞争比作拉力赛，Grok 4.1 就是"换引擎后突然提速"的回合：榜单成绩一骑绝尘，回答更稳、更像人，也更会写。

国内体验 Grok 4.1： 艾米 AI 支持最新 Grok 4 系列模型

两种形态：快与深的一键切换

xAI 同时推出标准版 Grok 4.1 和推理增强版 Grok 4.1 Thinking，两者同源但定位不同：

版本	定位	适用场景
Grok 4.1	快速准确	日常对话、写作、代码
Grok 4.1 Thinking	深度推理	复杂数学、多步编程、逻辑验证

产品侧，"一键更努力思考"的切换被刻意做得轻量，从即时回答到深度推理的门槛足够低。

本次升级最醒目的成绩：

形成"推理 + 快速"双冠组合。LMArena 采用匿名双盲两两对战机制，被业内视为"真实偏好"风向标。

训练方式的关键变化——更大规模的强化学习系统、前沿推理模型充当奖励模型——带来了事实稳定性的飞跃：

指标	Grok 4	Grok 4.1	改善幅度
幻觉率	12.09%	4.22%	-65%
FActScore	9.89	2.97	-70%

FActScore 下降意味着"编得更少、证据链更稳"，直接提升检索类问题和引用场景的可靠性。

EQ-Bench 情感能力：Grok 4.1 以 1586 Elo 占据前两名，测试包含 45 个角色扮演场景、每个 3 回合，强调情绪上下文连贯性。

Creative Writing v3：得分达到 1722 Elo，较前代大幅提升。写作不再像"会写段子的模型"，而更接近有叙事节奏和情绪层次的"作者"。

在长文档理解和多轮协作中更少"断片"。

Grok 4.1 的升级不靠参数堆砌，而是把"事实更稳、情绪更懂、创作更会写、体验更像人"放在同等重要的位置。这种面向使用体验的提升，才是它在榜单之外真正有说服力的部分。