Skip to content

Grok 4.1 评测登顶:LMArena 双冠与体验升级全景解读

最新更新:2026年4月

如果把 2025 年末的大模型竞争比作拉力赛,Grok 4.1 就是"换引擎后突然提速"的回合:榜单成绩一骑绝尘,回答更稳、更像人,也更会写。

国内体验 Grok 4.1: 艾米 AI 支持最新 Grok 4 系列模型

两种形态:快与深的一键切换

xAI 同时推出标准版 Grok 4.1 和推理增强版 Grok 4.1 Thinking,两者同源但定位不同:

版本定位适用场景
Grok 4.1快速准确日常对话、写作、代码
Grok 4.1 Thinking深度推理复杂数学、多步编程、逻辑验证

产品侧,"一键更努力思考"的切换被刻意做得轻量,从即时回答到深度推理的门槛足够低。

LMArena 双冠

本次升级最醒目的成绩:

  • Grok 4.1 Thinking:1483 Elo 位居第一
  • Grok 4.1:1465 Elo 紧随其后

形成"推理 + 快速"双冠组合。LMArena 采用匿名双盲两两对战机制,被业内视为"真实偏好"风向标。

幻觉率暴降:从 12% 到 4%

训练方式的关键变化——更大规模的强化学习系统、前沿推理模型充当奖励模型——带来了事实稳定性的飞跃:

指标Grok 4Grok 4.1改善幅度
幻觉率12.09%4.22%-65%
FActScore9.892.97-70%

FActScore 下降意味着"编得更少、证据链更稳",直接提升检索类问题和引用场景的可靠性。

情感与创意:被忽视的赛道

EQ-Bench 情感能力:Grok 4.1 以 1586 Elo 占据前两名,测试包含 45 个角色扮演场景、每个 3 回合,强调情绪上下文连贯性。

Creative Writing v3:得分达到 1722 Elo,较前代大幅提升。写作不再像"会写段子的模型",而更接近有叙事节奏和情绪层次的"作者"。

上下文扩展

  • 标准模式:256K tokens
  • Fast 模式:最高 200 万 tokens

在长文档理解和多轮协作中更少"断片"。

国内体验入口

平台地址特点
艾米 AIchat.aimirror123.com综合平台,Grok/GPT-5/Claude 全覆盖
Gemini 镜像站镜像站多模型对比
Claude 镜像站集合镜像站Claude 专属

总结

Grok 4.1 的升级不靠参数堆砌,而是把"事实更稳、情绪更懂、创作更会写、体验更像人"放在同等重要的位置。这种面向使用体验的提升,才是它在榜单之外真正有说服力的部分。

相关阅读

免责声明 | AI 镜像站导航与使用教程