Appearance
Grok 4.1 评测登顶:LMArena 双冠与体验升级全景解读
最新更新:2026年4月
如果把 2025 年末的大模型竞争比作拉力赛,Grok 4.1 就是"换引擎后突然提速"的回合:榜单成绩一骑绝尘,回答更稳、更像人,也更会写。
国内体验 Grok 4.1: 艾米 AI 支持最新 Grok 4 系列模型
两种形态:快与深的一键切换
xAI 同时推出标准版 Grok 4.1 和推理增强版 Grok 4.1 Thinking,两者同源但定位不同:
| 版本 | 定位 | 适用场景 |
|---|---|---|
| Grok 4.1 | 快速准确 | 日常对话、写作、代码 |
| Grok 4.1 Thinking | 深度推理 | 复杂数学、多步编程、逻辑验证 |
产品侧,"一键更努力思考"的切换被刻意做得轻量,从即时回答到深度推理的门槛足够低。
LMArena 双冠
本次升级最醒目的成绩:
- Grok 4.1 Thinking:1483 Elo 位居第一
- Grok 4.1:1465 Elo 紧随其后
形成"推理 + 快速"双冠组合。LMArena 采用匿名双盲两两对战机制,被业内视为"真实偏好"风向标。
幻觉率暴降:从 12% 到 4%
训练方式的关键变化——更大规模的强化学习系统、前沿推理模型充当奖励模型——带来了事实稳定性的飞跃:
| 指标 | Grok 4 | Grok 4.1 | 改善幅度 |
|---|---|---|---|
| 幻觉率 | 12.09% | 4.22% | -65% |
| FActScore | 9.89 | 2.97 | -70% |
FActScore 下降意味着"编得更少、证据链更稳",直接提升检索类问题和引用场景的可靠性。
情感与创意:被忽视的赛道
EQ-Bench 情感能力:Grok 4.1 以 1586 Elo 占据前两名,测试包含 45 个角色扮演场景、每个 3 回合,强调情绪上下文连贯性。
Creative Writing v3:得分达到 1722 Elo,较前代大幅提升。写作不再像"会写段子的模型",而更接近有叙事节奏和情绪层次的"作者"。
上下文扩展
- 标准模式:256K tokens
- Fast 模式:最高 200 万 tokens
在长文档理解和多轮协作中更少"断片"。
国内体验入口
| 平台 | 地址 | 特点 |
|---|---|---|
| 艾米 AI | chat.aimirror123.com | 综合平台,Grok/GPT-5/Claude 全覆盖 |
| Gemini 镜像站 | 镜像站 | 多模型对比 |
| Claude 镜像站集合 | 镜像站 | Claude 专属 |
总结
Grok 4.1 的升级不靠参数堆砌,而是把"事实更稳、情绪更懂、创作更会写、体验更像人"放在同等重要的位置。这种面向使用体验的提升,才是它在榜单之外真正有说服力的部分。