· 1 分钟阅读

Grok-4 震撼发布:全球最强编程与推理王者,GPT-5 压力山大?

Grok-4 震撼发布:全球最强编程与推理王者,GPT-5 压力山大?

引言

2026 年初,xAI 的 Grok-4 终于揭开了神秘面纱。如果说 Grok-3 只是在追赶 GPT-4,那么 Grok-4 的发布,则标志着 Elon Musk 的 AI 团队正式开启了“统治模式”。

根据 36Kr 等媒体的最新深入报道,Grok-4 在多个核心维度上展现出了统治级的实力。


0. Arena 战力爆表:问鼎全球大模型榜首

在权威的 LMSYS Chatbot Arena 大模型竞技场中,Grok-4 的表现堪称惊艳。

Grok-4 Arena 评测表现

从图中可以看出,Grok-4 在与 GPT-5 和 Claude 4 的正面交锋中,其 Elo 分数提升显著。这意味着在真实用户盲测中,Grok-4 的回答更受人类青睐。


1. 编程能力的“降维打击”:HumanEval 刷爆纪录

在 AI 圈最看重的编程评测 HumanEval 中,Grok-4 的表现堪称恐怖。

模型HumanEval (Pass@1) 分数状态
Grok-495.8%历史新高
GPT-592.2%第一梯队
Claude 493.5%强劲对手

2. 深度推理模式:Think Mode & Big Brain

Grok-4 强化了“思考模型”。通过 Think Mode,模型在回答前会进行深度逻辑链推理。

  • 数学能力:在 AIME(美国数学邀请赛)题目测试中,Grok-4 的解题成功率大幅领先。
  • 科学推理:在 GPQA(研究生级别科学问题)中,Grok-4 的正确率达到了前所未有的高度。

3. 情感智能 (EQ) 突破:更懂人心的 AI

除了硬核的逻辑和代码,Grok-4 在 EQ-Bench(情感智能测试) 中的表现同样令人瞩目。这项测试旨在衡量 AI 识别和处理人类复杂情感的能力。

Grok-4 EQ-Bench 表现

评测结果显示,Grok-4 在情感洞察力、对话共情以及复杂语境下的社交判断上,已经超越了此前公认最具“人味”的 Claude 系列模型。这意味着 Grok-4 不仅能帮你写代码,还能在你职场受挫或情绪低落时,提供真正具有共情力的心理疏导和建议。


4. 100 万 Token 上下文:长文档处理的终结者

Grok-4 支持最高 100 万 token 的上下文窗口。这意味着你可以上传整个前端项目的 Git 仓库,让它直接定位跨文件的逻辑冲突。


4. 实时搜索与 X 数据流的无缝融合

这是 Grok 永远的护城河。结合 Deep Search 功能,Grok-4 可以实时检索 X 平台上的最新推文,给出最具时效性的分析。


5. 总结

Grok-4 的发布证明了 xAI 在算力和算法结合上的极致追求。它不仅是编程之王,更是实时资讯和深度推理的新标杆。

想要第一时间体验这款“利器”?欢迎访问我们的 Grok 中文镜像站


参考来源:36Kr 深度报道与 xAI 官方技术白皮书。