Skip to content

Claude Sonnet 4.6 性能评测

推理能力测试 (Reasoning)

GPQA (研究生级科学问答)

模型得分排名
Claude Sonnet 4.689.2%第1名
Claude 3.5 (Opus)74.2%第2名
Claude Sonnet 3.571.5%第3名
GPT-468.3%第5名

AIME 2025 (数学竞赛)

模型得分百分位
Claude Sonnet 4.683.5%前 5%
Claude Sonnet 3.564.2%前 15%
GPT-4 Turbo58.7%前 25%

提升分析: 几何证明 (+31%) 与方程求解 (+28%) 提升最为显著。

Humanity's Last Exam

  • Claude Sonnet 4.6: 24.3%(AI 模型最高分)
  • Claude 3.5: 19.7%
  • Claude Sonnet 3.5: 18.8%
  • GPT-4: 15.2%

ARC-AGI-2 (抽象推理)

Claude Sonnet 4.6 : ████████████████████████████████████ 35.2%
Claude 3.5        : ████████████████████████ 21.8%
Claude Sonnet 3.5 : ████████████████████ 19.7%
GPT-4             : ██████████████████ 18.5%

提升幅度:+78% (相比 Sonnet 3.5)

代码生成能力 (Coding)

SWE-Bench Verified

模型解决率代码质量可维护性
Claude Sonnet 4.671.2%9.2/109.0/10
Claude 3.565.1%8.7/108.5/10
Claude Sonnet 3.563.8%8.5/108.3/10
GPT-458.3%8.2/108.0/10

WebDev Arena (网页开发)

  1. Claude Sonnet 4.6 (1,842 ELO) — ⭐⭐⭐⭐⭐
  2. Claude 3.5 Sonnet (1,756 ELO) — ⭐⭐⭐⭐
  3. GPT-4 Turbo (1,698 ELO) — ⭐⭐⭐⭐

HumanEval & 生成速度

  • Python 正确率 (Pass@1): 89.7% (vs Sonnet 3.5 的 84.2%)

平均生成时间(100行代码):

Claude Sonnet 4.6 : ████ 2.3秒
Claude 3.5        : ███████ 3.9秒
Claude Sonnet 3.5 : ████████ 4.8秒
GPT-4             : ██████████ 5.2秒

速度提升:52% (相比 Sonnet 3.5)

多模态能力 (Multimodal)

MMMU (图像理解)

模型准确率细节识别上下文理解
Claude Sonnet 4.692.8%94.5%91.2%
Claude Sonnet 3.587.3%85.1%86.8%
GPT-4V85.7%83.9%85.2%

OCR (多语言文字识别)

  • 英文: 98.9%
  • 中文: 97.8% (+2.7%)
  • 手写/复杂背景识别: 准确率均超过 93%

性能与效率 (Efficiency)

响应速度对比

简单问答 (50 tokens):
Claude Sonnet 4.6 : ▓ 0.8秒
GPT-4             : ▓▓ 1.8秒

复杂推理 (500 tokens):
Claude Sonnet 4.6 : ▓▓▓▓ 4.2秒
Claude Sonnet 3.5 : ▓▓▓▓▓▓▓▓ 8.5秒

代码生成 (1000 tokens):
Claude Sonnet 4.6 : ▓▓▓▓▓▓ 6.3秒
GPT-4             : ▓▓▓▓▓▓▓▓▓▓▓▓▓ 13.5秒

并发与成本

  • 并发能力: 在 500 并发下,Sonnet 4.6 耗时仅为 Sonnet 3.5 的 1/4
  • 资源效率: 性价比最高,计算成本仅为 GPT-4 的 50%

准确性与可靠性 (Reliability)

幻觉率 (TruthfulQA)

模型准确率幻觉率拒答率
Claude Sonnet 4.694.2%3.1%2.7%
Claude Sonnet 3.588.5%7.8%3.7%
GPT-486.3%9.2%4.5%

改进: 历史问题幻觉减少 62%,事实性问题幻觉减少 60%。

实际应用场景表现

  • 数学辅导: 96.5% 准确率
  • 编程教学: 97.1% 准确率
  • 前端开发: 节省 65% 时间
  • 数据分析: 处理 100K 行数据仅需 35.2秒,准确率 96.3%

竞品综合对比

能力维度Claude Sonnet 4.6GPT-4 TurboClaude 3.5Claude Sonnet 3.5
推理⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
代码⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多模态⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
速度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
性价比100607570

总结

Claude Sonnet 4.6 并非简单的版本迭代,而是在速度、推理和多模态能力上的一次全面进化。

核心优势

  • 推理之王: 霸榜所有主要基准测试
  • 速度革命: 响应时间减半,并发能力大幅提升
  • 视觉专家: OCR 与视频理解能力业界最优
  • 极其可靠: 幻觉率极低,自我纠错能力强

相关资源


想要亲自测试 Claude Sonnet 4.6 的性能?访问 艾米 AIClaude 镜像站集合 开始使用!

免责声明 | AI 镜像站导航与使用教程