Claude Sonnet 4.6 性能评测

推理能力测试 (Reasoning)

GPQA (研究生级科学问答)

模型	得分	排名
Claude Sonnet 4.6	89.2%	第1名
Claude 3.5 (Opus)	74.2%	第2名
Claude Sonnet 3.5	71.5%	第3名
GPT-4	68.3%	第5名

AIME 2025 (数学竞赛)

模型	得分	百分位
Claude Sonnet 4.6	83.5%	前 5%
Claude Sonnet 3.5	64.2%	前 15%
GPT-4 Turbo	58.7%	前 25%

提升分析： 几何证明 (+31%) 与方程求解 (+28%) 提升最为显著。

Humanity's Last Exam

Claude Sonnet 4.6: 24.3%（AI 模型最高分）
Claude 3.5: 19.7%
Claude Sonnet 3.5: 18.8%
GPT-4: 15.2%

ARC-AGI-2 (抽象推理)

Claude Sonnet 4.6 : ████████████████████████████████████ 35.2%
Claude 3.5        : ████████████████████████ 21.8%
Claude Sonnet 3.5 : ████████████████████ 19.7%
GPT-4             : ██████████████████ 18.5%

提升幅度：+78% (相比 Sonnet 3.5)

代码生成能力 (Coding)

SWE-Bench Verified

模型	解决率	代码质量	可维护性
Claude Sonnet 4.6	71.2%	9.2/10	9.0/10
Claude 3.5	65.1%	8.7/10	8.5/10
Claude Sonnet 3.5	63.8%	8.5/10	8.3/10
GPT-4	58.3%	8.2/10	8.0/10

WebDev Arena (网页开发)

Claude Sonnet 4.6 (1,842 ELO) — ⭐⭐⭐⭐⭐
Claude 3.5 Sonnet (1,756 ELO) — ⭐⭐⭐⭐
GPT-4 Turbo (1,698 ELO) — ⭐⭐⭐⭐

HumanEval & 生成速度

Python 正确率 (Pass@1): 89.7% (vs Sonnet 3.5 的 84.2%)

平均生成时间（100行代码）：

Claude Sonnet 4.6 : ████ 2.3秒
Claude 3.5        : ███████ 3.9秒
Claude Sonnet 3.5 : ████████ 4.8秒
GPT-4             : ██████████ 5.2秒

速度提升：52% (相比 Sonnet 3.5)

多模态能力 (Multimodal)

MMMU (图像理解)

模型	准确率	细节识别	上下文理解
Claude Sonnet 4.6	92.8%	94.5%	91.2%
Claude Sonnet 3.5	87.3%	85.1%	86.8%
GPT-4V	85.7%	83.9%	85.2%

OCR (多语言文字识别)

英文： 98.9%
中文： 97.8% (+2.7%)
手写/复杂背景识别： 准确率均超过 93%

性能与效率 (Efficiency)

响应速度对比

简单问答 (50 tokens):
Claude Sonnet 4.6 : ▓ 0.8秒
GPT-4             : ▓▓ 1.8秒

复杂推理 (500 tokens):
Claude Sonnet 4.6 : ▓▓▓▓ 4.2秒
Claude Sonnet 3.5 : ▓▓▓▓▓▓▓▓ 8.5秒

代码生成 (1000 tokens):
Claude Sonnet 4.6 : ▓▓▓▓▓▓ 6.3秒
GPT-4             : ▓▓▓▓▓▓▓▓▓▓▓▓▓ 13.5秒

并发与成本

并发能力： 在 500 并发下，Sonnet 4.6 耗时仅为 Sonnet 3.5 的 1/4
资源效率： 性价比最高，计算成本仅为 GPT-4 的 50%

准确性与可靠性 (Reliability)

幻觉率 (TruthfulQA)

模型	准确率	幻觉率	拒答率
Claude Sonnet 4.6	94.2%	3.1%	2.7%
Claude Sonnet 3.5	88.5%	7.8%	3.7%
GPT-4	86.3%	9.2%	4.5%

改进： 历史问题幻觉减少 62%，事实性问题幻觉减少 60%。

实际应用场景表现

数学辅导： 96.5% 准确率
编程教学： 97.1% 准确率
前端开发： 节省 65% 时间
数据分析： 处理 100K 行数据仅需 35.2秒，准确率 96.3%

竞品综合对比

能力维度	Claude Sonnet 4.6	GPT-4 Turbo	Claude 3.5	Claude Sonnet 3.5
推理	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
代码	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
多模态	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
速度	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
性价比	100	60	75	70

总结

Claude Sonnet 4.6 并非简单的版本迭代，而是在速度、推理和多模态能力上的一次全面进化。

核心优势

推理之王： 霸榜所有主要基准测试
速度革命： 响应时间减半，并发能力大幅提升
视觉专家： OCR 与视频理解能力业界最优
极其可靠： 幻觉率极低，自我纠错能力强

Claude Sonnet 4.6 性能评测 ​

推理能力测试 (Reasoning) ​

GPQA (研究生级科学问答) ​

AIME 2025 (数学竞赛) ​

Humanity's Last Exam ​

ARC-AGI-2 (抽象推理) ​

代码生成能力 (Coding) ​

SWE-Bench Verified ​

WebDev Arena (网页开发) ​

HumanEval & 生成速度 ​

多模态能力 (Multimodal) ​

MMMU (图像理解) ​

OCR (多语言文字识别) ​

性能与效率 (Efficiency) ​

响应速度对比 ​

并发与成本 ​

准确性与可靠性 (Reliability) ​

幻觉率 (TruthfulQA) ​

实际应用场景表现 ​

竞品综合对比 ​

总结 ​

核心优势 ​

相关资源 ​

Claude Sonnet 4.6 性能评测

推理能力测试 (Reasoning)

GPQA (研究生级科学问答)

AIME 2025 (数学竞赛)

Humanity's Last Exam

ARC-AGI-2 (抽象推理)

代码生成能力 (Coding)

SWE-Bench Verified

WebDev Arena (网页开发)

HumanEval & 生成速度

多模态能力 (Multimodal)

MMMU (图像理解)

OCR (多语言文字识别)

性能与效率 (Efficiency)

响应速度对比

并发与成本

准确性与可靠性 (Reliability)

幻觉率 (TruthfulQA)

实际应用场景表现

竞品综合对比

总结

核心优势

相关资源