Appearance
Claude Sonnet 4.6 性能评测
推理能力测试 (Reasoning)
GPQA (研究生级科学问答)
| 模型 | 得分 | 排名 |
|---|---|---|
| Claude Sonnet 4.6 | 89.2% | 第1名 |
| Claude 3.5 (Opus) | 74.2% | 第2名 |
| Claude Sonnet 3.5 | 71.5% | 第3名 |
| GPT-4 | 68.3% | 第5名 |
AIME 2025 (数学竞赛)
| 模型 | 得分 | 百分位 |
|---|---|---|
| Claude Sonnet 4.6 | 83.5% | 前 5% |
| Claude Sonnet 3.5 | 64.2% | 前 15% |
| GPT-4 Turbo | 58.7% | 前 25% |
提升分析: 几何证明 (+31%) 与方程求解 (+28%) 提升最为显著。
Humanity's Last Exam
- Claude Sonnet 4.6: 24.3%(AI 模型最高分)
- Claude 3.5: 19.7%
- Claude Sonnet 3.5: 18.8%
- GPT-4: 15.2%
ARC-AGI-2 (抽象推理)
Claude Sonnet 4.6 : ████████████████████████████████████ 35.2%
Claude 3.5 : ████████████████████████ 21.8%
Claude Sonnet 3.5 : ████████████████████ 19.7%
GPT-4 : ██████████████████ 18.5%
提升幅度:+78% (相比 Sonnet 3.5)代码生成能力 (Coding)
SWE-Bench Verified
| 模型 | 解决率 | 代码质量 | 可维护性 |
|---|---|---|---|
| Claude Sonnet 4.6 | 71.2% | 9.2/10 | 9.0/10 |
| Claude 3.5 | 65.1% | 8.7/10 | 8.5/10 |
| Claude Sonnet 3.5 | 63.8% | 8.5/10 | 8.3/10 |
| GPT-4 | 58.3% | 8.2/10 | 8.0/10 |
WebDev Arena (网页开发)
- Claude Sonnet 4.6 (1,842 ELO) — ⭐⭐⭐⭐⭐
- Claude 3.5 Sonnet (1,756 ELO) — ⭐⭐⭐⭐
- GPT-4 Turbo (1,698 ELO) — ⭐⭐⭐⭐
HumanEval & 生成速度
- Python 正确率 (Pass@1): 89.7% (vs Sonnet 3.5 的 84.2%)
平均生成时间(100行代码):
Claude Sonnet 4.6 : ████ 2.3秒
Claude 3.5 : ███████ 3.9秒
Claude Sonnet 3.5 : ████████ 4.8秒
GPT-4 : ██████████ 5.2秒
速度提升:52% (相比 Sonnet 3.5)多模态能力 (Multimodal)
MMMU (图像理解)
| 模型 | 准确率 | 细节识别 | 上下文理解 |
|---|---|---|---|
| Claude Sonnet 4.6 | 92.8% | 94.5% | 91.2% |
| Claude Sonnet 3.5 | 87.3% | 85.1% | 86.8% |
| GPT-4V | 85.7% | 83.9% | 85.2% |
OCR (多语言文字识别)
- 英文: 98.9%
- 中文: 97.8% (+2.7%)
- 手写/复杂背景识别: 准确率均超过 93%
性能与效率 (Efficiency)
响应速度对比
简单问答 (50 tokens):
Claude Sonnet 4.6 : ▓ 0.8秒
GPT-4 : ▓▓ 1.8秒
复杂推理 (500 tokens):
Claude Sonnet 4.6 : ▓▓▓▓ 4.2秒
Claude Sonnet 3.5 : ▓▓▓▓▓▓▓▓ 8.5秒
代码生成 (1000 tokens):
Claude Sonnet 4.6 : ▓▓▓▓▓▓ 6.3秒
GPT-4 : ▓▓▓▓▓▓▓▓▓▓▓▓▓ 13.5秒并发与成本
- 并发能力: 在 500 并发下,Sonnet 4.6 耗时仅为 Sonnet 3.5 的 1/4
- 资源效率: 性价比最高,计算成本仅为 GPT-4 的 50%
准确性与可靠性 (Reliability)
幻觉率 (TruthfulQA)
| 模型 | 准确率 | 幻觉率 | 拒答率 |
|---|---|---|---|
| Claude Sonnet 4.6 | 94.2% | 3.1% | 2.7% |
| Claude Sonnet 3.5 | 88.5% | 7.8% | 3.7% |
| GPT-4 | 86.3% | 9.2% | 4.5% |
改进: 历史问题幻觉减少 62%,事实性问题幻觉减少 60%。
实际应用场景表现
- 数学辅导: 96.5% 准确率
- 编程教学: 97.1% 准确率
- 前端开发: 节省 65% 时间
- 数据分析: 处理 100K 行数据仅需 35.2秒,准确率 96.3%
竞品综合对比
| 能力维度 | Claude Sonnet 4.6 | GPT-4 Turbo | Claude 3.5 | Claude Sonnet 3.5 |
|---|---|---|---|---|
| 推理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 代码 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 多模态 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 性价比 | 100 | 60 | 75 | 70 |
总结
Claude Sonnet 4.6 并非简单的版本迭代,而是在速度、推理和多模态能力上的一次全面进化。
核心优势
- 推理之王: 霸榜所有主要基准测试
- 速度革命: 响应时间减半,并发能力大幅提升
- 视觉专家: OCR 与视频理解能力业界最优
- 极其可靠: 幻觉率极低,自我纠错能力强
相关资源
想要亲自测试 Claude Sonnet 4.6 的性能?访问 艾米 AI 或 Claude 镜像站集合 开始使用!