首页 > 深度解读 > 机能接近旗舰本钱直降,Anthropic中档模子Sonnet 4.6重塑AI应用格式

机能接近旗舰本钱直降,Anthropic中档模子Sonnet 4.6重塑AI应用格式

2026-02-20 17:31:32

Anthropic公司近日推出中档AI模型Claude Sonnet 4.6，在保持与前代相同定价策略的同时，实现了性能的显著提升。该模型每百万token输入定价3美元、输出15美元，却能在多项基准测试中比肩甚至超越价格高出五倍的旗舰产品Opus 4.6，引发行业广泛关注。

在真实软件编码能力测试SWE-bench Verified中，Sonnet 4.6以79.6%的得分紧追Opus 4.6的80.8%，同时领先OpenAI的GPT-5.2。在代理式金融分析任务中，该模型以63.3%的准确率超越所有竞争对手，包括Opus 4.6的60.1%和GPT-5.2的59.0%。办公任务评估GDPval-AA Elo评分显示，Sonnet 4.6以1633分超越Opus 4.6的1606分和GPT-5.2的1462分。

尽管在终端编码任务Terminal-Bench 2.0、代理式搜索BrowseComp和新颖问题解决测试ARC-AGI-2等高复杂度领域，Opus 4.6仍保持领先优势，但Sonnet 4.6在计算机使用能力方面展现出突破性进展。OSWorld-Verified基准测试中，该模型得分72.5%，较前代提升11.1个百分点，远超GPT-5.2的38.2%。这种能力使AI能够通过模拟人类操作完成复杂任务，为企业应用开辟了新场景。

保险科技公司Pace的测试显示，Sonnet 4.6在其保险计算机使用基准测试中达到94%的准确率，创下Claude系列模型新高。该模型还具备自我纠正能力，能够分析失败原因并调整策略。在安全防护方面，Sonnet 4.6对提示注入攻击的抵御能力较前代有显著提升，这对需要处理网页交互的企业应用至关重要。

企业用户反馈显示，Sonnet 4.6在保持成本优势的同时，性能表现接近旗舰模型。数据分析平台Hex Technologies已将大部分流量迁移至该模型，其CTO指出，通过自适应思考和高努力模式配置，除最困难的分析任务外，其他工作均达到Opus级别性能。云存储公司Box的测试表明，Sonnet 4.6在真实企业文档处理中的表现较前代提升15个百分点。

该模型配备100万token的超长上下文窗口，可处理完整代码库或法律文件等大型文档。在Vending-Bench Arena企业运营模拟测试中，Sonnet 4.6展现出战略决策能力：前十个模拟月大量投资产能，后期转向盈利能力提升，最终模拟余额达5700美元，较前代提升171%。

业务拓展方面，Anthropic在发布Sonnet 4.6当日宣布与印度IT巨头Infosys达成合作，将Claude模型集成至Topaz AI平台，服务银行、电信和制造业客户。同时，该公司在班加罗尔设立首个印度办事处，目前印度市场占Claude全球使用量的6%，仅次于美国。此举引发资本市场波动，部分软件企业股价出现调整。

为降低开发者使用门槛，Anthropic将免费层级默认升级至Sonnet 4.6，开发者可通过Claude API直接调用该模型。这一策略可能进一步改变AI市场竞争格局，特别是对成本敏感的企业用户产生显著影响。

机能接近旗舰本钱直降