GLM-5.1应战长程使命:实测中扛住多重考验,显露直逼Claude Opus 4.6
2026-04-08 16:58:12
智谱正式推出其最新开源大模型GLM-5.1,这款模型在专业软件开发基准测试SWE-Bench Pro中以58.4分的成绩刷新全球纪录,超越了GPT-5.4、Claude Opus 4.6等闭源模型以及MiniMax M2.7、Kimi K2.5等开源竞品。该模型专为复杂长程任务设计,具备持续自主规划、执行和迭代的能力,能够交付完整的工程结果。
在向量数据库调优任务中,GLM-5.1无需人工干预,通过655轮自主迭代将性能提升至初始水平的3.6倍。更令人瞩目的是,该模型仅凭一张架构草图,连续工作超过8小时,完成1200多个操作步骤,最终输出功能完备的Linux桌面系统。据官方测算,这一成果相当于4人团队连续工作一周的工作量,使其成为全球首个在真实工程场景中验证持续工作能力的开源模型。
发布后迅速引发海外开发者社区热议,相关推文在12小时内阅读量突破200万次,目前累计已达227万次。多位开发者实测后表示,GLM-5.1的使用体验已接近Claude Opus 4.6。AI开发者toli通过对比测试发现,在113个编程任务中,GLM-5.1的表现与Opus 4.6几乎持平,而智谱提供的Coding Plan用量是Claude Code的三倍,价格仅为后者的三分之一。软件定制公司Zenoware创始人JP用该模型一次性完成了10个开发案例,认为其是中国最接近Opus 4.6的模型。
在基准测试中,GLM-5.1展现全面优势:编程能力维度位列全球第三、国产第一、开源第一;设计能力排名第四,与Opus 4.6、Sonnet 4.6同属第一梯队;文本能力则被评为开源模型榜首。这些成绩得益于其创新的训练策略——通过扩展任务过程训练窗口,结合多轮监督微调与强化学习,使模型掌握从任务接收到交付的完整工作流。
实际工程测试进一步验证其可靠性。在搭建待办事项看板的任务中,面对连续十几条需求变更,GLM-5.1始终保持开发节奏,最终交付功能完整、交互流畅的产品,前后端数据联动准确,UI细节处理专业。相比之下,Claude Opus 4.6虽然实现了核心功能,但在色彩选择和界面设计上略显单调。
更严苛的测试场景中,研究人员故意制造网络中断和遗留代码问题,并修改中文字符编码制造乱码。GLM-5.1展现出强大的环境适应能力:网络恢复后迅速梳理项目结构,补全前端代码;精准识别后端技术栈缺陷并提出优化方案;主动排查并修复5个API路径问题;通过29次工具调用定位并解决中文乱码问题。整个过程无需人工干预,最终交付包含数百个文件的完整项目,与Claude Opus 4.6的成果处于同一水平。
这款模型的突破性进展,标志着开源社区在长程任务处理能力上取得重大进展。通过自主规划、持续执行和智能纠偏机制,GLM-5.1成功跨越了从"代码生成"到"项目交付"的关键门槛,为复杂工程场景的AI应用开辟了新路径。其8小时持续工作能力的验证,更重新定义了开源模型在真实业务环境中的价值标准。
相关阅读
-
2025年条记本显示屏出货量增进7%,OLED向上Mini LED向下,高端屏市场风向已变科技前沿 2026-04-08 16:57:09
-
Uber与AWS强强结合,AI芯片助力出行效劳晋级与个性化体验提拔资讯百科 2026-04-08 16:56:51
-
广电总局专项整治“AI魔改”视频:清违规内容 筑文明保险防线深度解读 2026-04-08 16:52:52
-
云南一病院承平间招搬尸工引热议:月薪4000元 岁数限制 18-35 岁 学历要求大专科技前沿 2026-04-08 16:50:44
-
蒙牛的“定力”与“生机”:一场为周期反转铺路的才能重构资讯百科 2026-04-08 16:50:11
-
扣子公布2.5版本晋级,索求AI Agent从“工具”到“火伴”的关头一步深度解读 2026-04-08 16:48:03
-
十部分结合发布新规:为人工智能科技伦理审查与效劳筑牢轨制基石深度解读 2026-04-08 16:46:03
-
国家邮政局发布2025年用户最写意快递:顺丰、京东稳居前2科技前沿 2026-04-08 16:44:20
-
2026年青薄影象旗舰手机涨价后选购指南:真正闭眼入深度解读 2026-04-08 16:42:03
-
深圳AI存力芯片企业得一微:撤回科创板后重启IPO,结构多范畴谋开展深度解读 2026-04-08 16:40:16