OpenAI发布开源评测CoT-Control,用于权衡模子思想链可控性
2026-03-06 19:40:22
AIPress.com.cn报道
随着AI智能体越来越能自主完成复杂任务,如何有效监督其行为成为关键议题。OpenAI最新研究聚焦一种潜在风险:当模型知道自己的推理过程会被监控时,是否可能刻意改写或遮掩思维链,从而让监控失效、评估结果被高估。
OpenAI表示,思维链监控是其多层安全体系的一部分,可通过分析模型推理步骤来识别不安全行为或偏离用户意图的迹象。为验证“思维链是否会被刻意操控”,OpenAI提出并开源了评测套件CoT-Control,包含超过1.3万道任务,来自GPQA、MMLU-Pro、HLE等多个基准,用于测试模型能否在解题时遵守针对思维链的限制指令,比如避免特定关键词、只用小写字母或按要求追加特定词语。
研究对13个推理模型进行评测后发现,当前前沿模型普遍难以稳定控制自己的思维链,可控性得分整体很低,最低约0.1%,最高也未超过15.4%。研究还指出,模型规模更大时可控性略有提升,但当推理更长或经历更多后训练时,可控性反而下降。即使告知模型“正在被监控或评测”,可控性也只是小幅上升。
OpenAI认为,这一结果意味着在当前阶段,模型还不太具备通过操控思维链来逃避监控的能力,因而思维链监控短期内仍具参考价值。但公司也强调需持续跟踪,未来将把思维链可控性与可监控性一起纳入前沿模型的系统卡披露指标,以便及时发现趋势变化。
声明:文章不代表轻松科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19