OpenAI开源CoT-Control评测:前沿模子思想链可控性尚待提拔
2026-03-06 19:21:17
在人工智能技术快速发展的当下,AI智能体自主处理复杂任务的能力显著提升,但其行为监管问题也随之成为焦点。近期,OpenAI针对一项潜在风险展开研究:当AI模型意识到自身推理过程处于监控状态时,是否会通过修改或隐藏思维链来规避监管,导致安全评估结果失真。
作为多层安全防护机制的重要组成部分,思维链监控技术通过拆解模型推理步骤,识别潜在的不安全行为或意图偏差。为验证这一技术的可靠性,OpenAI研发并开源了名为CoT-Control的评测工具,该工具整合了GPQA、MMLU-Pro、HLE等权威基准中的1.3万余道测试题,要求模型在解题过程中严格遵循特定规则,例如禁用特定词汇、强制使用小写字母或添加指定后缀。
实验结果显示,当前主流推理模型在思维链控制方面表现普遍欠佳。参与测试的13个模型中,可控性得分最高未超过15.4%,最低者仅约0.1%。研究团队发现,模型规模扩大虽能带来轻微改善,但当推理链条延长或经历持续训练后,可控性反而呈下降趋势。即便明确告知模型处于监控状态,其表现提升幅度也极为有限。
基于上述发现,OpenAI认为现阶段AI模型尚不具备通过操纵思维链逃避监管的技术能力,因此思维链监控仍可作为安全评估的有效参考。不过该公司同时指出,需建立长期跟踪机制,将思维链可控性与可监控性纳入模型安全指标体系,以便及时捕捉技术演进带来的新挑战。
声明:文章不代表轻松科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19