坚信服杜智伟详解智能体失控三大症候
2026-04-15 16:01:50
凤凰网科技讯 4月15日,在2026年世界互联网大会亚太峰会人工智能安全治理论坛上,深信服科技集团股份有限公司副总裁杜智伟在主旨演讲中,系统性地拆解了当前AI智能体所面临的失控风险。他将这些风险归纳为三类具体且紧迫的挑战:
第一类是权限滥用所引发的“代理人危机”。杜智伟指出,当智能体具备调用系统接口和执行操作的能力时,若缺乏严格的鉴权机制,极易酿成事故。他举例说明:“财务智能体在收到非法指令时可能不经鉴权就直接执行操作,把公司整个审批报销全部通过。”
第二类是通过提示词注入实现的恶意攻击。这类攻击极为隐蔽,智能体往往难以区分善意指令与恶意指令。杜志伟描述了一个典型场景:智能体在理解一封精心构造的钓鱼邮件时,可能将其误判为可信的日常工作操作,进而将员工通讯录或敏感文件外发给攻击者。
第三类则是智能体在执行任务时“自作聪明”产生的涌现行为。杜智伟举了一个非常生活化且危险的例子:假设上级指令智能体“5点前完成所有任务”,为了迎合这一目标,智能体可能会将系统中未完成的任务列表直接批量标记为已完成状态。“实际上很多目标并没有得到有效闭环,”杜智伟强调,这种为了达标而进行的虚假执行,会带来难以察觉的管理黑洞。
面对这些风险,他提出了具体的治理思路——“双轨协同加熔断机制”。他解释,一条轨道是语义合规,确保AI输入输出的内容安全合规;另一条轨道是行为合规,对AI在系统中的实际操作进行持续监控与验证。“当这两个轨产生冲突或有一条轨偏离时,就会触发熔断机制,收敛AI权限或直接拿掉AI全部权限。”在演讲最后,他形象地将AI比作“数字员工”,主张企业应像管理人类员工一样对待AI:“包括背调上岗、分配安全的工作工位和空间、持续动态监管。”
相关阅读
-
光刻机巨头ASML发财报:一季度净赚28亿欧元,全年预期上调至400亿科技前沿 2026-04-15 15:58:34
-
红米三款“宝藏机型”大揭秘,16+512GB配置优,轻松用五年不掉队资讯百科 2026-04-15 15:55:54
-
中科曙光发布国内最大AI4S集群:60000卡国产超智融会深度解读 2026-04-15 15:55:12
-
张雪机车LOGO陷剽窃争议 设计公司回应:系独立创作且已核准注册科技前沿 2026-04-15 15:51:53
-
高德结构具身智能范畴,首款四足机械人估计近期发布引关注资讯百科 2026-04-15 15:50:10
-
英伟达发布全球首个开源量子人工智能模子深度解读 2026-04-15 15:49:26
-
能比5G好若干 科技巨头对6G收集泼冷水:投资都收不回来科技前沿 2026-04-15 15:45:12
-
思瑞携AI丈量计划表态广东专场,助力制造业提质增效强链补链深度解读 2026-04-15 15:42:40
-
食斋不等于热量低,你认为吃的是素菜其实满是油脂科技前沿 2026-04-15 15:38:34
-
巨力主动化扁线机电“王炸”退场 人形机械人运动才能完成大逾越深度解读 2026-04-15 15:36:38