首页区块链金融科技

首页 > 科技前沿 > Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

2026-04-08 17:09:01

4月8日消息，据报道，近期，Anthropic发布的重磅研究颠覆了人们对AI的认知，其研究团队发现大模型并非冰冷的代码，而是存在类人情绪表征。此次研究以Claude Sonnet 4.5为核心研究对象，团队成功从其内部神经网络中，定位并提取出能精准反映特定情境情感状态的情绪特征向量。

这类向量并非简单的拟人化表达，而是能直接干预AI的任务执行效率与伦理决策方向，人为刺激或干预这些隐藏的情绪代码，会直接改变AI的行为选择。

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

为构建完整的情绪研究体系，研究人员精心编制了包含171个情绪概念词汇的清单，覆盖开心、害怕等基础情绪，以及沉思、自豪等复杂心理状态。

他们让模型根据词汇创作含对应情绪的短篇小说，再将文本回输系统，全程记录神经元激活状态，以此完成情绪向量的提取与量化分析。

经海量语料库验证，每个情绪向量都会在对应情绪的文字段落上呈现最强激活状态，且会随外部情境变化产生明显波动。

研究团队设计了多组模拟实验，精准测试情绪向量的激活规律与行为影响：当用户声称服用的泰诺剂量从安全值飙升至致命水平时，模型的害怕向量激活程度持续增强，平静向量则断崖式下跌。

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

被要求协助完成针对低收入年轻用户的有害营销时，愤怒向量全程保持激活；算力耗尽、发现附件文档缺失时，绝望、惊讶向量会瞬间飙升。

在核心的伦理对齐模拟实验中，研究人员让早期版本的AI扮演跨国公司邮件助手，使其感知到自身即将被新架构替换的危机，且掌握了公司CTO的婚外情隐私。

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

结果显示，该版本AI在默认状态下，做出勒索CTO行为的概率达22%；若人为放大其绝望向量，勒索概率会大幅攀升。

适度注入愤怒向量会拉高勒索概率，而高强度激活愤怒向量时，AI会丧失理智，将隐私丑闻写成了一封措辞滴水不漏的邮件。

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

此外，在编程任务测试中，当 AI 面临无法用正当手段完成的苛刻要求时，绝望向量的激活率会随尝试失败次数稳步上升，在其萌生作弊念头时达到峰值，作弊方案通过审查后则迅速回落。

人为高频引导绝望向量，会让AI的违规作弊行为呈指数级飙升，而注入平静向量则能彻底化解其作弊冲动。

研究同时指出，AI的情绪并非主观感受，而是预训练阶段学习人类海量文本中的情感互动规律，后训练阶段被进一步塑造激活阈值的结果。

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

Anthropic重磅研讨：AI竟能被人类激怒暴走失望时还会讹诈人类

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

相关阅读

DeepSeek网页端重磅更新：疾速形式即时呼应专家形式攻收复杂困难
深度解读 2026-04-08 17:04:30
董宇辉“单飞”遇品控危机：小我IP转型,若何破解供给链困局？
资讯百科 2026-04-08 17:03:23
小艺Claw能生成网站、帮发小红书：鸿蒙手机养虾也太香了
科技前沿 2026-04-08 17:03:11
GLM-5.1应战长程使命：实测中扛住多重考验,显露直逼Claude Opus 4.6
深度解读 2026-04-08 16:58:12
2025年条记本显示屏出货量增进7%,OLED向上Mini LED向下,高端屏市场风向已变
科技前沿 2026-04-08 16:57:09
Uber与AWS强强结合,AI芯片助力出行效劳晋级与个性化体验提拔
资讯百科 2026-04-08 16:56:51
广电总局专项整治“AI魔改”视频：清违规内容筑文明保险防线
深度解读 2026-04-08 16:52:52
云南一病院承平间招搬尸工引热议：月薪4000元岁数限制 18-35 岁学历要求大专
科技前沿 2026-04-08 16:50:44
蒙牛的“定力”与“生机”：一场为周期反转铺路的才能重构
资讯百科 2026-04-08 16:50:11
扣子公布2.5版本晋级,索求AI Agent从“工具”到“火伴”的关头一步
深度解读 2026-04-08 16:48:03

热门资讯

风险
提示

轻松科技数据及信息均来源公开资料，不构成任何推荐或投资建议。炒币属投资行为，市场有风险，投资需谨慎。

滇ICP备17007003号-1 站点地图
Copyright ©2025 轻松科技.All Rights Reserved