DeepSeek结合清北推出DualPath,为智能体开展按下“加快键”
2026-03-02 17:27:51
当下,AI发展重心正从“大模型”向“智能体”转变。大模型时代,交互模式相对简单,用户输入提示词,模型经过思考给出答案。而智能体时代,交互变得复杂多样,不仅有人机交互,还有机机交互。模型不仅要理解用户话语,还需自主调用浏览器、代码解释器等工具与外部环境互动,交互次数从几次激增至几十次甚至上百次。在此过程中,智能体每次调用工具产生的输入输出虽短,可能仅几百个token,但随着交互轮次增加,上下文会不断累积,最终形成几十万token的庞大数据。
这种多轮次、长上下文、短追加的智能体任务模式,带来了新的问题。对于Transformer架构的模型而言,在处理新任务时,大部分所需上下文已在之前交互中计算过,可直接读取缓存,即KV-Cache。KV-Cache命中率常高达95%以上,其作用如同人追剧时记住前面剧情,无需重复观看就能理解新剧情。然而,强大的GPU处理几百个token的新交互可能不到1毫秒,但获取几十万token的KV-Cache数据却需较长时间,就像大厨炒菜只需1秒,助手买菜却要10秒。这使得智能体推理的最大瓶颈从算力转变为KV-Cache数据的输入输出速度。
为提升推理性能,业内普遍采用“预填充-解码分离”(PD分离)架构。该架构将GPU集群分为预填充引擎和解码引擎两部分。预填充引擎负责处理海量输入文本,是计算密集型任务,擅长批量处理;解码引擎负责逐字生成回答,对延迟敏感,但受内存限制。在这种架构下,预填充引擎需不断从外部存储加载海量KV-Cache数据,其存储网卡常处于过饱和状态,而解码引擎的存储网卡大部分时间却闲置,导致高性能芯片集群硬件资源闲置,造成极大浪费。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19