国科微倪亚宇:聚焦端侧智能,以创新NPU与工具链赋能多元场景
2026-04-03 11:42:53
在近期举办的“边缘AI与算力芯片”垂直技术论坛上,国科微AI算法部部长倪亚宇以《FlashAttention-4:新一代大模型推理NPU流水线范式设计》为题发表演讲,深入探讨了大模型端侧部署的技术挑战与突破方向。随着Transformer架构与大型语言模型在产业端的加速渗透,推理效率、内存带宽及系统功耗已成为制约端侧应用的核心瓶颈,而注意力机制的高效实现成为芯片架构优化的关键突破口。
倪亚宇指出,国科微正聚焦FlashAttention等前沿算法在NPU平台的落地应用,通过架构创新与工具链优化,构建适配端侧量产需求的计算解决方案。该技术可显著提升自动驾驶、边缘计算、智能终端及AIGC等场景的算力能效比,为大规模商业化部署提供支撑。当前,NPU部署“满血版”FlashAttention仍面临向量单元算力不足、异步流水调度效率低等挑战,需从计算流水线、数据复用机制及系统带宽协同设计三方面突破。
作为斯坦福大学于2022年提出的创新算法,FlashAttention通过分块计算、在线Softmax及异步流水等技术,将中间计算结果保留在片上缓存,大幅降低外部存储访问压力。其4.0版本在并行性、长序列支持及低精度计算能力上实现显著提升,但与GPU相比,NPU在动态调度、超长上下文处理等方面仍存在差距。国科微提出,需通过计算单元与存储系统的深度协同设计,才能充分发挥该算法的潜力。
在硬件架构层面,国科微自2020年起持续迭代NPU技术,已形成从1.0到4.0的完整演进路线。其最新GKNPU 4.0架构采用增强型脉动阵列设计,针对性强化矩阵与向量计算能力,通过压缩数据搬运路径、优化流水线开销,显著提升片上闭环计算效率。该架构可有效应对大模型推理中的带宽瓶颈、激活值碎片化及内存压力问题,目前已在AI视觉与车载芯片领域实现0.5T至8T算力的规模化应用。
工具链的升级是推动NPU落地的另一重要维度。国科微新一代GKToolchain 3.0聚焦端侧异构算力场景,通过硬件感知编译、自动分块及异步数据读写优化,实现模型部署从“可适配”到“高效率、可规模化”的跨越。该工具链还引入动态内存管理与投机推理加速技术,强化对长上下文及复杂推理流程的支持,帮助客户快速完成从模型训练到芯片部署的全链路闭环。
随着AI应用重心从训练侧向推理侧转移,产业对算力平台的需求正从“追求峰值性能”转向“兼顾能效与可量产性”。NPU凭借其成本与功耗优势,在端侧规模化部署中展现出独特价值。国科微表示,将持续推进算法与硬件的协同创新,围绕大模型推理的核心痛点优化NPU架构与工具链体系,为行业提供更具竞争力的端侧智能计算解决方案。
相关阅读
-
华硕B550、B760重炮手主板性价比超群 畅享Epic春促深度解读 2026-04-03 11:42:42
-
《生化危机》十大女角色排名:八尺夫人第6 艾达王才第3,科技前沿 2026-04-03 11:40:18
-
OPPO Find X9s Pro与X9 Ultra配色揭晓,影象新品发布会4月21日将启资讯百科 2026-04-03 11:39:08
-
华为Mate 80 Pro Max风驰版与华为畅享 90 Pro Max从新定义流利体验深度解读 2026-04-03 11:36:54
-
优必选1500万起聘具身智能首席科学家,人形机械人营业营收大增深度解读 2026-04-03 11:36:48
-
260Mbps高清无码,美国绕月将停止4K激光直播科技前沿 2026-04-03 11:34:48
-
国产品理AI新打破,ORCA Lab 1.0发布 助小我开辟者轻松练习机械人资讯百科 2026-04-03 11:32:55
-
6G关头手艺打破:从具身智能到低空经济的多场景赋能之路深度解读 2026-04-03 11:30:44
-
三星一连七年稳居全球电竞显示器市场榜首深度解读 2026-04-03 11:30:11
-
师父发现张雪没赛车先天让他造车:是你成为世界冠军的独一能够科技前沿 2026-04-03 11:29:04