首页 > 深度解读 > 国科微倪亚宇：聚焦端侧智能,以创新NPU与工具链赋能多元场景

国科微倪亚宇：聚焦端侧智能,以创新NPU与工具链赋能多元场景

2026-04-03 11:42:53

在近期举办的“边缘AI与算力芯片”垂直技术论坛上，国科微AI算法部部长倪亚宇以《FlashAttention-4：新一代大模型推理NPU流水线范式设计》为题发表演讲，深入探讨了大模型端侧部署的技术挑战与突破方向。随着Transformer架构与大型语言模型在产业端的加速渗透，推理效率、内存带宽及系统功耗已成为制约端侧应用的核心瓶颈，而注意力机制的高效实现成为芯片架构优化的关键突破口。

倪亚宇指出，国科微正聚焦FlashAttention等前沿算法在NPU平台的落地应用，通过架构创新与工具链优化，构建适配端侧量产需求的计算解决方案。该技术可显著提升自动驾驶、边缘计算、智能终端及AIGC等场景的算力能效比，为大规模商业化部署提供支撑。当前，NPU部署“满血版”FlashAttention仍面临向量单元算力不足、异步流水调度效率低等挑战，需从计算流水线、数据复用机制及系统带宽协同设计三方面突破。

作为斯坦福大学于2022年提出的创新算法，FlashAttention通过分块计算、在线Softmax及异步流水等技术，将中间计算结果保留在片上缓存，大幅降低外部存储访问压力。其4.0版本在并行性、长序列支持及低精度计算能力上实现显著提升，但与GPU相比，NPU在动态调度、超长上下文处理等方面仍存在差距。国科微提出，需通过计算单元与存储系统的深度协同设计，才能充分发挥该算法的潜力。

在硬件架构层面，国科微自2020年起持续迭代NPU技术，已形成从1.0到4.0的完整演进路线。其最新GKNPU 4.0架构采用增强型脉动阵列设计，针对性强化矩阵与向量计算能力，通过压缩数据搬运路径、优化流水线开销，显著提升片上闭环计算效率。该架构可有效应对大模型推理中的带宽瓶颈、激活值碎片化及内存压力问题，目前已在AI视觉与车载芯片领域实现0.5T至8T算力的规模化应用。

工具链的升级是推动NPU落地的另一重要维度。国科微新一代GKToolchain 3.0聚焦端侧异构算力场景，通过硬件感知编译、自动分块及异步数据读写优化，实现模型部署从“可适配”到“高效率、可规模化”的跨越。该工具链还引入动态内存管理与投机推理加速技术，强化对长上下文及复杂推理流程的支持，帮助客户快速完成从模型训练到芯片部署的全链路闭环。

随着AI应用重心从训练侧向推理侧转移，产业对算力平台的需求正从“追求峰值性能”转向“兼顾能效与可量产性”。NPU凭借其成本与功耗优势，在端侧规模化部署中展现出独特价值。国科微表示，将持续推进算法与硬件的协同创新，围绕大模型推理的核心痛点优化NPU架构与工具链体系，为行业提供更具竞争力的端侧智能计算解决方案。

国科微倪亚宇