首页 > 资讯百科 > 小米MiMo发布HySparse架构：以夹杂稀少设计破解Agent超长文本处置困难

小米MiMo发布HySparse架构：以夹杂稀少设计破解Agent超长文本处置困难

2026-02-07 17:56:24

在人工智能Agent模型迅猛发展的当下，如何高效处理超长文本成为行业核心挑战。这些模型不仅需要精准检索长上下文中的关键信息，还要在多轮推理中保持高速响应，计算成本与效率的平衡成为技术突破的关键方向。针对这一痛点，小米MiMo团队近日推出HySparse混合稀疏注意力架构，通过创新设计实现了性能与效率的双重优化。

该架构采用"极少量全注意力层+多层稀疏注意力层"的组合模式，在800亿参数规模的MoE模型实验中，仅保留5层全注意力层即可维持模型性能，同时将KV缓存存储需求压缩至原来的1/11。这种设计突破了传统密集注意力机制对计算资源的依赖，在RULER长文测试中，即使大幅减少全注意力层数量，模型仍能稳定捕捉长距离依赖关系，展现出混合结构的独特优势。

技术实现层面，HySparse引入hybrid block模块化设计，每个模块由1层全注意力层与N层稀疏注意力层构成。其核心创新在于稀疏层不再独立计算token重要性，而是直接复用全注意力层生成的KV缓存和关键token索引。这种设计充分利用了全注意力层在计算过程中自然产生的中间结果，避免了重复计算带来的资源消耗，在保持性能的同时显著降低了内存占用。

相较于前代Hybrid SWA结构，新架构通过引入全局token信息补充机制，进一步优化了注意力分布。实验数据显示，在70亿参数密集模型和800亿参数混合专家模型上，HySparse均带来可观测的性能提升。特别是在处理超长序列时，其稀疏层通过共享全注意力层的关键信息，既保证了重要上下文的完整保留，又通过稀疏计算降低了整体开销。

该技术的突破为Agent应用落地提供了重要支撑。在需要实时处理海量文本的场景中，HySparse架构既能满足模型对长上下文的理解需求，又能通过降低计算复杂度提升响应速度。研究团队透露，后续将探索在更大规模模型上验证架构极限，并尝试进一步减少全注意力层数量，推动超长文本处理效率迈向新台阶。

小米MiMo发布HySparse架构