蚂蚁团体开源Ming-Flash-Omni 2.0:全模态打破,开启多模态应用新篇章
2026-02-11 16:23:58
蚂蚁集团近日宣布,其自主研发的最新一代全模态大模型Ming-Flash-Omni 2.0正式面向全球开发者开源。该模型在视觉语言理解、语音合成控制及图像生成编辑等关键技术领域取得突破性进展,多项性能指标已达到国际领先水平,部分测试结果甚至超越了当前主流的Gemini 2.5 Pro模型。
作为全球首个实现全场景音频统一生成的技术方案,Ming-Flash-Omni 2.0突破了传统模型在语音、音效、音乐分离处理的局限。通过创新的单音轨多元素融合技术,该模型可同步生成包含人声对话、环境音效和背景音乐的完整音频流。用户通过自然语言指令即可精准控制音色特征、语速节奏、情感表达等20余种参数,甚至支持方言语音的定制化生成。
在计算效率方面,研发团队通过架构优化将模型推理帧率降至3.1Hz,在保持48kHz高采样率音频生成质量的同时,实现分钟级长音频的实时输出。这种高效能设计使模型在移动端设备部署时的计算资源消耗降低40%,响应速度提升3倍,为边缘计算场景下的多模态应用开发提供了技术保障。
该模型的开源标志着蚂蚁集团在全模态人工智能领域的技术积累进入新阶段。自2018年启动Ming-Omni系列研发以来,团队已完成三次重大迭代升级。此次开源的2.0版本将核心算法框架、训练数据集和部署工具链整体开放,开发者可通过蚂蚁百灵平台Ling Studio直接调用模型能力,或基于开源代码进行二次开发,这为智能客服、数字人、内容创作等领域的端到端应用开发提供了标准化解决方案。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19