蚂蚁团体开源全模态大模子Ming-Flash-Omni 2.0 多项才能晋级达开源抢先水平
2026-02-11 17:32:57
蚂蚁集团近日宣布,正式开源其全模态大模型Ming-Flash-Omni的2.0版本。作为Ming-Omni系列的最新迭代,该模型在视觉语言理解、语音生成控制以及图像生成与编辑等核心领域实现了显著提升,多项公开基准测试结果显示其性能已达到开源模型中的领先水平,部分指标甚至超越了Gemini 2.5 Pro。
在音频生成能力方面,Ming-Flash-Omni 2.0展现了强大的创新实力。模型支持在单一音轨中同步生成语音、环境音效和音乐,用户可通过自然语言指令灵活调整音色、语速、语调、音量、情绪以及方言等参数。官方数据显示,该模型在推理阶段可达到3.1Hz的帧率,能够高效生成长达数分钟的音频内容。
视觉能力的升级同样是此次更新的重点。通过引入更大规模的细粒度数据和难例训练策略,模型显著增强了对复杂对象和长尾类别的识别能力。图像生成与编辑功能也得到优化,支持光影调整、场景替换、人物姿态修改等操作,并在复杂或动态场景中保持了更高的稳定性。
从架构层面看,Ming-Flash-Omni 2.0基于Ling-2.0(MoE,100B-A6B)架构进行训练。官方介绍称,该版本在更大规模数据和系统化训练优化的基础上,实现了多模态理解与生成能力的统一整合,为模型性能的提升奠定了坚实基础。
近年来,多模态大模型逐渐向统一架构方向发展,但实际应用中往往面临通用性与单项能力难以兼顾的挑战。蚂蚁集团表示,Ming-Omni系列经过多代迭代,从构建统一多模态能力底座,到扩大规模与训练优化,再到2.0版本强化单项能力表现,逐步实现了综合性能的全面提升。
百灵模型负责人周俊指出,全模态技术的核心在于统一架构下的能力融合与调用效率。此次开源后,开发者可在同一框架下调用视觉、语音与生成能力,有效降低了多模型串联带来的工程复杂度,为实际应用提供了更大便利。
目前,Ming-Flash-Omni 2.0的模型权重与推理代码已在Hugging Face等开源社区发布,用户还可通过蚂蚁百灵平台Ling Studio进行在线体验,进一步探索模型的多样化应用场景。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19