蚂蚁团体开源 Ming-Flash-Omni 2.0
2026-02-11 21:13:11
AIPress.com.cn报道
2 月 11 日,蚂蚁集团正式开源发布全模态大模型 Ming-Flash-Omni 2.0。作为 Ming-Omni 系列的最新版本,该模型在视觉语言理解、语音可控生成、图像生成与编辑等核心能力上实现系统性升级,在多项公开基准测试中达到开源领先水平,部分指标超过 Gemini 2.5 Pro。
Ming-Flash-Omni 2.0 的更新重点之一在于音频生成能力。模型支持在同一音轨中同时生成语音、环境音效与音乐,并允许用户通过自然语言指令控制音色、语速、语调、音量、情绪和方言等参数。根据官方数据,模型在推理阶段实现 3.1Hz 的推理帧率,可生成分钟级音频内容。
在视觉能力方面,模型通过引入更大规模细粒度数据和难例训练策略,提升对复杂对象和长尾类别的识别能力。图像生成与编辑功能也进行了优化,支持光影调整、场景替换、人物姿态修改等操作,并强调在复杂或动态场景中的稳定性。
架构上,Ming-Flash-Omni 2.0 基于 Ling-2.0(MoE,100B-A6B)架构训练。官方表示,该版本在更大规模数据和系统化训练优化基础上,对多模态理解与生成能力进行了统一整合。
近年来,多模态大模型逐步向统一架构方向发展,但在实际应用中,模型往往难以同时兼顾通用性与单项能力表现。蚂蚁方面表示,Ming-Omni 系列经过多代迭代,从构建统一多模态能力底座,到扩大规模与训练优化,再到 2.0 版本强化单项能力表现,逐步提升综合性能。
百灵模型负责人周俊表示,全模态技术的关键在于统一架构下的能力融合与调用效率。开源后,开发者可在同一框架下调用视觉、语音与生成能力,减少多模型串联带来的工程复杂度。
目前,Ming-Flash-Omni 2.0 的模型权重与推理代码已在 Hugging Face 等开源社区发布,用户也可通过蚂蚁百灵平台 Ling Studio 进行在线体验。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19