蚂蚁团体开源全模态大模子Ming-flash-omni 2.0,多模态才能再晋级助力开辟者
2026-02-11 17:39:40
蚂蚁集团近日宣布,其自主研发的全模态大模型Ming-flash-omni 2.0正式面向全球开源。作为Ming-Omni系列的重要升级版本,该模型在视觉语言理解、语音生成控制、图像生成与编辑等核心领域实现突破性进展,多项性能指标在开源模型中位居前列,部分能力甚至超越行业标杆Gemini 2.5 Pro。
在音频生成领域,Ming-flash-omni 2.0展现出显著技术优势。模型支持单音轨同步生成语音、环境音效与背景音乐,用户可通过自然语言指令精准调控音色、语速、语调、音量、情绪表达及方言特征等参数。据实测数据显示,模型推理帧率达3.1Hz,可高效生成分钟级长音频内容,为有声内容创作提供全新解决方案。
视觉能力方面,研发团队通过引入海量细粒度标注数据和针对性训练策略,显著提升模型对复杂场景及长尾类别的识别精度。图像生成与编辑模块经过优化后,支持光影效果调整、场景元素替换、人物姿态修正等高级操作,特别强化了在动态场景下的生成稳定性,为影视制作、数字内容创作等领域提供强大工具支持。
该模型采用基于Ling-2.0架构的混合专家模型(MoE)设计,参数规模达1000亿级,其中激活参数60亿。通过系统化训练优化,模型实现了多模态理解与生成能力的有机整合,在保持架构统一性的同时,有效解决了通用性与专业性难以兼顾的行业难题。经过多代迭代,Ming-Omni系列已形成从基础能力构建到专项能力强化的完整技术路线。
蚂蚁百灵模型团队负责人周俊指出,全模态技术的核心挑战在于实现不同模态能力的有机融合与高效调用。此次开源的2.0版本通过统一架构设计,使开发者能够在单一框架内协同调用视觉、语音、生成等多种能力,大幅降低多模型集成带来的技术复杂度与开发成本。
目前,Ming-flash-omni 2.0的完整模型权重及推理代码已在Hugging Face等主流开源平台发布,开发者可自由下载使用。同时,蚂蚁集团通过百灵平台Ling Studio提供在线体验入口,用户无需本地部署即可直接测试模型各项功能,加速技术创新成果的转化应用。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19