谷歌Gemini3DeepThink晋级:清华学者助力,多项测试创佳绩引热议
2026-02-13 17:26:28
谷歌近日宣布完成Gemini3DeepThink模型的重大升级,这款专为科学工程领域设计的推理系统在多项基准测试中展现出突破性表现。新模型不仅在学术评测中超越现有顶尖AI系统,更在实际应用场景中展现出解决复杂问题的独特能力,引发科技界广泛关注。
在备受瞩目的"人类最后的考试"测试中,DeepThink在不借助外部工具的情况下取得48.4%的得分,较第二名ClaudeOpus4.6高出8.4个百分点,较GPT-5.2提升近14个百分点。该测试以涵盖数学、物理、化学等领域的跨学科难题著称,此前从未有模型突破45%得分线。在抽象推理基准ARC-AGI-2测试中,DeepThink以84.6%的准确率刷新纪录,较前最佳模型提升超过20个百分点,展现出强大的模式识别能力。
编程能力评测显示,DeepThink在Codeforces平台获得3455的Elo评分,跻身全球前8%顶尖程序员行列。更引人注目的是其在科学竞赛中的表现——在2025年国际物理和化学奥赛模拟笔试中,该模型达到金牌标准,验证了其在基础科学领域的深厚积累。谷歌透露,新版本特别强化了研究级数学探索能力,可支持科研人员开展前沿理论推导。
实际应用案例印证了模型的实用价值。罗格斯大学数学家LisaCarbone团队利用DeepThink审阅高能物理领域论文时,发现人工评审遗漏的逻辑漏洞,这是该模型首次在专业学术评审中展现价值。杜克大学材料科学团队借助其优化晶体生长方案,成功培育出尺寸突破100微米的薄膜材料,相关技术指标超越现有所有制备方法。在工程建模领域,DeepThink已能通过分析图纸自动生成3D打印文件,实现复杂物理系统的数字化建模。
技术突破背后是跨学科团队的协同创新。清华物理系出身的姚顺宇作为核心成员,将理论物理思维融入模型架构设计。谷歌CEO桑达尔·皮查伊特别强调,新模型通过整合科学知识体系与工程实践经验,专门针对数据不完整、标准模糊的现实挑战进行优化,这种设计理念使其区别于传统通用大模型。
行业专家对测试结果表示震惊。某AI实验室负责人指出,ARC-AGI-2测试84.6%的得分具有里程碑意义,"当AI在抽象推理任务中超越90%人类时,我们正在见证认知革命的关键转折"。前谷歌工程师评论称,发现同行评审漏洞的案例证明AI已从辅助工具进化为科研合作者,"这标志着人机协作模式进入全新阶段"。
目前DeepThink已通过Gemini应用向GoogleAIUltra订阅用户开放,同时通过GeminiAPI向特定科研机构和企业提供服务。谷歌表示,未来将持续优化模型在材料科学、生物医药等领域的专项能力,并探索与科研机构的深度合作模式。这项突破预示着AI技术正在从数据处理层面向基础科学创新领域渗透,可能引发科研方法的系统性变革。
相关阅读
-
身体这两个部位乱推拿真的会要命,快停止科技前沿 2026-03-09 14:26:16
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08