首页 > 深度解读 > GPT-5.4来袭：原生操控电脑才能晋级,多维度打破重塑AI任务助手新体验

GPT-5.4来袭：原生操控电脑才能晋级,多维度打破重塑AI任务助手新体验

2026-03-06 17:32:17

OpenAI 近日正式推出新一代大模型 GPT-5.4，这款被定位为“专业领域最强前沿模型”的产品，在上下文处理能力、推理性能及多模态交互方面实现突破性升级。该模型不仅支持单次处理百万级 token 的超长文本，更首次集成原生计算机操控功能，标志着通用人工智能向复杂任务自动化迈出关键一步。

在核心参数方面，GPT-5.4 将上下文窗口扩展至 100 万 token，较前代提升近 4 倍。不过当输入超过 27.2 万 token 时，费用将按阶梯式计费——输入价格翻倍至每百万 token 5 美元，输出成本增加 50%。尽管基础输入单价较 GPT-5.2 上涨 43%，OpenAI 强调模型效率提升使实际使用成本可能不升反降，其 Pro 版本定价甚至高于 Anthropic 同级别产品 Claude Opus 4.6。

性能测试数据显示显著进步：在 OSWorld-Verified 基准测试中，该模型以 75% 的成功率超越人类专家 72.4% 的表现；电子表格建模任务准确率从 68.4% 跃升至 87.3%；BrowseComp 网页信息检索能力提升 17 个百分点，Pro 版本达 89.3%。更引人注目的是其原生计算机操控能力，通过 Playwright 库或屏幕截图指令，模型可自主完成“构建-运行-验证-修复”的完整工作流，在演示中仅凭单条提示词即生成包含路径规划、设施建造的乐园模拟游戏。

针对开发者痛点，新引入的 Tool Search 机制实现工具检索动态化。模型仅需加载轻量级工具列表，使用时再实时调取完整定义，在 MCP Atlas 基准测试中使 token 消耗降低 47%，同时保持准确率。这项优化使构建大型智能体系统的成本显著下降，响应速度提升 30% 以上。

金融行业成为首批重点应用场景。配套发布的 ChatGPT for Excel 测试版，可直接嵌入电子表格完成复杂财务模型构建与分析。通过与 FactSet、MSCI 等数据服务商的深度集成，模型可自动化执行盈利预览、DCF 分析等标准化任务。内部测试显示，其在投资银行基准测试中的表现从 43.7% 飙升至 88%，较前代提升近一倍。

尽管整体性能提升显著，模型仍存在特定领域短板。在 HealthBench 医疗评测中得分 62.6%，较前代下降 0.7 个百分点；平均回复长度增加 24% 虽提升信息密度，但也可能导致冗余。早期测试者指出，其前端设计能力弱于 Claude Opus 4.6，且在现实场景理解方面偶发失误，如规划旅行时推荐热门景点导致体验下降。

该模型采用差异化授权策略：标准版 GPT-5.4 Thinking 面向 Plus 用户开放，Pro 版本仅限月费 200 美元的 ChatGPT Pro 和 Enterprise 订阅者使用。免费用户仅在系统自动路由时可能体验基础功能。OpenAI 表示，此次升级标志着 AI 从单一任务处理向跨应用工作流管理的范式转变，为智能体框架提供更强大的底层引擎。