(文/陈济深 编辑/张广凯)
3月5日,OpenAI发布了能力"N合1"的统一模型GPT-5.4。
OpenAI本次发布的重点非常明确:把AI从聊天助手,进一步推向真正能交付专业工作的系统。除了GPT-5.4,OpenAI还推出了GPT-5.4 Pro,以及面向金融和表格工作流的ChatGPT for Excel和多家金融数据集成。
这意味着,相比传统发布强调的更大参数,更强智能,GPT-5.4主推是一项更具体的能力变化:AI可以自己操作电脑。
OpenAI在官方博客里称,GPT-5.4是他们发布的首个具备原生computer use能力的通用模型,定位是"面向专业工作的最强前沿模型"。
但"让AI替你干活"这个方向,美国AI不仅没有遥遥领先,OpenAI甚至是抓紧补课的那个存在。
2025年9月,月之暗面的Kimi就上线了OK Computer功能。它的思路和GPT-5.4不完全一样——GPT-5.4走的是"像人一样操作你的电脑桌面",通过截图和模拟鼠标键盘来控制现有软件;Kimi走的是"给AI配一台自己的虚拟电脑",让它在沙盒环境里调度20多种原生工具,自主拆解任务、写代码、搭网站、做数据分析,最后把成品交给用户。
路径不同,但指向同一个行业共识:AI的竞争维度正在从"谁更聪明"转向"谁能真正替你干活"。而在这个方向上,Kimi比GPT-5.4早了近半年。
而且即便在GPT-5.4最引以为傲的桌面操控赛道上,在GPT-5.4发布前,OS-World排行榜的冠军正是Kimi K2.5,得分63.3%,领先Claude Sonnet 4.5的62.9%。
把GPT-5.4的整张能力清单摊开,无论从编程、Office文档生产力到超长文本处理,中国AI企业不但早已完成了相应的产品布局,而且在多个方向上已经站到了行业前沿。
中国AI不再当追随者
GPT-5.4本次发布着力强调它的编程和软件工程能力。OpenAI称它不只是写代码片段,而是能完成完整的软件项目——从系统设计到调试到测试。
从行业发展来看,AI编程确实正在从"辅助写代码"升级为"独立完成工程"。而中国AI企业们对这个趋势的判断并不晚于OpenAI,在功能实现上也毫不逊色。
智谱今年2月发布GLM-5时,核心定位就是"智能体工程"——不再只是帮程序员补全代码,而是让AI像一个系统架构师一样,自主拆解需求、规划结构、编写和调试完整项目。
值得注意的是,GLM-5发布前还曾以"Pony Alpha"的匿名身份在海外开发者平台OpenRouter上线,直接登顶热度榜首,很多海外开发者对其赞不绝口,认为这可能是美国某家头部公司的模型,直到官宣后才知道这是一个中国开源模型,这也意味着中国AI的实际能力在盲测中也取得了行业领先的口碑。
而GPT-5.4的另一个重点是Office文档生产力。OpenAI同步发布了ChatGPT for Excel插件,还接入了FactSet、标普全球等金融数据源,让用户可以在ChatGPT里直接做财务建模和情景分析。在OpenAI内部的一组模拟投行初级分析师工作的基准测试中,GPT-5.4的平均分达到87.3%。
在这个赛道上,中国AI早已各显神通。
智谱的GLM-5已经内置了直接输出Word、PDF、Excel文件的能力,配合同步推出的ZCode开发环境,用户用自然语言描述需求,模型就能自动拆解任务并调度多个智能体协同完成——从研究报告到财务表格到演示文稿。
MiniMax的M2.5把Office能力做成了标准化的技能模块,能根据文件类型自动加载,还能和金融建模等行业SOP结合。
Kimi则在K2.5模型发布时同步推出了"精通Office"功能升级,让Kimi Agent掌握了Word智能排版、Excel数据分析与金融建模、PPT自动生成、PDF视觉设计等中高阶技能,直接交付准专业水平的办公文档。三条技术路径不同,但方向完全一致:AI不只是帮你想,还要帮你把文件做出来。
至于100万token的超长上下文窗口,DeepSeek、GLM-5、Qwen3.5都已经支持。
这也意味着,中国AI企业们早在OpenAI之前就已经实现了不止帮你想,AI还要帮你做的技术规划并实现了产品落地。
从"更便宜"到"更早"
把GPT-5.4的能力清单和中国公司的产品线摆在一起,会发现一件事:中国AI在全球竞争中的位置,正在发生第二次跃迁。
第一次跃迁发生在2025年。以DeepSeek为代表的中国开源模型的崛起,Kimi、千问、智谱等中国模型凭借性价比+头部模型性能大规模渗透进硅谷的开发者生态。
Airbnb的CEO公开表示公司"在很大程度上依赖阿里巴巴的Qwen",硅谷顶级投资人查马斯则透露已将大量工作负载从OpenAI和Anthropic迁移到了Kimi K2。
今年2月,这个趋势已经有了一个标志性的数据节点:在全球最大的大模型API聚合平台OpenRouter上,中国模型的单月Token调用量历史上首次超过美国模型——其中智谱GLM-5、MiniMax M2.5、月之暗面Kimi K2.5、DeepSeek V3.2分居调用榜前列。
如果说当时的叙事核心在于中国AI"更好更便宜",那GPT-5.4的发布暴露出的信号,已经超出了"性价比"的范畴。
这一次,不是中国模型能用更低的价格做到美国模型能做的事,而是中国公司在技术思路和产品方向上,走到了和OpenAI同一个甚至更前的位置。
Kimi在"AI自主完成任务"方向上比GPT-5.4早近半年布局,智谱对"智能体工程"的判断比GPT-5.4早近一个月落地发布,MiniMax在Office生产力和编程工程化方向上的布局也完全独立于OpenAI的节奏。
科技行业长期存在一种刻板印象叫"Copy to China"——美国做什么,中国跟着做什么。但在AI这个领域,这个叙事已经失效了。
GPT-5.4这次发布的直接背景是OpenAI需要追赶Anthropic的Claude——过去大半年里,Claude在computer use、代码工程、文档处理上持续加码,一系列更新直接冲击了传统SaaS软件的地盘,把"AI能不能替你干活"变成了行业最核心的竞争维度。
GPT-5.4主打的每一项能力,几乎都是在补Claude已经建立起来的产品优势。而中国公司在这同一个方向上的布局,不是在等美国公司打完之后再入场,而是独立走到了同一个路口。
无论这背后是更早意识到了行业方向,还是更早完成了研发落地,至少有一点可以确认:在AI行业,方向不再是硅谷单方面定义的了。
当闭源做到的事开源也能做到
如果说能力层面是"并跑",那接下来的问题就变得尖锐:GPT-5.4是闭源的,而上述中国模型几乎全部开放了模型权重。
闭源模型的溢价逻辑,本质上建立在"我能做到你做不到的事"之上——只要能力是独占的,定价权就是成立的。
但当开源模型在编程、文档生产力、长文本处理等核心维度上逐项追平甚至局部超越,这个逻辑就开始松动了。
这有点像智能手机行业的苹果和安卓:苹果依然可以卖出溢价,但它的溢价来源已经从"独占能力"转向了"生态和品牌",而它面对的不再是一个追赶者,而是一整个阵营。
GPT-5.4的处境正在变得类似。它仍然是一个优秀的产品,但它的定价已经很难再用"独占能力"来支撑了。
GPT-5.4的API定价是每百万输入token 2.5美元、输出15美元。GPT-5.4 Pro更贵,输入30美元、输出180美元。
MiniMax M2.5呢?输入0.3美元,输出2.4美元。连续运行一小时的成本大约是1美元。Qwen3.5的API价格大约是同等性能的谷歌Gemini 3 Pro的十八分之一。
而且MiniMax M2.5、智谱GLM-5、月之暗面Kimi K2.5、阿里Qwen3.5,全部开放了模型权重。由于开发者需求过于旺盛,智谱甚至在发布当天就宣布了编程方案涨价,涨幅超过30%——一个开源模型因为太多人抢着用而涨价,这个场景本身就说明了一些问题。
同一水平线上的能力,中国模型的价格是OpenAI的几分之一到十几分之一,而且还是开放权重的。这个事实可能比任何一项性能指标都更值得被关注。
美国AI的护城河在哪?
当然,GPT-5.4也有中国模型短期内做不到的东西,而且恰恰不在技术本身。
它同步接入了FactSet、道琼斯Factiva、LSEG、标普全球等西方主流金融数据源,让华尔街的分析师可以在一个工作流里完成数据获取、建模和输出。法律AI公司Harvey称GPT-5.4在其BigLaw Bench上拿到91%的成绩,在处理复杂交易分析和长合同时表现最优。再加上ChatGPT在全球消费市场积累的品牌认知和用户基础,这些生态层面的优势不是模型性能追上就能解决的。
值得注意的是,GPT-5.4在性能上也有突破,它在OS-World上75.0%的得分超越了人类基准的72.4%,在SWE-Bench Pro上拿到57.7%,在OpenAI内部投行基准上从GPT-5的43.7%飙升到87.3%。在桌面操控这条特定赛道上,GPT-5.4确实把天花板往上推了一大截。
但反过来,中国AI公司也拥有OpenAI难以复制的东西:一个春节期间五六家公司同时发布旗舰模型的产业密度,一个以极低成本向全球开发者开放的开源生态,以及在OpenRouter等开发者平台中快速积累的海外用户基本盘。
曾经是行业标杆的OpenAI,这次发布的产品方向与中国公司高度重合。这件事本身就是一个信号:中美AI的位置关系,已经不是"领跑者和追赶者"那么简单了。