比起模型本身的升级,这次更像一次「产品收束」。


作者|张勇毅

去年,Nano Banana 刚出圈的时候,我身边不少做平面内容的朋友第一反应是:终于不用再开 Photoshop 改那些破海报了。

但兴奋劲过去之后,大家发现一个尴尬的事 —— 模型是好模型,可每次要用的时候还得专门跑去找入口、调参数: 当然,最重要的体验是你还得 等半天。这个情况在 Nano Banana Pro 发布之后,反而更加严重。

换言之,它更像一个「偶尔惊艳你一下」的玩具,而不是随手就能用的工具。 对于真正拿 Nano Banana 尝试创作的用户来讲,也当然需要一款既好用又便宜的版本,来支撑“量大管饱”的需求。

这也是为什么 Nano Banana 2 备受关注的原因: 2 月 26 日,Google DeepMind 发布了 Nano Banana 2(官方也称 Gemini 3.1 Flash Image)。


实际上,在全球网友已经玩了两个小时之后,谷歌官方的公告才姗姗来迟,宣布了 Nano Nano 2 的正式到来。

表面看是一次模型升级,但我觉得更准确的说法是:Google 想让图像生成从「你得专门去找它」变成「 量大管饱的创作者工具 」。

01

三件事,Google 往前推了一步

先说能力层面。Nano Banana 2 确实在几个老大难问题上有了进展。

第一件:画图的时候,模型终于「懂点时事儿」了。

Google 把 Gemini 的现实世界知识库和实时搜索信息接入了生成过程。Nano Banana 2 可以利用 Gemini 模型丰富的全球知识,通过网络搜索图像来创建增强的视觉效果。

听起来有点抽象,翻译成人话就是——你让它画一张信息图,它知道数据长什么样;你让它画东京塔,它不会画成埃菲尔铁塔。这对做信息图、数据可视化、或者任何需要「画得对」而非「画得美」的场景,算是实质性改善。

第二件:图里的字,终于能看清了。 这事听起来很基础,但在很多商业场景里,文字渲染比画风重要十倍。营销海报、活动主视觉、UI 原型、门店指示牌——字一糊,整张图就废了。

在接入 Gemini 模型实现网络搜索图像之后,你可以实时地获取世界各地的实时信息来辅助内容生成,比如获取位置以及实时天气数据,来创建逼真的窗户景色。

如果你在 Nano Banana V1 时代就一直在使用它的话,你可能会记得文字渲染一直是个老大难的问题。

这一次,谷歌也终于将其作为一个重要升级项目进行了加强。

Nano Banana 2 强调的「清晰可读的文本生成」,加上支持图内翻译和本地化,直接把「出一张可用物料」的可用性与链路缩短了一大截。


对做出海业务的团队来说,这可能比任何风格升级都实在。 谷歌为了展示这种能力,自己还做了一个 demo:它可以直接将广告翻译成各种不同的语言以适应国际市场,以此来炫耀 Nano Banana 2 通过图像内功能理解本地化视觉元素的能力。

第三件:角色和物体的一致性,开始够用了。 同一工作流里最多维持 5 个角色相貌一致、14 个物体外观一致;分辨率覆盖 512px 到 4K,画幅可控。对做分镜、做连续故事、做系列化物料的人来说,这类能力的价值远大于「多一种风格」。

说句实话,单看这些能力点,Nano Banana 2 并没有做出让人「哇」一声的突破。每一项都是在已有方向上往前拱了一步。

但这次更新真正有意思的地方,不在能力本身。

02

比起「画得更好」,Google 这次更在意「铺得更广」

Nano Banana 2 被塞进了几乎所有你能想到的 Google 产品入口里。

在 Gemini 里,它会替换掉 Fast / Thinking / Pro 模式下原来的 Nano Banana Pro。


如果你是 Google AI Pro / Ultra 订阅用户,仍然能通过图片的三点菜单调用 Nano Banana Pro 做更精细的任务——但默认出图能力,已经换代了。

在 Search 里,它进入了 AI Mode 和 Lens,覆盖 141 个新增国家与地区、额外 8 种语言。在 Flow 里,它直接成为默认图像模型,对所有用户零 credits。在 Google Ads 里,它变成创建广告活动时的「建议能力」。

这套动作连起来看,逻辑很清晰:Google 的判断是,图像生成的真正战场不在模型榜单上,而在入口里、在工作流里、在用户「顺手就用了」的那个瞬间。

怎么理解这件事?打个比方:过去的 AI 画图工具更像一家「需要专程跑去的独立画廊」,手艺不错,但你得特地安排时间。Google 现在做的事情,是把画廊变成超市里的文具货架——你来买菜的时候顺手就拿了。


这也解释了为什么 Nano Banana 2 选择了 Flash 速度档而不是 Pro 档作为主力铺设版本:毕竟在追求规模、速度和分发密度上,在这个阶段比极致质量更重要。

03

给创作者的信号:图像模型正在变成「可配置的渲染引擎」

面向开发者/创作者的版本里,还有几个细节值得注意。

Nano Banana 2 新增了 4:1、1:4、8:1、1:8 等超宽幅画幅比例,以及 512px 的低分辨率档。


后者目标很明确:降延迟,适配高并发和快速迭代。它还提供了「可配置的 thinking levels」,分 Minimal(默认)和 High/Dynamic 两档,让开发者在速度与推理强度之间自己拨杆。

如果为了追求极致效果,你当然可以去生成 4K 画质。你甚至可以按照自己的需求、喜好和风格,为自己定制壁纸。


当一个图像模型开始提供分辨率挡位、画幅参数、推理强度拨杆的时候,它就不再是一个「创意工具」,而是一个「渲染引擎」了。 这对两类产品形态会产生直接影响:面向普通用户的模板化出图工具,和面向企业的批量生产系统。

过去靠「套壳 + 流程胶水」建立壁垒的图像工具,接下来的日子可能不太好过。当底层模型自己就能输出结构化、可预测的结果,中间层的价值会被压缩。

另一件事也值得提:Google 在这次发布中继续强化了生成内容的可验证链路——SynthID 水印加 C2PA Content Credentials 的组合。官方透露 Gemini App 里的 SynthID 验证功能已被使用超过 2000 万次。生成式视觉越逼真,验证机制就越得前置,这是一个行业性的基础设施问题,Google 在把它当标配来做。

回到开头的那个问题:图像生成模型的竞争,到底由什么决定?

从 Reuters 此前对 Nano Banana 出圈的报道来看,它确实在短时间内给 Gemini 带来了大量新用户和海量生成量。但「爆款」这种事,偶发性太强。

Nano Banana 2 想做的,恰恰是把偶发性变成确定性:更快、更可控、更容易被调用,铺进尽可能多的产品入口里。它不一定是画得最好的那个模型,但它可能是你「最先碰到」的那个。

在 AI 产品的竞争里,这往往比「最好」更管用。

*头图来源:Google DeepMind

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待?

Sam Altman:训练一个人需要 20 年,不如训练一次 AI 划算。

点赞关注极客公园视频号,