谷歌偷搞了一个神秘模型 Nano-Banana？实测：强到离谱，但有 3 大硬伤

近日，AI 社区又冒出了一个神秘的图像生成和编辑模型，名叫 Nano-Banana（纳米香蕉）。它在 LMArena 平台的 “Battle” 模式中被发现，但未在公开排行榜上列出，也没有官方开发者明确声明其所有权。很多网友都追踪着蛛丝马迹，猜测这可能是谷歌的研究模型。

周二，谷歌 AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。谷歌 DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。再加上谷歌过去曾将其较小的模型称为 “Nano”，以及其生成的图像与 Google 的 Imagen 或 Gemini 系列相似。以上种种，似乎都在暗示它出自谷歌之手。

该模型不仅在文本编辑、风格融合和场景理解等方面表现更优，还可以上传两张图片、输入提示词将其中的元素融合。例如，上传一摞书和卧室床头柜的图片，输入提示词 “将一摞书翻到直立并放在两个书挡之间的桌子上。” 它能准确理解复杂的文本提示，将横放的三本书立起来，并加上书挡放到柜子上。棒球帽上有复杂的文字和图案，纳米香蕉编辑后的图片保留了帽子上的所有细节，同时光线、视角和构图也能保持一致。在产品照片、场景搭建图、广告等商业场景下，Nano-Banana 的表现也稳定得不错。

当然，它也不是完美无缺的，在某些情况下，Nano-Banana 生成的图像可能会出现机器人、提示逻辑或瞄准位置不一致等视觉问题，人物的手指也偶尔会出现变形的情况。

由于没有官方 API 或网站，人们只能在 LMArena 上通过随机盲测的方式使用 Nano-Banana。更离谱的是，现在网上已经出现了大量假冒 Nano-Banana 的网站，让人防不胜防。

神秘的 Nano-Banana 到底有多强

Nano-Banana 之所以能在短时间内引发广泛关注，自然有其过人之处。在图像生成方面，它展现出了极高的水准。当输入一些较为复杂的提示词，如 “在一个充满未来科技感的城市街道，天空中飞翔着发光的汽车，街边有机器人在售卖奇异的水果”，Nano-Banana 能够迅速理解这些描述，并生成令人惊叹的图像。画面中，城市的建筑风格独特，充满了未来感的线条和光影效果，发光的汽车在天空中有序地飞行，而街边的机器人形象也栩栩如生，手中拿着的奇异水果色彩鲜艳、细节丰富。与其他同类模型相比，Nano-Banana 生成的图像在细节的丰富度和场景的合理性上更胜一筹。一些模型可能在生成复杂场景时会出现物体比例失调、光影逻辑混乱等问题，而 Nano-Banana 却能很好地避免这些情况。

其图像编辑功能更是令人眼前一亮。比如上传一张人物在海边度假的照片，输入提示词 “将人物的泳衣颜色换成红色，在背景中添加几只飞翔的海鸥”，Nano-Banana 能够精准地完成这些编辑操作。不仅人物的泳衣颜色被自然地替换成了鲜艳的红色，而且海鸥在背景中的融入也毫无违和感，它们的飞行姿态、光影效果都与整个画面完美匹配，就像是原本照片中就存在这些元素一样。在一些需要对图片进行精细编辑的场景，如电商产品图的制作，Nano-Banana 的优势就更加明显。以往可能需要专业设计师花费大量时间进行修图，现在通过 Nano-Banana，只需简单的提示词，就能快速得到高质量的编辑后的图片，大大提高了工作效率。

独家实测：Nano-Banana 表现如何

为了更直观地感受 Nano-Banana 的实力，我们进行了一系列实测。在文生图测试中，输入提示词 “呈现一幅复古风格的油画，画面中有一位穿着华丽礼服的女子在月光下的花园中翩翩起舞，周围的花朵散发着柔和的光芒”。Nano-Banana 生成的图像迅速且惊艳，女子的礼服质感细腻，每一处褶皱都清晰可见，月光洒在她身上的光影效果营造出了浪漫的氛围。花园中的花朵种类繁多，色彩搭配协调，散发的柔和光芒也为整个画面增添了神秘的气息。与之对比的是另一款知名的文生图模型，其生成的图像虽然也能体现出大致的场景，但在细节上明显不足。女子的礼服质感不够真实，花朵的细节也较为模糊，整体的艺术氛围也不如 Nano-Banana 生成的图像浓厚。

在图片编辑的实测中，我们上传了一张城市街景的照片，照片中有一座古老的建筑，周围是现代化的街道和车辆。输入提示词 “将古老建筑的颜色调整为黄色，在建筑前添加一个喷泉，喷泉中喷出五彩的水花”。Nano-Banana 很快就给出了编辑后的图片，古老建筑的颜色被成功调整为明亮的黄色，与周围的环境形成了鲜明的对比。建筑前的喷泉设计精美，喷出的五彩水花在阳光的照耀下显得格外绚丽，水花的动态效果也表现得十分逼真。而当我们使用另一款常用的图片编辑模型进行相同操作时，要么建筑颜色调整得不够自然，要么喷泉的添加显得十分生硬，与整个画面格格不入。

我们还进行了一些特殊场景的测试。比如上传一张科幻电影中的宇宙飞船图片，输入提示词 “给宇宙飞船添加一个新的武器系统，并且让飞船周围环绕着一些小行星带”。Nano-Banana 生成的图片中，新的武器系统与飞船的整体风格完美融合，看起来极具科技感。小行星带的分布也很合理，大小、形状各异的小行星围绕着飞船，为画面增添了更多的科幻氛围。通过这些实测可以看出，Nano-Banana 在图像生成和编辑方面确实有着强大的实力，能够满足用户多样化的需求。

强大之外：Nano-Banana 的三大硬伤

尽管 Nano-Banana 表现出了强大的能力，但它并非无懈可击，经过深入研究和测试，发现它存在三大硬伤。

首先是在复杂场景下的光影逻辑问题。当生成一些具有多个光源和复杂物体反射的场景时，Nano-Banana 有时会出现光影不一致的情况。例如在一个室内场景中，有阳光从窗户射入，同时室内还有几盏台灯亮着。Nano-Banana 生成的图像中，物体受到阳光和台灯照射后的光影效果没有得到合理的呈现，有些物体的阴影方向混乱，反射效果也不符合现实中的物理规律。这在一些对光影效果要求极高的专业场景，如影视特效制作、高端游戏场景设计等，会成为一个严重的问题，可能导致生成的图像在视觉上给人不真实的感觉。

其次，Nano-Banana 在处理一些精细文字内容时容易出现错误。比如当生成的图片中需要包含特定的文字信息，如书籍的标题、产品的标签文字等，它有时会出现文字扭曲、模糊甚至乱码的情况。在一张生成的书房图片中，书架上的书籍标题原本应该是清晰可读的，但 Nano-Banana 生成的标题文字却像是被拉伸变形了一样，难以辨认。这对于一些需要准确呈现文字信息的场景，如广告设计、教育类图片制作等，无疑是一个很大的缺陷。

最后，Nano-Banana 目前的使用体验存在很大的不稳定性。由于只能通过 LMArena 平台的随机盲测方式使用，用户很难在需要的时候及时使用到该模型。有时候用户可能需要多次尝试，花费大量的时间才能触发使用 Nano-Banana 的机会。而且在使用过程中，还可能会遇到平台卡顿、响应缓慢等问题，严重影响了用户的使用体验。这对于那些需要高效完成工作的用户来说，是一个非常头疼的问题，大大降低了 Nano-Banana 在实际应用中的可用性。

神秘的 Nano-Banana 到底有多强

独家实测：Nano-Banana 表现如何

强大之外：Nano-Banana 的三大硬伤

为您推荐

百度网盘”智能看图”插件强制篡改默认程序引众怒：国民级工具为何屡陷”默认绑架”争议？

小家电行业困局：价格战吞噬利润，创新乏力加剧”价降量滞”恶性循环

从清华辍学到挑战Meta霸权：华人创业者Brandon Chen如何用AI社交应用Intent颠覆传统通讯？

卷完镜头卷后盖，手机厂商在 “皮” 上下功夫

小红书最火白领运动，有人靠它年入大几千万

磁吸镜头会是手机影像的新答案？