近日,AI 社区又冒出了一个神秘的图像生成和编辑模型,名叫 Nano-Banana(纳米香蕉)。它在 LMArena 平台的 “Battle” 模式中被发现,但未在公开排行榜上列出,也没有官方开发者明确声明其所有权。很多网友都追踪着蛛丝马迹,猜测这可能是谷歌的研究模型。

周二,谷歌 AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。谷歌 DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。再加上谷歌过去曾将其较小的模型称为 “Nano”,以及其生成的图像与 Google 的 Imagen 或 Gemini 系列相似。以上种种,似乎都在暗示它出自谷歌之手。
该模型不仅在文本编辑、风格融合和场景理解等方面表现更优,还可以上传两张图片、输入提示词将其中的元素融合。例如,上传一摞书和卧室床头柜的图片,输入提示词 “将一摞书翻到直立并放在两个书挡之间的桌子上。” 它能准确理解复杂的文本提示,将横放的三本书立起来,并加上书挡放到柜子上。棒球帽上有复杂的文字和图案,纳米香蕉编辑后的图片保留了帽子上的所有细节,同时光线、视角和构图也能保持一致。在产品照片、场景搭建图、广告等商业场景下,Nano-Banana 的表现也稳定得不错。
当然,它也不是完美无缺的,在某些情况下,Nano-Banana 生成的图像可能会出现机器人、提示逻辑或瞄准位置不一致等视觉问题,人物的手指也偶尔会出现变形的情况。
由于没有官方 API 或网站,人们只能在 LMArena 上通过随机盲测的方式使用 Nano-Banana。更离谱的是,现在网上已经出现了大量假冒 Nano-Banana 的网站,让人防不胜防。
神秘的 Nano-Banana 到底有多强
Nano-Banana 之所以能在短时间内引发广泛关注,自然有其过人之处。在图像生成方面,它展现出了极高的水准。当输入一些较为复杂的提示词,如 “在一个充满未来科技感的城市街道,天空中飞翔着发光的汽车,街边有机器人在售卖奇异的水果”,Nano-Banana 能够迅速理解这些描述,并生成令人惊叹的图像。画面中,城市的建筑风格独特,充满了未来感的线条和光影效果,发光的汽车在天空中有序地飞行,而街边的机器人形象也栩栩如生,手中拿着的奇异水果色彩鲜艳、细节丰富。与其他同类模型相比,Nano-Banana 生成的图像在细节的丰富度和场景的合理性上更胜一筹。一些模型可能在生成复杂场景时会出现物体比例失调、光影逻辑混乱等问题,而 Nano-Banana 却能很好地避免这些情况。
其图像编辑功能更是令人眼前一亮。比如上传一张人物在海边度假的照片,输入提示词 “将人物的泳衣颜色换成红色,在背景中添加几只飞翔的海鸥”,Nano-Banana 能够精准地完成这些编辑操作。不仅人物的泳衣颜色被自然地替换成了鲜艳的红色,而且海鸥在背景中的融入也毫无违和感,它们的飞行姿态、光影效果都与整个画面完美匹配,就像是原本照片中就存在这些元素一样。在一些需要对图片进行精细编辑的场景,如电商产品图的制作,Nano-Banana 的优势就更加明显。以往可能需要专业设计师花费大量时间进行修图,现在通过 Nano-Banana,只需简单的提示词,就能快速得到高质量的编辑后的图片,大大提高了工作效率。
独家实测:Nano-Banana 表现如何
为了更直观地感受 Nano-Banana 的实力,我们进行了一系列实测。在文生图测试中,输入提示词 “呈现一幅复古风格的油画,画面中有一位穿着华丽礼服的女子在月光下的花园中翩翩起舞,周围的花朵散发着柔和的光芒”。Nano-Banana 生成的图像迅速且惊艳,女子的礼服质感细腻,每一处褶皱都清晰可见,月光洒在她身上的光影效果营造出了浪漫的氛围。花园中的花朵种类繁多,色彩搭配协调,散发的柔和光芒也为整个画面增添了神秘的气息。与之对比的是另一款知名的文生图模型,其生成的图像虽然也能体现出大致的场景,但在细节上明显不足。女子的礼服质感不够真实,花朵的细节也较为模糊,整体的艺术氛围也不如 Nano-Banana 生成的图像浓厚。
在图片编辑的实测中,我们上传了一张城市街景的照片,照片中有一座古老的建筑,周围是现代化的街道和车辆。输入提示词 “将古老建筑的颜色调整为黄色,在建筑前添加一个喷泉,喷泉中喷出五彩的水花”。Nano-Banana 很快就给出了编辑后的图片,古老建筑的颜色被成功调整为明亮的黄色,与周围的环境形成了鲜明的对比。建筑前的喷泉设计精美,喷出的五彩水花在阳光的照耀下显得格外绚丽,水花的动态效果也表现得十分逼真。而当我们使用另一款常用的图片编辑模型进行相同操作时,要么建筑颜色调整得不够自然,要么喷泉的添加显得十分生硬,与整个画面格格不入。
我们还进行了一些特殊场景的测试。比如上传一张科幻电影中的宇宙飞船图片,输入提示词 “给宇宙飞船添加一个新的武器系统,并且让飞船周围环绕着一些小行星带”。Nano-Banana 生成的图片中,新的武器系统与飞船的整体风格完美融合,看起来极具科技感。小行星带的分布也很合理,大小、形状各异的小行星围绕着飞船,为画面增添了更多的科幻氛围。通过这些实测可以看出,Nano-Banana 在图像生成和编辑方面确实有着强大的实力,能够满足用户多样化的需求。
强大之外:Nano-Banana 的三大硬伤
尽管 Nano-Banana 表现出了强大的能力,但它并非无懈可击,经过深入研究和测试,发现它存在三大硬伤。
首先是在复杂场景下的光影逻辑问题。当生成一些具有多个光源和复杂物体反射的场景时,Nano-Banana 有时会出现光影不一致的情况。例如在一个室内场景中,有阳光从窗户射入,同时室内还有几盏台灯亮着。Nano-Banana 生成的图像中,物体受到阳光和台灯照射后的光影效果没有得到合理的呈现,有些物体的阴影方向混乱,反射效果也不符合现实中的物理规律。这在一些对光影效果要求极高的专业场景,如影视特效制作、高端游戏场景设计等,会成为一个严重的问题,可能导致生成的图像在视觉上给人不真实的感觉。
其次,Nano-Banana 在处理一些精细文字内容时容易出现错误。比如当生成的图片中需要包含特定的文字信息,如书籍的标题、产品的标签文字等,它有时会出现文字扭曲、模糊甚至乱码的情况。在一张生成的书房图片中,书架上的书籍标题原本应该是清晰可读的,但 Nano-Banana 生成的标题文字却像是被拉伸变形了一样,难以辨认。这对于一些需要准确呈现文字信息的场景,如广告设计、教育类图片制作等,无疑是一个很大的缺陷。
最后,Nano-Banana 目前的使用体验存在很大的不稳定性。由于只能通过 LMArena 平台的随机盲测方式使用,用户很难在需要的时候及时使用到该模型。有时候用户可能需要多次尝试,花费大量的时间才能触发使用 Nano-Banana 的机会。而且在使用过程中,还可能会遇到平台卡顿、响应缓慢等问题,严重影响了用户的使用体验。这对于那些需要高效完成工作的用户来说,是一个非常头疼的问题,大大降低了 Nano-Banana 在实际应用中的可用性。