登录/注册
扫描二维码
手机浏览

比GPT-4o更强?三位Adobe老将出走,做出了超强文生图模型丨AI新榜评测

AI新榜
新榜独家AIGC
头图均由Reve生成

作者 | 王萌
编辑 | 石濑


GPT-4o,被击败了?

最近大伙都被GPT-4o生成的各种“整活”图像刷屏了吧,各种动漫油画风格改图、经典影视复现、漫画设计改图……新的玩法每天都在涌现,大有“AI一日,人间一年”之势。


甚至OpenAI CEO Sam Altman都累了:“收手吧,我们需要休息!”


但就在GPT-4o火遍全球之际,一个来自初创团队的新模型Reve Image(Halfmoon),却凭借其在特定图像生成领域的出色表现,悄然赢得了用户和专业榜单的认可,排名连续多日超过GPT-4o,在人物、奇幻与神话、插画等细分领域更是妥妥的王者。

自3月发布以来,它在多个海外第三方“盲测竞技榜”上表现抢眼,即使在GPT-4o持续刷屏的日子里,依然能在榜单上占据高位。

截图日期:4月1日

(注:“盲测竞技场”模式下,用户在不知晓背后模型的情况下,对两张生成图片进行投票,得分高者胜出。排名很大程度上反映了模型生成结果的视觉吸引力和与大众审美偏好的契合度。)

这不禁让人好奇,Reve这匹“黑马”究竟有何过人之处?它如何在巨头林立的文生图“牌桌”上占据一席之地?我们通过一系列实测来一探究竟。



实测:从AI生图到AI“摄影”

模型发布后,Reve官方在X平台上将自己的核心优势概括为三点:提示词遵循(Prompt Following)、美学(Aesthetics)和排版(Typography)。

我们就从这几个方面入手,把它与如今大热的GPT-4o、Imagen3、Recraft直接对比,来看看Reve表现究竟如何。

1. 提示词遵循:不漏掉任何一个元素,还要逻辑合理

首先,我们来测试模型处理复杂指令的能力,将几种风马牛不相及的元素组合在一起,观察模型的还原度和逻辑性。

提示词:一只杰出的暹罗猫被描绘成一个富丽堂皇的姿势,穿着带有复杂金色刺绣的伊丽莎白时代天鹅绒紧身裤。这只猫的服装包括一个大的蕾丝镶边的围脖,勾勒出它的头。一条带有宝石吊坠的粗金链挂在它的脖子上。猫的蓝眼睛直视着观众。背景是深绿色的森林,一旁是披着深红色天鹅绒的古典大理石柱子,暗示着宏伟的庄园环境。场景以16世纪油画的风格呈现,对细节和纹理一丝不苟,尤其是毛皮、织物和背景元素。



不难看出,Reve、Recraft和GPT-4o在细节处理上较为接近。Reve和GPT-4o生成的图片表现出了更符合提示词要求的油画质感,而Recraft则忽视了“直视观众”的信息。相比之下,Imagen3生成的图像略显粗糙。

我们再来一组:

提示词:一只戴墨镜的企鹅,站在极地夜晚的冰川洞穴入口,左手举着一个插着吸管的菠萝,洞穴内漂浮着3只发光的彩虹色独角兽,背景有霓虹灯组成的'生日快乐'字样,空中悬浮一条蒸汽朋克风格的机械鱼,整体画风为超现实主义,地面有融化的巧克力河流,天空出现梵高《星月夜》的笔触,部分物体边缘带有故障艺术(Glitch Art)的数码裂纹效果。



这组对比除了能直观地检查各模型是否遵循提示词以外,还可以很直观地看到它们的风格偏好。虽然这是一个虚构场景,但Reve和GPT-4o生成的图像中,企鹅和巧克力河流的元素仍呈现出偏写实的风格。相比之下,Recraft生成的图像风格虽然更讨喜,但却忽略了很多细节。

2. 美学表现与风格塑造:氛围感与人文气息是亮点

在很多评测中,美学风格符合大众偏好是大模型在盲测中脱颖而出的关键。我们换一组较为正常和细致的提示词,其中包含了大量主观描述,看看这些模型会怎么处理。

自然风光与氛围

提示词:白雪皑皑的山峰耸立在寒冷的黎明天空中,充满了淡蓝色和紫色的色调。飘渺的云层飘过高处的山坡,被清晨的阳光照亮。这座山锯齿状的岩壁显示出清晰的细节和纹理,而雪块则突出了山脊和裂缝。前景以植被稀疏的岩石地形为特色,一直延伸到主峰的底部。广角风景摄影,自然采光充足,在冷色调的天空下清晰聚焦山区细节。



人物肖像与故事感

提示词:一位年轻的白人男性士兵身着二战时期的战斗装备,站在严酷的冬季条件下,周围下着雪。士兵戴着一顶橄榄绿色的军用头盔,头盔的边缘有积雪,肩膀上穿着风化的棕褐色冬季战斗外套,肩膀上有明显的湿气。他的表情紧张而担忧,嘴唇微微张开,仿佛在说话或呼吸沉重,而他的目光则略微向下和向侧面。背景显示了他身后的其他戴头盔的士兵,在战场场景中创造了深度。在阴沉的天空下,远处光秃秃的冬树清晰可见。该图像具有自然的正面照明和浅景深,可保持主体清晰对焦,同时略微模糊背景元素。调色用柔和的绿色、灰色和棕色来降低饱和度,强调冬季战争的严峻现实。特写人像摄影,具有浅景深和自然的正面照明,色彩饱和度低。



动态场景与情绪

提示词:一个剪影音乐家得意洋洋地拿着他们的吉他弹唱,在一片人群组成的海洋冲浪,海洋中双手向上伸展。他们沐浴在暖光的舞台灯光,背景有标志性的太空针塔刺穿夜空。这模糊、充满活力的人群消失在黑暗中场地,他们的兴奋是显而易见的。反射着舞台灯光的泡沫在空气中飘荡,增添了庆祝的气氛。低光照片烘托出现场表演的原始能量。



艺术风格与虚构场景

提示词:希腊哲学家们聚集在狂暴的天空下,一道闪电划破画布,呈对角线照亮了他们。他们的表情交织着敬畏与恐惧,挥手指向天空,身上的长袍随风旋转,与乌云遥相呼应。在他们脚下,一块风化的石碑上隐约刻着“fate”二字,被飘动的衣袍部分遮住。这是一幅充满戏剧性的明暗对比油画,具有强烈的对角线构图和富有氛围感的光影效果。



意境理解和视觉化

我们再上些难度,把经典名著中的景物描写交给模型,这些描述相对模糊,看看它们会给出怎样的答卷。

提示词:穿过县境上长长的隧道,便是雪国。夜空下,大地一片白茫茫。火车在信号所前停了下来。



在以上几组对比中,各模型生成的图像在核心元素还原上似乎并未拉开决定性差距,但仔细对比后不难发现,Reve在处理细节上与其他模型存在一些不同之处。

例如最后一个案例中,将川端康成《雪国》开篇文字视觉化,是对模型捕捉意境及理解能力的考验。所有模型都生成了火车、雪景、夜晚这些关键元素,但只有Reve在这一测试中采用了框式构图,拍摄角度和质感都更接近人类摄影师拍摄的照片。

而这种对摄影构图和真实感的偏好,并非个例。

Reve在这一案例中生成的照片大量出现远景,利用天空、雪地、火车在画面比例上的对比,表现“大地一片白茫茫”

AI新榜观察到,当许多文生图模型倾向于生成视角相对“标准”、构图“板正”的图像时,Reve常常会采用一些在AI生成领域不那么常见、但在人类摄影作品中却很经典的构图方式。例如更具纵深感的角度、利用前景遮挡、模拟特定镜头焦段的效果等。

再加上Reve本身在光影效果、内容质感方面的不错表现,使其生成的图像甚至难辨真假。

Reve生图,来自X平台用户“rita kozlov”

图自X平台用户“Christian Cantrell”

图自公众号“刘琦”


这种对构图、光影和质感的细腻把握,使得Reve在生成具有人文气息、故事感和电影质感的写实风格图像方面尤为出色,这或许就是它能够在考察大众审美偏好的盲测中取得好成绩的秘密。

图来自X平台用户“Fofr”

3. 文字排版能力:图文融合有亮点,但语种支持待提升

Reve的另一个亮点在于,它能将文字融入图像并进行一定的排版设计,形成很有设计感的图片。例如这组动物与文字穿插融合的设计图片,虽然生成内容质量都很不错,但除Reve以外其他模型均未能完成提示词中关于动物与字体穿插的描述。


提示词:一张专业的野生动物摄影作品,画面中一只棕熊站立在高草丛中,背景是深色的森林。画面中融入了粗体黄色复古风格的衬线字体,拼写出“bear”一词,文字部分被巧妙地遮挡在熊的头部之后。熊的头部从字母“e”中探出,形成了文字与主体之间的巧妙视觉互动。照片采用自然光线拍摄,采用中景构图和略低的角度,营造出一种强大而平衡的画面效果。棕熊浓密的棕色毛发与深沉的暗绿色森林背景形成了美丽的对比。


对于当前的AI文生图模型而言,要实现这种效果,不仅仅是将文字图层叠加在图片上,而是需要模型理解提示词描述的“穿插”、“遮挡”(如熊头从“e”字母中穿出)这类精确的空间布局指令,处理好两者的交互,这对很多模型而言都是难点。

图片来自X平台用户“Travis Davids”

图片来自X平台用户“Travis Davids”

不过遗憾的是,目前,Reve在处理除英文以外的其他语言时仍然存在一些问题。比如,当我们把提示词从“熊”换成“虎”,并要求模型生成中文时,虽然图像从文字中间穿过的效果仍然可以实现,但汉字却无法正常生成。


综合来看,Reve是一个长处和短处都非常明显的产品。

长处:

  • 极佳的美学表现: 尤其擅长营造人文气息、故事感、电影感的写实风格,符合大众审美。
  • 良好的提示词遵循能力: 对细节元素的还原度较高。
  • 创新的图文排版: 在英文语境下能实现较好的图文融合设计。
  • 用户友好: 目前网页版无水印、无需注册、支持中文界面、生成速度快

短板:

  • 非英文文字处理能力弱: 基本无法准确生成除英文外的文字。
  • 复杂指令下的逻辑性: 处理一些复杂或需要深度逻辑推理的提示词时仍会出错。
  • 多轮生成与一致性: 相较于一些能多次修改的模型,在保持角色、风格一致性方面稍弱。
  • 通用性与多模态: 功能相对单一,不像GPT-4o等具备更强的多模态交互能力。

复杂元素过多时Reve表现不如GPT-4o,左Reve右GPT-4o

Reve生图出现手部错误,图来自公众号“刘琦”

需要注意的是,Reve官方提供了两个访问入口。其中https://reveai.org/zh界面简洁、支持中文、免注册,但功能相对基础,生图效果稍弱且一次只能生成一张图片。


如果想要体验完整版可以访问以下网址:
https://preview.reve.art/app

这一入口操作界面与其他AI图像工具接近,上方“Create”显示的是用户已经生成的图像,“Explore”区展示的是其他创作者生成的图像或官方图片,下方悬浮操作区用来输入提示词和调整参数,但在输入中文提示词时需要打开“Enhance on”。


不知道是不是为了防止因访问量太多而崩溃,Reve AI并非完全免费,但每天登录会赠送20次试用,新账号赠送100积分(1积分生成1张图片),也可以购买积分,价格是5美元500积分。



02Reve登顶背后,是三位Adobe老将的“梦想”

很多人好奇,“Reve”这个源自法语“rêve”(梦想)的名字背后,是一个怎样的团队?官网介绍十分低调:

我们是一个小团队:充满激情的研究人员、建造者、设计师和具有伟大创意的故事讲述者。


但这个“小”团队背后,是三位图形处理界的“大佬”:

  • Christian Cantrell:前Stability AI产品副总裁,Stable Diffusion Photoshop插件的创建者。
  • Taesung Park:前Adobe研究科学家,是GauGAN(图像到图像转换)的共同作者之一。
  • Michaël Gharbi:前Adobe研究科学家,研究方向包括计算摄影、图像/视频处理和机器学习。

图片左为Christian Cantrell、中为Michaël Gharbi、右为Taesung Park

有网友推测,三人离开公司重组Reve团队,可能是为了完成一些在原公司推行受阻的项目。

Reve面世后,创始人们在社交平台上的发言似乎印证了这一点,还为我们揭示了Reve AI更深层的目标。创始人Taesung Park在X平台发文表示:

与LLMs相比,今天的文生图像/视频模型常常缺乏逻辑。我们在Reve的使命是用逻辑增强视觉生成模型,专注于通过高级语言功能理解用户意图,从而实现更好的复杂提示理解能力。



Michaël Gharbi也发表了类似的观点,并将现有模型比作只会模仿的“随机鹦鹉”:


显然,Reve AI的目标远不止于生成“好看”的图片,而是要构建具备逻辑推理、意图理解和深层世界模型的新一代视觉生成系统。

基于创始人在计算摄影、GauGAN等方面的过往成就,我们谨慎推测:Reve在技术路径上可能借鉴了计算摄影,模型注重学习场景的3D布局、对象间的空间关系以及光照与材质的物理交互。

从这个角度而言,或许Reve和这个“小团队”的故事,或许才刚刚翻开序章,我们可以期待它在逻辑性、可控性和多语言支持等方面持续进化。


说起来,Reve这次确实有点“生不逢时”。

团队埋头苦干一年,好不容易把第一代模型Reve Image发出来,它也争气地冲上了盲测榜首,甚至一度被兴奋的用户捧为“(当时)世界最佳图像模型”。

仅仅过了一天之后,功能更全面、声势更浩大的GPT-4o便横空出世,把热度完全抢走,这让刚刚崭露头角的Reve Image瞬间显得黯淡无光。


这也让我们回到了最初的问题:在GPT-4o这样强大且全面的多模态模型阴影下,其他文生图模型是否还有机会?

而Reve或许已经用它带有明显倾向性的生图策略,给了我们答案。

当下的AI模型在“生成万物”上已取得长足进步,“整活”玩法层出不穷,但往往缺乏独特的“视觉品味”或难以稳定输出特定的高级美学风格。

Reve则敏锐地切入了“人文写实”及“电影氛围感”这一细分审美领域,通过深度优化,提供了超越许多通用模型的效果,同时保持了极低的门槛(免费、易用),将“审美”本身作为核心竞争力。


这种“审美力”并非空中楼阁,而是具有实实在在的商业价值。

对于很多需要进行专业内容创作的企业和个人(例如文章配图、品牌营销、概念设计、出版插画等领域)而言,仅仅生成“看起来还行”的图片是远远不够的。他们在很多时候需要的是风格符合调性、能够传递特定情绪、甚至达到以假乱真效果的高质量视觉素材。

而Reve擅长的写实风格、电影感和氛围感营造的能力,恰好满足了这一专业需求,能够帮助创作者更高效地产出具有“质感”和“故事感”的内容。而且与Recraft等平台不同,Reve明确声明其生成的图片版权归属个人,完全可以商用,扫清了专业应用的又一障碍。


还有网友指出,Reve这种极具人文风格的图像很适合用来制作电影,有不少网友已经开始行动,使用Reve生成的图片+即梦/可灵来创作短片。

这种由Reve独特审美驱动、与其他AI工具联动组合的玩法,也是其“专精”价值得以延伸和放大的体现。


我也用它生成的图片试了下。前文使用《雪国》开头生成的图片,通过框式构图给人“穿过长长的轨道”的期待,如果让它动起来,再加上AI生成的音效,是否能满足你对“雪国”想象呢。


显然,如果你追求的不是天马行空的奇幻效果,而是希望获得更贴近真实世界、蕴含情绪和叙事性的现实风格图像,那么Reve会是个不错的选择。

虽然GPT-4o的光芒已经足够耀眼,但一个健康繁荣的AI生态,既需要GPT-4o这样的强大“平台”和“通才”,也离不开像Reve这样在垂直领域深耕细作、独具特色的“专才”。

资料:
https://mgharbi.com/
https://x.com/Taesung/status/1904220824435032528
https://x.com/m_gharbi/status/1904213903384695280
https://taesung.me/


     
     

AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

      
      
 欢迎分享、点赞、在看
 一起研究AI

分享文章链接