Midjourney 要完蛋了吗?DALL·E 3 效果如何?
OpenAI 已经为部分 ChatGPT Plus 用户开放了 DALL·E 3 模型。从此,Plus 用户在 ChatGPT 内部就可以进行 AI 绘图啦。
免费 ChatGPT 可以在 Bing 的网站上使用预览版,如果你还未曾使用过的话,可以在浏览器上输入 bing.com/create。新用户可以免费生成 100 张图片,超过 100 张的话也是免费的,只是图片生成的速度会慢些。
我非常好奇 DALL·E 3 和 Midjourney 这两个 AI 绘图工具的差异,于是深度测试了一下。我主要围绕以下几个维度展开:人物姿态效果,人物构图能力,前景背景分离能力,文本生成能力,悬空,画面布局能力,动作效果,超现实能力这几个维度展开。这几个维度基本上是 Midjourney 非常薄弱的方面,通过下面要展示的图片,我发现两者之间存在的不可弥合的巨大差异。展示的图片是我经过几轮的生成,并挑选出效果最好的进行对比。
对比
人物姿态效果
我在以往的绘图中发现,Midjourney 对于人物姿态的理解真是弱爆了。如果用非常精准的提示词描述人物的姿态,那生成的图片一定让你感到失望。
比如在下面的提示词中,我非常精准地描述了一位芭蕾舞者优美的姿势。
Prompt: A ballet dancer showcasing exceptional athleticism and grace. En pointe on her right foot, her left leg extends seamlessly upward in a perfect straight line, toes elegantly pointed. Her torso and head gracefully lean back, face tilted upward as if reaching for an unseen light. Arms outstretched and upward, reflecting the fluidity and poise of her dance. (芭蕾舞者展现出非凡的运动能力和优雅气质。她右脚点地,左腿完美地向上伸展,脚尖优雅地指向前方。她的躯干和头部优雅地向后仰,脸部向上倾斜,仿佛在寻找一束看不见的光。双臂向上伸展,体现出她舞蹈的流畅和优雅。)
第一张图是 Midjourney 生成的。图中可以看到,从服装上看她并不是非常专业的芭蕾舞女,而且也没有翩翩起舞,动作比较僵硬。
第二章图是 DALL·E 3 生成的,从服装上就能看出她是非常典型的芭蕾舞女。每一个姿势都符合我在提示词里要求的。整体画面简洁,灯光效果也很好地突出了她优美的线条。
我们再来看一个例子,从这个例子中你会发现 Midjourney 竟然连最基本的瑜伽姿势都不懂。
Prompt: a young woman gracefully balancing on a city rooftop at sunrise with the warrior 1 yoga pose (日出时分,一位年轻女子在城市屋顶上优雅地保持着战士 1 号瑜伽姿势的平衡)
第一张图是 Midjourney 生成的,我已经选了最好的一张,至少手臂是向上伸展的。其他的三张要么就是原地站立,要么就是动作扭曲。
第二张图是 DALL·E 3 生成的。她的瑜伽姿势非常标准,虽然人物的服装没有 Midjourney 生成的那么精细。
人物构图能力
我们经常需要生成一张包含多人的图片,其中需要指定人物的位置。比如下面的提示词:
Prompt: sunlit ballet studio, poised 20-year-old ballerina on tiptoes, perfect ballet posture, extended arms in a soft curve, joyful expression, three 5-year-old girls sitting on polished wooden floor, gazing up in wonder and admiration (阳光照耀下的芭蕾舞室,20 岁的芭蕾舞演员踮起脚尖,完美的芭蕾舞姿态,伸展的双臂划出柔和的弧线,表情愉悦,三个 5 岁的小女孩坐在光洁的木地板上,仰望着,惊叹不已。)
前两张图片是 Midjourney 生成的。我尝试了两种宽高比,都无法把提示词中的四个人物纳入到图片中。最后一张是 DALL·E 3 生成的,基本上完美再现了我提示词中的内容,令人惊艳。
我们再来看个例子,一张包含三个人的照片,这是用于生成图片的提示词。
Prompt: a portrait photograph featuring three individuals, with the woman positioned at the top, making a basketball throw while seated on the shoulders of the two men beneath her. (这是一张三人肖像照片,其中妇女坐在最上面,坐在下面两名男子的肩膀上投掷篮球。)
第一张图片是 Midjourney 生成的。我在 Midjourney 中无论如何也无法做到让女人坐在两个男人的肩膀上。这已经是最接近提示词的图片了。
第二张图片是 DALL·E 3 生成的。看上去有些古怪,尤其是他们的眼神光。但无论如何,人物的构图和姿势达到要求了。
前景背景分离能力
不知道你是否发现,Midjourney 生成的图片的背景很容易和前景相混淆。请看下面两个例子。
第一个例子中,我要生成一张超现实的茶杯的照片,以云朵为背景。
Prompt: dainty porcelain teacup, whimsical cloudscape background (精致的瓷茶杯,奇异的云景背景)
第一张图片是 Midjourney 生成的。你可以看到,云朵居然跑到茶杯上去了,虽然照片还挺好看的。
第二张是 DALL·E 3 生成的,前景和背景并没有混淆,云朵并没有跑到杯子上。但天空的颜色跟茶杯有些接近。
这个例子可以看出,DALL·E 3 能更好地理解我的提示词,虽然艺术效果比 Midjourney 要差。
下面这个例子也同样,Midjourney 生成的图片背景中大理石的纹路居然跑到表盘上了。DALL·E 3 就能很好地理解我的提示词,表盘不仅没有大理石纹路,细节更是复杂到可怕。
Prompt: luxury wristwatch, intricate dial, leather strap, background with marble texture (奢华腕表,复杂表盘,皮革表带,大理石纹理背景)
Midjourney:
DALL·E 3:
当然,Midjourney 也并不是完全那么糊涂,一定会混淆前景和背景。通过一些技巧可以让两者分离。比如我可以在提示词里详细描述表盘的细节,和大理石背景区别开来。比如我写了下面的提示词:
Prompt: luxury wristwatch boasting an intricate dial featuring delicate filigree arabesque designs gracefully intertwine, placing on the background with marble texture (奢华腕表,表盘上精致的阿拉伯花丝图案优雅地交织在大理石纹理的背景上)
生成的图片如下所示,可以看到表盘已没有了大理石纹理。
或者通过局部重绘功能重新生成表盘的细节。
文本生成能力
众所周知的是,Midjourney 很难在图片中生成文字。请看下面这个提示词。
Prompt: Create an elegant perfume ad on a magazine page with a woman in a flowy dress amidst roses, script font saying “Elegance in Every Scent”. (在杂志页面上制作一个优雅的香水广告,广告中一位女士身着飘逸的连衣裙,在玫瑰花丛中翩翩起舞,脚本字体写着 “Elegance in Every Scent”。)
第一张图片是 Midjourney 生成的。它并没有按照要求生成杂志页面,在图片中仅仅看到香水瓶上一堆看不懂的文字。
第二张是 DALL·E 3 生成的图片,有了杂志的样子,杂志上的标题文字也基本符合符合我的要求。
下面这个例子中第二章图是 DALL·E 3 生成的,文字完全对应提示词中所要求的。Midjourney 还是生成了一堆火星文。
Prompt: Whimsical illustration of a cat wearing aviator goggles, piloting a tiny plane, title text saying “Adventure awaits in every corner” (异想天开的插图,一只猫戴着飞行员护目镜,驾驶着一架小飞机,标题文字写着 “冒险在每个角落等待着”。)
悬空
物体悬空会创造出一种超现实的效果,在很多场景下都很有用,比如美食摄影。
但在 Midjourney 中实现悬空的效果很难,我过去尝试过上百个提示词,只有很少的一部分才能成功。请看下面这个提示词:
Prompt: Yogi meditating mid-air amidst serene mountain scenery, levitating effortlessly, enveloped by the tranquility of nature (在宁静的山景中,瑜伽师在半空中冥想,毫不费力地悬浮在空中,被大自然的宁静所笼罩)
第一张图片是 Midjourney 生成的,瑜伽师并没有悬浮在半空中。DALL·E 3 却做到了,虽然画面中的人物看起来并不像瑜伽师。
在下面这个例子中,Midjourney 好不容易实现了一些悬浮效果,但并没有按照提示词的要求生成白色的盘子。
Prompt: low angle shot of uniformly cut and evenly spaced banana slices suspending in mid-air, floating banana slices in perfect symmetry above a shallow white dish (低角度拍摄均匀切割的香蕉片悬浮在半空中,香蕉片完美对称地漂浮在白色浅盘上方)
第二张图片是DALL·E 3生成的,不仅完全做到了悬空的效果,且香蕉片按照提示词的要求对称分布。
画面布局能力
AI 绘画工具有一个很大的优势就是我们仅仅通过提示词就可以让画面中的元素按照特定的图形进行排列。在现实世界中实现这样的效果还是很困难的。请看下面这个例子:
Prompt: bird’s eye view of heart shape arrangement of standing lipsticks (站立口红心形排列鸟瞰图)
第一张图片是 Midjourney 生成的,虽然图案确实是心型的,但是口红并不是站立的,而且看上部并不像口红,反而是像子弹和石子的混合物。
第二张图片是 DALL·E 3 生成的,画面的布局完全符合我的要求,只是画面看上去糙了点。
下面这个例子就比较有趣了。请看下面的提示词:
Prompt: bird’s eye view of gourmet chocolates neatly arranged on a rustic wooden background with a geometric honeycomb pattern (鸟瞰美食巧克力,整齐地摆放在带有几何蜂巢图案的乡村木质背景上)
下面两张图片分别是 Midjourney 和 DALL·E 3 生成的。我让巧克力按照蜂巢图案排列,但没有要求巧克力必须是六边形的。Midjourney 生成的巧克力全部都是六边形的,DALL·E 3 为了生成了很多不同形状的巧克力。
动作效果
Midjourney 对动作的理解程度比不上 DALL·E 3。比如我在下面的提示词中要它们生成运动模糊效果的照片。Midjourney 并没有生成模糊的效果,而是用飞扬的尘土体现运动效果。DALL·E 3 则用模糊和线条阐释了运动模糊,虽然画面的艺术效果比不过 Midjourney。
Prompt: a skateboarder’s sneakers in mid-air, motion blur (滑板运动员的运动鞋在半空中,动态模糊)
Midjourney:
DALL·E 3:
尽管如此,Midjourney 并不是无法生成运动模糊的图片。你可以在提示词中使用 “速度线” 等描述运动效果的词达到目的。比如下面这个例子中,Midjourney 就生成了效果很赞的运动模糊效果。
Prompt: speed lines of a mechanical gaming chair in motion blur, gaming setup background, ergonomic design, immersive gaming experience, close-up shot (运动模糊中机械游戏椅的速度线,游戏场景,人体工学设计,身临其境的游戏体验,特写镜头)
Midjourney:
DALL·E 3:
超现实能力
如果你用过 DALL·E 3 的话,会发现它几乎可以实现你任何疯狂的想法,Midjourney 生成的图片会更加符合现实。请看下面两个例子。
Prompt: a photo of a camel running at full speed through a desert landscape, kicking up swirls of dust, a woman sitting on its back typing on the keyboard of a laptop open in front of her (一张骆驼的照片,骆驼在沙漠中全速奔跑,卷起漫天尘土,一位妇女坐在骆驼背上,敲打着面前打开的笔记本电脑的键盘)
Midjourney:
DALL·E 3:
Prompt: a photograph of a young boy joyfully riding an electric guitar like a surfboard as it soars through a blue sky, musical notes floating around him
Midjourney:
DALL·E 3:
两者结合的效果
通过上面的例子,相信你也看出了两者之间的差异:Midjourney 并不像 DALL·E 3 那样精通人类的自然语言并精确地实现提示词里要求的复杂效果。但它生成的图片更加逼真,艺术效果更佳。那么是否可以结合两者的优势呢?
我把上面所有 DALL·E 3 生成的图片作为垫图,用同样的提示词在 Midjourney 中重新生成一遍。看看 Midjourney 能否学习 DALL·E 3 生成的图片并产生艺术效果更佳的图片。结果是令人失望的,两者之间的差异是如此巨大。只有下面几张图片比 Midjourney 原先生成的图片效果好了一些。
- 悬空的香蕉片变得更多了,盘子也变成了白色。
2.下图中的人物也坐到了骆驼上,但是从女人变成了男人。
我只能多次迭代和局部重绘才生成了这张效果还比较满意的照片。
为何差异如此巨大
之所以存在如此大的差异,原因是两者使用不同的神经网络。
Midjourney 使用的是 Diffusion 模型。它通过多个步骤逐渐将随机噪声转化为可识别的形状和场景来创建图像。所以你在 Discord 里面看到的是 Midjourney 一步步把模糊的图像变得清晰。在每一步中,模型都会根据给出的文本描述添加更多细节和清晰度,直到出现连贯的图片。 它可以准确地渲染精细的细节,因此 Diffusion 模型更擅长生成逼真的图像。代价是需要更多的时间和计算能力来完成完整的扩散过程。 但最终的结果是看起来更自然,更有艺术效果。
DALL·E 3 使用的是 Transformers 模型,它更善于理解人类的自然语言,因此可以生成不仅看起来不错而且与所提供的文字描述非常吻合的图像。它速度更快,生成的图像是一次性创建的,并非像Diffusion 模型那样一步步创建。因此图像有时可能看起来不太真实或连贯,尤其是在提示词不够详细的情况下。但它的灵活性使它能够以新颖的方式组合概念、属性和风格。
我并不是技术领域的专家,如果有不足之处,欢迎专家给我留言。
总结
我认为 DALL·E 3 并不会取代 Midjourney。DALL·E 3 更简单易用,并不像 Midjourney 那样使用起来有些复杂。它也会被放到 ChatGPT 里面,适合给文章配图,对艺术效果不高的场景。
Midjourney 生成的图片艺术效果更好,生成的图片可以用于专业领域,对审美要求比较高的场景。它的学习难度更高一些,因此受众群体会不如 DALL·E 3 那样广泛。
你觉得呢?欢迎留言告诉我你的观点。