Midjourney 要完蛋了吗？DALL·E 3 效果如何？

ByVito 2023年11月13日2023年11月13日

OpenAI 已经为部分 ChatGPT Plus 用户开放了 DALL·E 3 模型。从此，Plus 用户在 ChatGPT 内部就可以进行 AI 绘图啦。

免费 ChatGPT 可以在 Bing 的网站上使用预览版，如果你还未曾使用过的话，可以在浏览器上输入 bing.com/create。新用户可以免费生成 100 张图片，超过 100 张的话也是免费的，只是图片生成的速度会慢些。

我非常好奇 DALL·E 3 和 Midjourney 这两个 AI 绘图工具的差异，于是深度测试了一下。我主要围绕以下几个维度展开：人物姿态效果，人物构图能力，前景背景分离能力，文本生成能力，悬空，画面布局能力，动作效果，超现实能力这几个维度展开。这几个维度基本上是 Midjourney 非常薄弱的方面，通过下面要展示的图片，我发现两者之间存在的不可弥合的巨大差异。展示的图片是我经过几轮的生成，并挑选出效果最好的进行对比。

Table of Contents

对比

人物姿态效果

我在以往的绘图中发现，Midjourney 对于人物姿态的理解真是弱爆了。如果用非常精准的提示词描述人物的姿态，那生成的图片一定让你感到失望。

比如在下面的提示词中，我非常精准地描述了一位芭蕾舞者优美的姿势。

Prompt: A ballet dancer showcasing exceptional athleticism and grace. En pointe on her right foot, her left leg extends seamlessly upward in a perfect straight line, toes elegantly pointed. Her torso and head gracefully lean back, face tilted upward as if reaching for an unseen light. Arms outstretched and upward, reflecting the fluidity and poise of her dance. (芭蕾舞者展现出非凡的运动能力和优雅气质。她右脚点地，左腿完美地向上伸展，脚尖优雅地指向前方。她的躯干和头部优雅地向后仰，脸部向上倾斜，仿佛在寻找一束看不见的光。双臂向上伸展，体现出她舞蹈的流畅和优雅。)

第一张图是 Midjourney 生成的。图中可以看到，从服装上看她并不是非常专业的芭蕾舞女，而且也没有翩翩起舞，动作比较僵硬。

第二章图是 DALL·E 3 生成的，从服装上就能看出她是非常典型的芭蕾舞女。每一个姿势都符合我在提示词里要求的。整体画面简洁，灯光效果也很好地突出了她优美的线条。

我们再来看一个例子，从这个例子中你会发现 Midjourney 竟然连最基本的瑜伽姿势都不懂。

Prompt: a young woman gracefully balancing on a city rooftop at sunrise with the warrior 1 yoga pose (日出时分，一位年轻女子在城市屋顶上优雅地保持着战士 1 号瑜伽姿势的平衡)

第一张图是 Midjourney 生成的，我已经选了最好的一张，至少手臂是向上伸展的。其他的三张要么就是原地站立，要么就是动作扭曲。

第二张图是 DALL·E 3 生成的。她的瑜伽姿势非常标准，虽然人物的服装没有 Midjourney 生成的那么精细。

人物构图能力

我们经常需要生成一张包含多人的图片，其中需要指定人物的位置。比如下面的提示词：

Prompt: sunlit ballet studio, poised 20-year-old ballerina on tiptoes, perfect ballet posture, extended arms in a soft curve, joyful expression, three 5-year-old girls sitting on polished wooden floor, gazing up in wonder and admiration (阳光照耀下的芭蕾舞室，20 岁的芭蕾舞演员踮起脚尖，完美的芭蕾舞姿态，伸展的双臂划出柔和的弧线，表情愉悦，三个 5 岁的小女孩坐在光洁的木地板上，仰望着，惊叹不已。)

前两张图片是 Midjourney 生成的。我尝试了两种宽高比，都无法把提示词中的四个人物纳入到图片中。最后一张是 DALL·E 3 生成的，基本上完美再现了我提示词中的内容，令人惊艳。

我们再来看个例子，一张包含三个人的照片，这是用于生成图片的提示词。

Prompt: a portrait photograph featuring three individuals, with the woman positioned at the top, making a basketball throw while seated on the shoulders of the two men beneath her. (这是一张三人肖像照片，其中妇女坐在最上面，坐在下面两名男子的肩膀上投掷篮球。)

第一张图片是 Midjourney 生成的。我在 Midjourney 中无论如何也无法做到让女人坐在两个男人的肩膀上。这已经是最接近提示词的图片了。

第二张图片是 DALL·E 3 生成的。看上去有些古怪，尤其是他们的眼神光。但无论如何，人物的构图和姿势达到要求了。

前景背景分离能力

不知道你是否发现，Midjourney 生成的图片的背景很容易和前景相混淆。请看下面两个例子。

第一个例子中，我要生成一张超现实的茶杯的照片，以云朵为背景。

Prompt: dainty porcelain teacup, whimsical cloudscape background (精致的瓷茶杯，奇异的云景背景)

第一张图片是 Midjourney 生成的。你可以看到，云朵居然跑到茶杯上去了，虽然照片还挺好看的。

第二张是 DALL·E 3 生成的，前景和背景并没有混淆，云朵并没有跑到杯子上。但天空的颜色跟茶杯有些接近。

这个例子可以看出，DALL·E 3 能更好地理解我的提示词，虽然艺术效果比 Midjourney 要差。

下面这个例子也同样，Midjourney 生成的图片背景中大理石的纹路居然跑到表盘上了。DALL·E 3 就能很好地理解我的提示词，表盘不仅没有大理石纹路，细节更是复杂到可怕。

Prompt: luxury wristwatch, intricate dial, leather strap, background with marble texture (奢华腕表，复杂表盘，皮革表带，大理石纹理背景)

Midjourney:

DALL·E 3:

当然，Midjourney 也并不是完全那么糊涂，一定会混淆前景和背景。通过一些技巧可以让两者分离。比如我可以在提示词里详细描述表盘的细节，和大理石背景区别开来。比如我写了下面的提示词：

Prompt: luxury wristwatch boasting an intricate dial featuring delicate filigree arabesque designs gracefully intertwine, placing on the background with marble texture (奢华腕表，表盘上精致的阿拉伯花丝图案优雅地交织在大理石纹理的背景上)

生成的图片如下所示，可以看到表盘已没有了大理石纹理。

或者通过局部重绘功能重新生成表盘的细节。

文本生成能力

众所周知的是，Midjourney 很难在图片中生成文字。请看下面这个提示词。

Prompt: Create an elegant perfume ad on a magazine page with a woman in a flowy dress amidst roses, script font saying “Elegance in Every Scent”. (在杂志页面上制作一个优雅的香水广告，广告中一位女士身着飘逸的连衣裙，在玫瑰花丛中翩翩起舞，脚本字体写着 “Elegance in Every Scent”。)

第一张图片是 Midjourney 生成的。它并没有按照要求生成杂志页面，在图片中仅仅看到香水瓶上一堆看不懂的文字。

第二张是 DALL·E 3 生成的图片，有了杂志的样子，杂志上的标题文字也基本符合符合我的要求。

下面这个例子中第二章图是 DALL·E 3 生成的，文字完全对应提示词中所要求的。Midjourney 还是生成了一堆火星文。

Prompt: Whimsical illustration of a cat wearing aviator goggles, piloting a tiny plane, title text saying “Adventure awaits in every corner” (异想天开的插图，一只猫戴着飞行员护目镜，驾驶着一架小飞机，标题文字写着 “冒险在每个角落等待着”。)

悬空

物体悬空会创造出一种超现实的效果，在很多场景下都很有用，比如美食摄影。

但在 Midjourney 中实现悬空的效果很难，我过去尝试过上百个提示词，只有很少的一部分才能成功。请看下面这个提示词：

Prompt: Yogi meditating mid-air amidst serene mountain scenery, levitating effortlessly, enveloped by the tranquility of nature (在宁静的山景中，瑜伽师在半空中冥想，毫不费力地悬浮在空中，被大自然的宁静所笼罩)

第一张图片是 Midjourney 生成的，瑜伽师并没有悬浮在半空中。DALL·E 3 却做到了，虽然画面中的人物看起来并不像瑜伽师。

在下面这个例子中，Midjourney 好不容易实现了一些悬浮效果，但并没有按照提示词的要求生成白色的盘子。

Prompt: low angle shot of uniformly cut and evenly spaced banana slices suspending in mid-air, floating banana slices in perfect symmetry above a shallow white dish (低角度拍摄均匀切割的香蕉片悬浮在半空中，香蕉片完美对称地漂浮在白色浅盘上方)

第二张图片是DALL·E 3生成的，不仅完全做到了悬空的效果，且香蕉片按照提示词的要求对称分布。

画面布局能力

AI 绘画工具有一个很大的优势就是我们仅仅通过提示词就可以让画面中的元素按照特定的图形进行排列。在现实世界中实现这样的效果还是很困难的。请看下面这个例子：

Prompt: bird’s eye view of heart shape arrangement of standing lipsticks (站立口红心形排列鸟瞰图)

第一张图片是 Midjourney 生成的，虽然图案确实是心型的，但是口红并不是站立的，而且看上部并不像口红，反而是像子弹和石子的混合物。

第二张图片是 DALL·E 3 生成的，画面的布局完全符合我的要求，只是画面看上去糙了点。

下面这个例子就比较有趣了。请看下面的提示词：

Prompt: bird’s eye view of gourmet chocolates neatly arranged on a rustic wooden background with a geometric honeycomb pattern (鸟瞰美食巧克力，整齐地摆放在带有几何蜂巢图案的乡村木质背景上)

下面两张图片分别是 Midjourney 和 DALL·E 3 生成的。我让巧克力按照蜂巢图案排列，但没有要求巧克力必须是六边形的。Midjourney 生成的巧克力全部都是六边形的，DALL·E 3 为了生成了很多不同形状的巧克力。

动作效果

Midjourney 对动作的理解程度比不上 DALL·E 3。比如我在下面的提示词中要它们生成运动模糊效果的照片。Midjourney 并没有生成模糊的效果，而是用飞扬的尘土体现运动效果。DALL·E 3 则用模糊和线条阐释了运动模糊，虽然画面的艺术效果比不过 Midjourney。

Prompt: a skateboarder’s sneakers in mid-air, motion blur (滑板运动员的运动鞋在半空中，动态模糊)

Midjourney:

DALL·E 3:

尽管如此，Midjourney 并不是无法生成运动模糊的图片。你可以在提示词中使用 “速度线” 等描述运动效果的词达到目的。比如下面这个例子中，Midjourney 就生成了效果很赞的运动模糊效果。

Prompt: speed lines of a mechanical gaming chair in motion blur, gaming setup background, ergonomic design, immersive gaming experience, close-up shot (运动模糊中机械游戏椅的速度线，游戏场景，人体工学设计，身临其境的游戏体验，特写镜头)

Midjourney:

DALL·E 3:

超现实能力

如果你用过 DALL·E 3 的话，会发现它几乎可以实现你任何疯狂的想法，Midjourney 生成的图片会更加符合现实。请看下面两个例子。

Prompt: a photo of a camel running at full speed through a desert landscape, kicking up swirls of dust, a woman sitting on its back typing on the keyboard of a laptop open in front of her (一张骆驼的照片，骆驼在沙漠中全速奔跑，卷起漫天尘土，一位妇女坐在骆驼背上，敲打着面前打开的笔记本电脑的键盘)

Midjourney:

DALL·E 3:

Prompt: a photograph of a young boy joyfully riding an electric guitar like a surfboard as it soars through a blue sky, musical notes floating around him

Midjourney:

DALL·E 3:

两者结合的效果

通过上面的例子，相信你也看出了两者之间的差异：Midjourney 并不像 DALL·E 3 那样精通人类的自然语言并精确地实现提示词里要求的复杂效果。但它生成的图片更加逼真，艺术效果更佳。那么是否可以结合两者的优势呢？

我把上面所有 DALL·E 3 生成的图片作为垫图，用同样的提示词在 Midjourney 中重新生成一遍。看看 Midjourney 能否学习 DALL·E 3 生成的图片并产生艺术效果更佳的图片。结果是令人失望的，两者之间的差异是如此巨大。只有下面几张图片比 Midjourney 原先生成的图片效果好了一些。

悬空的香蕉片变得更多了，盘子也变成了白色。

2.下图中的人物也坐到了骆驼上，但是从女人变成了男人。

我只能多次迭代和局部重绘才生成了这张效果还比较满意的照片。

为何差异如此巨大

之所以存在如此大的差异，原因是两者使用不同的神经网络。

Midjourney 使用的是 Diffusion 模型。它通过多个步骤逐渐将随机噪声转化为可识别的形状和场景来创建图像。所以你在 Discord 里面看到的是 Midjourney 一步步把模糊的图像变得清晰。在每一步中，模型都会根据给出的文本描述添加更多细节和清晰度，直到出现连贯的图片。它可以准确地渲染精细的细节，因此 Diffusion 模型更擅长生成逼真的图像。代价是需要更多的时间和计算能力来完成完整的扩散过程。但最终的结果是看起来更自然，更有艺术效果。

DALL·E 3 使用的是 Transformers 模型，它更善于理解人类的自然语言，因此可以生成不仅看起来不错而且与所提供的文字描述非常吻合的图像。它速度更快，生成的图像是一次性创建的，并非像Diffusion 模型那样一步步创建。因此图像有时可能看起来不太真实或连贯，尤其是在提示词不够详细的情况下。但它的灵活性使它能够以新颖的方式组合概念、属性和风格。

我并不是技术领域的专家，如果有不足之处，欢迎专家给我留言。

总结

我认为 DALL·E 3 并不会取代 Midjourney。DALL·E 3 更简单易用，并不像 Midjourney 那样使用起来有些复杂。它也会被放到 ChatGPT 里面，适合给文章配图，对艺术效果不高的场景。

Midjourney 生成的图片艺术效果更好，生成的图片可以用于专业领域，对审美要求比较高的场景。它的学习难度更高一些，因此受众群体会不如 DALL·E 3 那样广泛。

你觉得呢？欢迎留言告诉我你的观点。

Midjourney

Midjourney 通向摄影大师之路

ByVito 2023年11月13日2023年11月13日

随着 Midjourney 版本的不断更新，生成逼真图像的质量也越来越高。你可以随手写一个提示词，Midjourney 就为你创造了一副栩栩如生的摄影作品。然而，有时候结果却让我们大失所望。生成的图片既不像真实的摄影作品，又不像艺术家的绘画作品，而是介于两者之中不伦不类。其实，只要我们拥有摄影师的思维，在提示词中正确地使用词汇，就可以很精准地让 Midjourney 达到我们心目中的理想效果。本文将由浅入深地让你拥有这样的思维，掌握基本和高级的提示词技术，发挥 Midjourney 生成逼真图像的最大潜力。写实图像的基本建议 (Photorealism) 你是否曾经想要 Midjourney 生成逼真的图像，但结果却生成了类似于绘画的效果。比如说，你输入提示词 “a young woman”，Midjourney 可能生成一幅这样的图片：其实，只需要略微调整一下提示词就可以了。以下是几点建议： 1. 把与照片相关的词纳入提示词往提示词里添加 “photo”, “photograph (照片)”，”raw image (raw格式图片)”，”photography (摄影)” 等词，就可以生成一幅逼真的照片。 Prompt: portrait photography of a young woman (一个年轻女人的肖像摄影) 2. 使用跟商业图片库相关的词商业图片库往往有大量摄影师上传的作品。加入 “stock image”, “getty image”，”shutterstock”，”pixabay”，”unsplash” 等词也可以产生逼真的效果。 Prompt: getty image of a young woman Prompt: a…

Midjourney

10 + Midjourney 的光线类型（附提示词）

ByVito 2023年11月13日2023年11月13日

灯光是视觉艺术的关键元素，可以极大地影响图像的情绪、构图和风格。虽然 Midjourney 会自动根据场景添加不同的光照效果，但是根据自己的需求添加不同的灯光效果可以产生更加精美和专业的结果。可控灯光效果你可以在 Midjourney 提示词中添加可控灯光效果来达到特定的艺术效果。可控灯光指的是可以通过人工操作改变灯光的效果。主光源 (Key Lighting) 主光源是主要光源，对于增加主体的深度和维度至关重要。它可以让人脸看起来更立体，让风景看起来更有质感，让静态物体看起来更坚固。主光的角度也决定了整体基调——侧面照明显得引人注目，而正面照明则令人愉悦。通常情况下，在 Midjourney 提示词里包含 “studio portraiture (工作室肖像)” 或者 “studio photography (工作室摄影)” 就会让让主体处于主光源之下。 Prompt: a joyful young woman holding a Bichon Frise, studio portraiture in the style of Annie Leibovitz (欢乐的年轻女子抱着比熊犬，安妮·莱博维茨风格的摄影棚肖像) 逆光 (Backlighting) 在 Midjourney 中为主体添加逆光效果，可以使主体从后面被照亮，突出主体的轮廓，让主体和背景分离。这不仅增加了一种空灵、梦幻的效果，而且使得主体显得更加立体。 Prompt: an extreme close up of a dandelion seed head…

Midjourney

Midjourney 实现角色一致性的新方法

ByVito 2023年12月17日2024年8月11日

AI 绘画的奇妙之处，实乃令人叹为观止！就像大千世界中，寻不见两片完全相同的树叶一般，AI 绘画亦复如是。同一提示之词，竟能催生出千变万化的图像，使得AI所绘之作，宛如自然之物般独特，毫无呆板重复之嫌。然而，这种随机性却给许多用户带来了不小的困扰。尤其对于那些故事书或绘本的创作者来说，他们往往希望 AI 生成的人物能够保持一致的特征，以便为故事书或绘本塑造统一的人物形象。角色一致性这一议题并非新生事物，过去我们曾采用过多种方法来解决这一问题，如借助随机种子（seed）或上传参考图等手段。然而，随着 Midjourney 的不断迭代更新，新的方法往往会超越旧有的手段。本文旨在介绍一种全新的方法，通过它我们能够实现更为持久且精准的角色一致性。我以真人举例，漫画人物的方法雷同。 1. 为角色创建相册第一步是为角色创建一个相册。这个相册展示了角色不同角度和表情的头像。我用的提示词如下： Prompt: wide 12-frame photo sheet, young woman with pixie-cut brunette hair, white background, diverse angles and expressions 提示词：12 幅宽幅照片，年轻女性，褐发精灵头，白色背景，不同角度和表情我更倾向于将这一提示词输入到DALL-E之中，因为它能够生成更为规范的格子布局。同时，DALL-E的格子布局还蕴藏着诸多巧妙的用途，具体细节可参阅我此篇文章：下图是 DALL-E 生成的图片。 Midjourney 生成的 Photo Sheet 布局会乱一些，人物的一致性也会略差一些，请看下图：不过，如果用 DALL-E 生成的图像做参考图的话，Midjourney 也能生成比较稳定的格子布局。并且，通过平移 (Pan) 和放大 (Upscale)，还可以生成更多头像。不过，我不建议目前这么操作，因为格子越多，Midjourney 越不稳定。 2. 截图并上传头像一旦我们拥有了人物的头像相册，便可以为人物创建场景提供有力的参考。接下来的步骤是挑选出一些具有差异且效果上佳的头像，截图并保存，再上传到 Midjourney…

Midjourney

Midjourney + ChatGPT 王炸组合: 两种方法让ChatGPT为你写Midjourney提示词

ByVito 2023年11月13日2023年11月13日

只需要一些提示词，Midjourney就能为我们生成惊艳的图片。然而Midjourney的提示词并不像ChatGPT的提示词写起来那样自然，符合人类的语言习惯。那么我们能否把这两个AI工具结合起来发挥更强大的威力呢？本文将为你介绍两个方法，第一种方法更方便快捷，但是自定义的空间有限，并且只适用于Plus用户。第二种方法适用于所有用户，你可以直接复制粘贴我的提示词，也可以根据自己的需求进行修改。使用Photorealistic ChatGPT插件我们都知道ChatGPT精通语法，甚至能够作为外语老师指出你语法中的错误。正因为如此，人们和它的沟通方式非常自然，就像我们在日常生活中和别人聊天一样。然而Midjourney并不像ChatGPT那样去理解语法、句子结构或者单词。在很多情况下，使用更精确或者更具体的同义词可以输出更满足需求的图片。比如，与其使用“small”这样比较泛的词，使用”petite”, “compact”, “diminutive”, “tiny”这样更精确的词会达到更好的效果。此外, 要更精确地控制Midjourney的输出, 添加一些参数也必不可少,比如添加”- – ar 16:9″这样的参数会指定Midjourney生成宽高比约为1.75的图像, 而非默认的1:1的图像。这样的写法有点像写代码，很不直观。而且随着Midjourney的不断更新，参数只会越来越多，对不是频繁使用Midjourney的人来说学习成本会越来越大。 Photorealistic ChatGPT插件就是为解决这样的痛点而开发的。它托管在ChatGPT插件商店，对于ChatGPT Plus用户来说是一个免费的工具，可以将简单的短语或描述转化为非常详细的Midjourney的提示词。要使用这个插件，首先确保已经激活了ChatGPT插件的功能。然后去ChatGPT插件商店搜索插件进行安装。然后搜索关键词“photorealistic”并点击”Install“进行安装。安装好以后，在输入任何提示词之前，先切换到ChatGPT4。鼠标停留在”GPT-4″的按钮上会显示一个下拉菜单，在下拉菜单里的选项里点击“Plugins”这个按钮。然后在ChatGPT4按钮下方的下拉菜单里找到刚才下载的”Photorealistic”插件并勾选。然后就可以输入我们的提示词啦，比如： Generate an image of a dense forest during autumn, with trees displaying vibrant colors of red, orange, and yellow, and a clear stream running through. 然后ChatGPT给我们生成了两个Prompt: Prompt 1: Capture…

Midjourney

Midjourney V6 Beta 矫枉过正了，不过亮点也很大

ByVito 2023年12月22日2023年12月22日

没有一点征兆，Midjourney V6 测试版就在圣诞节前发布了。大概是迫于竞争对手带来的压力。彼时，Midjourney 一骑绝尘。那时候还没有 Adobe Firefly，也没有 DALL-E 3。如今，连谷歌和 Meta 在文生图方面都在步步紧追。从测试版来看，V6 的更新无疑是巨大的。官方发表的通告里也指出，V6 写提示词的方法和 V5 有巨大差异。用户可能要重新学习如何写提示词。 Midjourney 主要围绕三点进行了更新：1. 让真实风格的(photorealistic)照片更加写实 2. 提高了语义理解能力 3. 提高了生成文本的能力。在这篇文章里，我主要进行两组测试：写实肖像和生成文本。我的提示词里面很多也用自然语言风格书写，这样可以看出 V6 的自然语言理解能力。肖像测试 V 5.2 为人所诟病的一点就是，生成的人像皮肤光滑，缺乏纹理，跟 Stable Diffusion 生成的人像在写实方面有差距。测试下来，V6 的确在写实方面有很大提升。让我们来看 Prompt: lensbaby shot of young woman in a meadow, swirling bokeh background, ethereal lighting casting soft shadows on her face, dreamlike atmosphere…

Midjourney

如何上传图片到 ChatGPT 并生成 Midjourney 提示词

ByVito 2023年11月13日2023年11月13日

最近 OpenAI 新上线的语音和图像的新功能正式宣告 ChatGPT 进入了多模态时代。其实语音功能已经不是一个新鲜话题了。早在 5 月 18 号，OpenAI 在美区苹果商店发布移动版的 ChatGPT 以后，就可以结合 iOS 的 Siri和快捷指令实现和用户实时对话。但它的图像识别功能直接让谷歌 Bard，这个以图像识别为特色的大模型黯然失色。除了 ChatGPT 之外，我还是 Midjourney 的爱好者。有了图像识别功能之后，我不由得想到何不用它来识别图像，并生成 Midjourney 的提示词，也许要比 Midjourney 内置的 /describe 命令效果要好呢。说干就干。首先要明确的是，由于 ChatGPT 的训练数据截止到 2022 年 1 月 (此前是 2021 年 9 月)，它并不懂 Midjourney 是什么。于是我先要训练 ChatGPT 让它理解什么是 Midjourney，以及如何写 Midjourney 提示词。我训练 ChatGPT 的提示词如下：我给它起了个名字叫 Vito，这样如果在后续的对话中它忘记了自己的角色，我可以称呼它的名字唤起它的记忆。ChatGPT 的输出如下：是的，我明白我的职责。作为 Midjourney…

对比

人物姿态效果

人物构图能力

前景背景分离能力

文本生成能力

悬空

画面布局能力

动作效果

超现实能力

两者结合的效果

为何差异如此巨大

总结

Similar Posts

Leave a Reply Cancel reply