Midjourney - 智启光信息技术

Stable Diffusion 修复 Midjourney 有瑕疵照片

ByVito 2024年1月3日2024年1月3日

Midjourney V6 生成的照片在质感上有了一个巨大的提升。下面4张图就是 Midjourney V6 生成的。如果仔细观察人物和老虎的面部，细节真的很丰富。但仔细观察上面四张图的手部细节，就会发现至少有两只手是有问题的。这也是目前所有 AI 绘图工具面临的问题。当人物在画面中占的比例很大，这样的问题出现的频率就会小些。通过 Reroll (抽卡) 有很大概率能得到一张没有问题的图片。然而，当人物在画面中的比例占的比较小时，人物的细节 (比如面部和手部)就更容易出问题。即使不停地Reroll (抽卡) 也无法解决这个问题。当然，Midjourney 有局部重绘功能，可以修复一些画面中的瑕疵，不过目前还无法在 V6 版本上使用。即使可以使用，也无法精确控制生成的效果。Midjourney 的局部重绘是通过提示词来控制的，但很多画面是无法用语言来精确描述的。比如手部的姿势，手指的弯曲度等等。下面这张图也是用 Midjourney V6 生成的，就像前面说过的，由于人物在画面中的比例比较小，人物的细节很容易出问题。如果放大来看，脸部，双手都有问题。既然 V6 没有局部重绘来修复细节，最佳方案便是 Stable Diffusion。它比 Midjourney 更容易产生我们想要的效果。很多人没有用过 Stable Diffusion 的原因是显卡不给力。其实可以租用云平台来跑 SD，按小时收费也很划算。感兴趣的话，可以看看我的这篇文章： 👉 玩 Stable Diffusion 没有好显卡？试试秋叶大佬推荐的云平台脸部在 Stable Diffusion 中比较容易修复，让我们从最难的部分开始，就是上图中的左手。上图中的左手指甲盖有问题，而且手是攥在一起的，显得人物很紧张，不优雅。首先我用一个 3D 模型软件 DesignDoll 做出想要的手部姿势。下载地址是…

Midjourney

Midjourney V6 Beta 矫枉过正了，不过亮点也很大

ByVito 2023年12月22日2023年12月22日

没有一点征兆，Midjourney V6 测试版就在圣诞节前发布了。大概是迫于竞争对手带来的压力。彼时，Midjourney 一骑绝尘。那时候还没有 Adobe Firefly，也没有 DALL-E 3。如今，连谷歌和 Meta 在文生图方面都在步步紧追。从测试版来看，V6 的更新无疑是巨大的。官方发表的通告里也指出，V6 写提示词的方法和 V5 有巨大差异。用户可能要重新学习如何写提示词。 Midjourney 主要围绕三点进行了更新：1. 让真实风格的(photorealistic)照片更加写实 2. 提高了语义理解能力 3. 提高了生成文本的能力。在这篇文章里，我主要进行两组测试：写实肖像和生成文本。我的提示词里面很多也用自然语言风格书写，这样可以看出 V6 的自然语言理解能力。肖像测试 V 5.2 为人所诟病的一点就是，生成的人像皮肤光滑，缺乏纹理，跟 Stable Diffusion 生成的人像在写实方面有差距。测试下来，V6 的确在写实方面有很大提升。让我们来看 Prompt: lensbaby shot of young woman in a meadow, swirling bokeh background, ethereal lighting casting soft shadows on her face, dreamlike atmosphere…

Midjourney

Midjourney 实现角色一致性的新方法

ByVito 2023年12月17日2024年8月11日

AI 绘画的奇妙之处，实乃令人叹为观止！就像大千世界中，寻不见两片完全相同的树叶一般，AI 绘画亦复如是。同一提示之词，竟能催生出千变万化的图像，使得AI所绘之作，宛如自然之物般独特，毫无呆板重复之嫌。然而，这种随机性却给许多用户带来了不小的困扰。尤其对于那些故事书或绘本的创作者来说，他们往往希望 AI 生成的人物能够保持一致的特征，以便为故事书或绘本塑造统一的人物形象。角色一致性这一议题并非新生事物，过去我们曾采用过多种方法来解决这一问题，如借助随机种子（seed）或上传参考图等手段。然而，随着 Midjourney 的不断迭代更新，新的方法往往会超越旧有的手段。本文旨在介绍一种全新的方法，通过它我们能够实现更为持久且精准的角色一致性。我以真人举例，漫画人物的方法雷同。 1. 为角色创建相册第一步是为角色创建一个相册。这个相册展示了角色不同角度和表情的头像。我用的提示词如下： Prompt: wide 12-frame photo sheet, young woman with pixie-cut brunette hair, white background, diverse angles and expressions 提示词：12 幅宽幅照片，年轻女性，褐发精灵头，白色背景，不同角度和表情我更倾向于将这一提示词输入到DALL-E之中，因为它能够生成更为规范的格子布局。同时，DALL-E的格子布局还蕴藏着诸多巧妙的用途，具体细节可参阅我此篇文章：下图是 DALL-E 生成的图片。 Midjourney 生成的 Photo Sheet 布局会乱一些，人物的一致性也会略差一些，请看下图：不过，如果用 DALL-E 生成的图像做参考图的话，Midjourney 也能生成比较稳定的格子布局。并且，通过平移 (Pan) 和放大 (Upscale)，还可以生成更多头像。不过，我不建议目前这么操作，因为格子越多，Midjourney 越不稳定。 2. 截图并上传头像一旦我们拥有了人物的头像相册，便可以为人物创建场景提供有力的参考。接下来的步骤是挑选出一些具有差异且效果上佳的头像，截图并保存，再上传到 Midjourney…

Midjourney

如何用 Midjourney 弥补 DALL-E 的不足

ByVito 2023年12月13日2023年12月13日

纵观各个 AI 绘图工具，DALL-E 无疑是最独特的一个。和 ChatGPT 一样，DALL-E 拥有出色的语义理解能力，用户可以根据提示词非常精确地控制画面的内容，但它生成的图片却缺乏一些艺术感。Midjourney 则相反，它像一个理解力比较弱，但艺术表达力比较强的艺术家。它生成的图像质感和艺术效果都很棒。那么，有没有可能，让 Midjourney 能够利用 DALL-E 出色的语义理解能力或构图能力呢？或者说，用 Midjouney 提升 DALL-E 的画质。本文将会用实际案例进行探讨。单独用DALL-E 我们都知道，DALL-E 在生成真人照片方面效果很差。不仅皮肤缺乏质感，甚至还会出现眼睛残缺的现象。比如下面这副照片： Prompt: Photo of a young woman in her early 20s, with short, vibrant purple hair, is skateboarding in a bustling cityscape at sunset. She wears a graphic t-shirt, ripped jeans, and bright red sneakers. The…

Midjourney

Midjourney 要完蛋了吗？DALL·E 3 效果如何？

ByVito 2023年11月13日2023年11月13日

OpenAI 已经为部分 ChatGPT Plus 用户开放了 DALL·E 3 模型。从此，Plus 用户在 ChatGPT 内部就可以进行 AI 绘图啦。免费 ChatGPT 可以在 Bing 的网站上使用预览版，如果你还未曾使用过的话，可以在浏览器上输入 bing.com/create。新用户可以免费生成 100 张图片，超过 100 张的话也是免费的，只是图片生成的速度会慢些。我非常好奇 DALL·E 3 和 Midjourney 这两个 AI 绘图工具的差异，于是深度测试了一下。我主要围绕以下几个维度展开：人物姿态效果，人物构图能力，前景背景分离能力，文本生成能力，悬空，画面布局能力，动作效果，超现实能力这几个维度展开。这几个维度基本上是 Midjourney 非常薄弱的方面，通过下面要展示的图片，我发现两者之间存在的不可弥合的巨大差异。展示的图片是我经过几轮的生成，并挑选出效果最好的进行对比。对比人物姿态效果我在以往的绘图中发现，Midjourney 对于人物姿态的理解真是弱爆了。如果用非常精准的提示词描述人物的姿态，那生成的图片一定让你感到失望。比如在下面的提示词中，我非常精准地描述了一位芭蕾舞者优美的姿势。 Prompt: A ballet dancer showcasing exceptional athleticism and grace. En pointe on her right foot, her left…

Midjourney

如何上传图片到 ChatGPT 并生成 Midjourney 提示词

ByVito 2023年11月13日2023年11月13日

最近 OpenAI 新上线的语音和图像的新功能正式宣告 ChatGPT 进入了多模态时代。其实语音功能已经不是一个新鲜话题了。早在 5 月 18 号，OpenAI 在美区苹果商店发布移动版的 ChatGPT 以后，就可以结合 iOS 的 Siri和快捷指令实现和用户实时对话。但它的图像识别功能直接让谷歌 Bard，这个以图像识别为特色的大模型黯然失色。除了 ChatGPT 之外，我还是 Midjourney 的爱好者。有了图像识别功能之后，我不由得想到何不用它来识别图像，并生成 Midjourney 的提示词，也许要比 Midjourney 内置的 /describe 命令效果要好呢。说干就干。首先要明确的是，由于 ChatGPT 的训练数据截止到 2022 年 1 月 (此前是 2021 年 9 月)，它并不懂 Midjourney 是什么。于是我先要训练 ChatGPT 让它理解什么是 Midjourney，以及如何写 Midjourney 提示词。我训练 ChatGPT 的提示词如下：我给它起了个名字叫 Vito，这样如果在后续的对话中它忘记了自己的角色，我可以称呼它的名字唤起它的记忆。ChatGPT 的输出如下：是的，我明白我的职责。作为 Midjourney…

Midjourney

50+ Midjourney 美食相关提示词，看了别流口水哦

ByVito 2023年11月13日2023年11月13日

Midjourney 是一个无限的创意宝藏。通过对提示词的精挑细选，我们就可以从这个宝藏里面挖掘无数的美食创意。有些效果令人惊叹，甚至无法在现实世界中复刻。本文不只是罗列 50 多个提示词，而是对它们进行分门别类，并附上图片。相信你一定可以从中获得灵感，让我们开始吧！构图构图是指主题和元素在图像中的位置和呈现方式。构图对美食照片的影响是全局的。好的构图可以瞬间吸引观众的眼球。悬浮营造一种悬浮在画面中的错觉，可以让食物看上去更有层次，为画面增添动感和魔力。某些食物如果悬浮不起来，可以尝试通过否定参数 –no 把液体排除。 Prompt: spirals of spaghetti, tomato chunks, garlic, and basil leaves suspended in a dynamic arrangement in the air –no water (螺旋形面条、番茄块、大蒜和罗勒叶悬浮在空中，形成动态排列) Prompt: Vibrant lemon slices, fresh mint leaves, and ice cubes suspended in mid-air, captured in a high-speed, dynamic, and refreshing composition with crisp natural…

Midjourney

如何在 Midjourney 中用「烟」和「雾」创造空灵之美

ByVito 2023年11月13日2023年11月13日

在摄影和视觉艺术领域，很少有元素能像烟、雾、蒸汽那样具有不可捉摸的形态。得益于千变万化的形态，它们不仅可以为图像注入柔和、神秘的静态效果，还能赋予静止的物体以动态感。要在现实世界中得到烟雾效果并不容易，但在 Midjourney 中只需要一些提示词技巧就可以实现。我们来一起探索如何在 Midjourney 中实现各种类型的烟雾效果，如何将其融入到风景、建筑和肖像中以增强气氛，以及如何利用颜色和灯光创造出令人惊叹的视觉效果。烟雾效果的类型几个世纪以来，各种形式的烟雾一直是视觉艺术中迷人的主题和元素。它难以捉摸的形态以及传达情感的能力使其成为艺术家手中的多功能工具。每种形式都会产生独特的视觉风格。灰尘和沙漠烟雾可以为快速移动的物体营造出速度感。清晨柔和的雾气则给城市或乡村增添了一层神秘和宁静。从美食中升起的诱人蒸汽不仅表明了它的温度，还营造了一种现场感。每种类型的烟雾效果都具有独特的特征和情感。 Prompt: a Rolls Royce races on a desert highway leaving spectacular billowing plumes of dust smoke in its wake, golden hour –ar 16:9 (一辆劳斯莱斯在沙漠公路上疾驰，留下壮观的滚滚尘烟，黄金时刻) Prompt: layers of rolling fog over San Francisco cityscape at blue hour, Phase One, urban landscape –ar 16:9 (蓝色时刻旧金山城市景观上的层层滚动雾气，Phase One，城市景观) Prompt:…

Midjourney

我用 Midjourney 的 (Flat Lay, Knolling) 风格治愈了强迫症

ByVito 2023年11月13日2023年11月13日

在 Midjourney 能够实现的各种布局之中，有两种风格因其简洁、有序而独居魅力，它们就是平铺 (Flat Lay) 和 Knolling (Knolling 就是 Knolling, 无法翻译🤣)。要在现实生活中实现这样的美学效果并不容易，你需要精心挑选各种小物件，并构思如何布置才能别具匠心，给人带来视觉上的愉悦体验。有了 Midjourney，你只需要把相关的关键词囊括在提示词中，就可以创造出引人注目的艺术作品。平铺 (Flat Lay) 为何引人注目平铺的画面布局最初起源于摄影，是一种从正上方拍摄物体的技术，创造出二维的“平面”视角。这些物体通常排列在平坦的表面上，例如桌子或地板。这种艺术形式之所以能风靡 Instagram，就在于通过简单和秩序讲述一个故事或传达一个主题。它用途广泛，适合各种场合，从展示时尚配饰到奢华的美食、科技产品等等。在 Midjourney 中实现平铺效果 Midjourney 的真正魅力在于它能够根据你提供的提示词生成艺术作品。但是，要写出完美的提示词，需要了解平铺的艺术语言。我在实践中发现，“flat lay” 在 Midjourney 中是一个非常有效的词，大多数情况下都能够触发 Midjourney 的平铺效果。它可以作为一个形容词放在要被平铺的物体前面。请看两个例子： Prompt 1: flat lay art supplies (平铺美术用品) Prompt 2: space-themed flat lay, planets and stars (太空主题平面布置，行星和恒星) 在提示词中包含了 “flat lay” 这个词，Midjourney 会自动根据你要排列的物体调整相应的布局和背景，甚至还包括灯光效果。总体来说，背景会比较简单，使得整体构图看上去不凌乱。虽然 “flat lay”…

Midjourney

Midjourney 提示词生成器 G-Prompter 可以让你训练自己的风格

ByVito 2023年11月13日2023年11月13日

只需要一段简单的文本描述，Midjourney 就可以为你生成一副令人惊艳的图像。比如当你输入 “穿商务装，面带微笑的女人” 这个提示词时，Midjourney 会生成一副非常逼真的职场女性肖像，似乎是一位专业的摄影师的杰作。虽然灯光，人物神态，背景虚化等效果都不错，但它就像工厂里批量生产的工艺品，并没有自己独特的地方。很多时候一个简单的提示词并不能生成与众不同的图像。要精心编写一个出色的提示词并不简单，你要构思各种艺术媒介，环境，灯光，颜色，情绪，构图，画风等，这些对于非艺术专业出身的普通人来说充满挑战。然而值得庆幸的是，有很多人工智能工具可以辅助你完成这个艰巨的任务。今天要给大家介绍的就是这样一款免费工具，直接打开 g-prompter.com 这个网站就可以使用。 G-Prompter 是一个提示词生成工具，目前主要针对文生图。也就是说，只要输入一段非常简短的图像描述，G-Prompter 就会从这个描述出发，根据你选择的艺术媒介和画风，自动补充环境，灯光，颜色，构图等细节，从而生成一个非常详细的，自定义的提示词。你随后可以把生成的提示词提交给 Midjourney, Stable Diffusion 和 Leonardo.Ai 等 AI 图像生成工具。和其他 Midjourney 提示词生成器不同的是，它还可以基于你导入的提示词进行训练，从而获得更佳的效果。或者你可以把自己写过的提示词导入并进行训练，从而生成属于自己风格的提示词。你的训练数据还会自动保存在本地。我们通过实际的例子来了解它吧。 G-Prompter 主要有四种模式，分别是训练模式，摄影模式，绘画模式和矢量图模式。训练模式比较复杂，我将在文章的后半部分介绍。我先选择了摄影模式，然后把之前的提示词 “smiling woman in business attire (穿商务装，面带微笑的女人)” 输入 “Enter idea” 下方的文本框。然后你可以选择要生成的提示词的长度 (Prompt Length)，艺术风格 (Use AI imagination)，宽高比 (MJ Ratio)，Midjourney 版本 (MJ Version)。如上图所示，我这里的长度选择是非常长 (Really long)，艺术风格是由 AI 自动匹配 (Artistic Style)。点击 “Submit”…