实现 DALL-E 3 角色一致性, 99% Character Consistency

ByVito 2023年11月14日2023年11月14日

角色一致性在海内外的 AI 绘图圈是一个热门话题。小说，漫画，故事绘本等插图需要角色保持比较统一的形象。然而实现起来并不容易。在 DALL-E 3 中，任何基于之前图像的修改都很可能导致新图像的巨大差异。

很多人以为通过给角色添加一段很长的描述，加上姓名，或者指定一个 seed 值就解决了这个问题。实际上可能是小概率事件，或者角色的差异看上去并不明显。如果角色是真人的话，实现起来就更困难了。任何面部的细微差异都能被识别出来。本文就先从困难的真人角色的一致性开始介绍，然后再过渡到动画人物的一致性。

目前要达到 99.9% 角色一致性，只能在一张图里实现。然后通过裁切和放大再分成多张图片。实现起来并不复杂，只需要按照特定的格式来写提示词。让我看先看一个例子。

Prompt: Photo montage of a middle-aged man with short hair. Top-left shows him laughing in casual attire. Top-right portrays him reading a book in glasses and a sweater. Bottom-left captures him jogging in sportswear with determination. Bottom-right depicts him playing guitar in a relaxed environment.
提示词：短发中年男子的马赛克照片。左上角是他穿着休闲装谈笑风生的样子。右上角是他戴着眼镜、穿着毛衣看书的样子。左下角为他穿着运动装，坚定地慢跑。右下方是他在轻松的环境中弹吉他的画面。

请注意这是一张图片，而不是 DALL-E 3 默认生成的四张图片。上图的提示词可以总结成一个模板：

[媒介] [布局] [左上描述] [右上描述] [左下描述] [右下描述] 。

媒介：媒介就是要生成的图片类型，比如照片，水彩画，插画，卡通等等。
布局：通过布局类的关键词，让 DALL-E 3 生成多张图片的拼贴效果。上图用的关键词是 montage (蒙太奇)，也可以用其他关键词，比如 grid (网格), arrangement (排列), collage (拼贴画), quad-diptych (四联画), storyboard (故事板), panorama (全景图), split-screen (分屏), mosaic (马赛克), film strip (胶片条), comic strip (连环画) 等。
描述：分别描述左上、右上、左下、右下四张拼贴图片中的人物

再来看一些例子吧。

Prompt: Photo grid of a young woman with curly hair. Top-left captures her painting in an apron. Top-right shows her dancing in a red dress. Bottom-left illustrates her cooking in a chef’s hat. Bottom-right presents her cycling in sportswear.
提示词：一位卷发少女的照片。左上方为她穿着围裙作画的照片。右上方是她穿着红色裙子跳舞的样子。左下方是她戴着厨师帽做饭的样子。右下方是她穿着运动装骑自行车。

Prompt: Photo montage of an elderly gentleman with a beard. Top-left showcases him playing chess in a suit. Top-right has him gardening in overalls. Bottom-left captures him fishing in a hat and vest. Bottom-right shows him playing the piano in a cozy room.
提示词：一位留胡子老先生的照片蒙太奇。左上角是他穿着西装下棋的样子。右上角是他穿着工作服在园艺。左下角是他戴着帽子、穿着背心钓鱼的照片。右下角是他在舒适的房间里弹钢琴。

Prompt: Photo panorama capturing a woman in her 30s with a pixie cut. Top-left: practicing martial arts in a dojo. Top-right: sipping coffee in a cafe. Bottom-left: biking in a park. Bottom-right: reading in a library corner.
提示词：照片全景，捕捉一位 30 多岁、剪着精灵头的女性。左上：在道场练习武术。右上：在咖啡馆喝咖啡。左下：在公园骑自行车。右下：在图书馆一角阅读。

Prompt: Wide photo grid of a girl in her teens with braided hair. Top-left captures her studying with books. Top-right depicts her playing violin. Bottom-left illustrates her swimming with goggles. Bottom-right shows her dancing in a studio.
提示词：一个梳着辫子的十几岁女孩的宽幅照片。左上角是她拿着书本学习的画面。右上方是她拉小提琴的画面。左下角是她戴着护目镜游泳。右下角为她在舞蹈室跳舞。

需要说明的是，目前 DALL-E 3 对于这类拼贴图生成的效果并不完美。比如有些图中人物的手是残缺的，有些图则生成了六张图的拼贴。

正因为目前的限制，所以我才设定为四张图的拼贴效果。超过四张的话可能出现的错误会更多。然而，如果只是需要变换人物姿势或表情，而不涉及动作的话，六张图也能取得比较好的效果。请看下面两个例子：

Prompt: Wide photo arrangement featuring 6 frames of a 20-year-old Australian woman. She has platinum bob with dark roots. In each frame, she maintains consistent features but showcases different poses. Each frame is uniformly sized and evenly spaced for hassle-free cropping.
提示词：宽幅照片布置，包含一名 20 岁澳大利亚女性的 6 幅照片。她留着深色发根的白金波波头。在每一帧照片中，她的五官保持一致，但展示了不同的姿势。每个相框大小一致，间距均匀，便于剪裁。

Prompt: Wide photo arrangement featuring 6 frames of a 20-year-old Chinese woman. She has tight, high ponytail. In each frame, she maintains consistent features but showcases different expressions, such as joyful, angry, sad, playful, worried, etc. Each frame is uniformly sized and evenly spaced for hassle-free cropping.
提示词：宽幅照片布置，展示一位 20 岁中国女性的 6 幅照片。她扎着高高的马尾辫。在每一帧照片中，她的五官保持一致，但表情各异，如喜悦、愤怒、悲伤、嬉戏、担忧等。每个相框大小一致，间距均匀，便于剪裁。

上面介绍的都是真人照片 (Photo) 的媒介。除此之外，在其他媒介上也能实现角色一致性。只需要模板 “[媒介] [布局] [左上描述] [右上描述] [左下描述] [右下描述]” 里的媒介换成除了 Photo 以外的关键词即可。请看下面的例子：

Prompt: Cartoon mosaic of a middle-aged man with short hair. Top-left shows him laughing in casual attire. Top-right portrays him reading a book in glasses and a sweater. Bottom-left captures him jogging in sportswear with determination. Bottom-right depicts him playing guitar in a relaxed environment.
提示词：短发中年男子的卡通马赛克。左上角是他穿着休闲装谈笑风生的样子。右上角是他戴着眼镜、穿着毛衣看书的形象。左下角为他穿着运动装，坚定地慢跑。右下方是他在轻松的环境中弹吉他的画面。

Prompt: Comic strip of a young woman with curly hair. Top-left, she’s in professional attire at the office, top-right, she’s dressed for a glamorous night out, bottom-left, she’s in casual loungewear at home, and bottom-right, she’s in comfy pajamas ready for bed.
提示词：一位卷发年轻女性的连环画。左上角，她穿着职业装在办公室工作；右上角，她穿着华丽的晚装外出；左下角，她穿着休闲装在家；右下角，她穿着舒适的睡衣准备睡觉。

Prompt: Illustration montage featuring a Chinese woman’s artistic pursuits: top-left, she’s sculpting clay, top-right, she’s playing the violin in a concert hall, bottom-left, she’s acting on a theater stage, and bottom-right, she’s writing at a cozy desk with a typewriter.
提示词：蒙太奇插画，描绘一位中国妇女的艺术追求：左上，她正在泥塑；右上，她正在音乐厅拉小提琴；左下，她正在戏剧舞台上表演；右下，她正在舒适的书桌前用打字机写作。

Prompt: Watercolor panorama of a woman pursuing various careers: top-left, she’s in a lab coat as a scientist, top-right, she’s wearing a business suit as a CEO, bottom-left, she’s in a police uniform as a detective, and bottom-right, she’s dressed as a chef in a restaurant kitchen.
提示词：一位从事各种职业的女性的水彩全景图：左上角，她穿着白大褂，是一位科学家；右上角，她穿着商务套装，是一位首席执行官；左下角，她穿着警服，是一位警探；右下角，她穿着厨师服，在餐厅厨房工作。

Prompt: Storyboard depicting depicting a woman’s adventures in travel: top-left, she’s exploring ancient ruins, top-right, she’s riding a gondola in Venice, bottom-left, she’s hiking in a lush forest, and bottom-right, she’s on a safari observing wildlife.
提示词：故事板，描绘一位女士的旅游冒险经历：左上角，她在探索古代遗迹；右上角，她在威尼斯乘坐贡多拉；左下角，她在茂密的森林中徒步旅行；右下角，她在野生动物园观察野生动物。

Prompt: Cartoon montage of a cheetah track athlete. Top-left showcases him stretching before a race. Top-right has him sprinting. Bottom-left portrays him crossing the finish line, victory evident. Bottom-right shows him hydrating with a sports drink.
提示词：猎豹田径运动员的卡通蒙太奇。左上角展示的是它在比赛前的拉伸动作。右上方是它在冲刺。左下描绘它冲过终点线，胜利在望。右下角是他在用运动饮料补充水分。

最后，还有几点需要说明。鉴于目前 DALL-E 3 对于角色一致性的效果还不完美，所以我生成的图片都是方形的。你也可以尝试其他宽高比，但据我的实践发现，出错的概率会更高一些。

出现错误的话，可以多尝试几次。还有就是，DALL-E 3 目前经常处于不稳定的状态，有时候只生成一张图片的效果反而会好些，这时候我会在自定义指令中添加这句提示词：

Prompt: Always generate only one image in DALL-E 3.
提示词：在 DALL-E 3 中始终只生成一个图像。

还有就是，有时候它根据你的提示词生成的提示词跟你的版本有很大差异，也会让效果打一些折扣。这时候我会借鉴推特上的方法，在自定义指令里面加上这句话：

Prompt: “@DM” means: do not in any circumstance modify my prompt, please create image using this prompt:
“@DM “的意思是：在任何情况下都不要修改我的提示词，请使用此提示词创建图像：

这时候，只需要在提示词前加上 “@DM” 即可，因为它已经表示了让 DALL-E 3 不要修改提示词。

让人哭笑不得的是，有时候这两个提示词放在自定义指令里面也会失灵。因为 DALL-E 3 默认会修改你的提示词，并且生成四张图片。但其他的提示词放在自定义指令里有时候会带来很多好处，比如提升图片质量，或者解决侵权问题。具体可以参考我上一篇文章：一招让你的图像更惊艳！DALL-E 3 自定义指令魔法

不管怎么说，DALL-E 3 能生成拼贴图，并且还能在每个部分精确刻画角色的活动，这一点是 Midjourney 无法实现的。相信后续的 DALL-E 3 会更强大，会解决目前的一些 Bug。

伙伴们如果有更好的方案，欢迎发消息与我探讨。

DALL·E 3

一招让你的图像更惊艳！DALL-E 3 自定义指令魔法

ByVito 2023年11月14日2023年11月14日

DALL-E 3 的简单易用让 AI 绘画变得更普及了。只需要输入一个简单的提示词，DALL-E 3 就能生成一幅非常有场景感的照片。比如我输入了 “年轻女人的照片” 这个提示词，DALL-E 3 生成的女人照片不仅有不同的场景，而且还来自多民族。对于中国人来说，最大的卖点莫过于支持中文提示词。反观另一个 AI 绘图工具，Midjourney，对新手就不那么友好了。它的提示词并不通俗易懂，有时候简直像魔法师的咒语一样。它还有一堆参数需要掌握，有时候会让新手感到困惑。比如同样输入 “photo of young woman” 这个提示词，如果你加上–style raw 这个参数，得到的结果可能是这样的：总而言之，Midjourney 需要掌握很多提示词技巧，而 DALL-E 3 可以自动帮你生成内容非常丰富的提示词。尽管如此，在我看来，它生成的提示词还不够丰富，有很多优化的空间。并且如果你在提示词中包含侵权的对象，比如皮卡丘的话，DALL-E 3 因为它的内容政策会拒绝你的图片请求。为此，我设计了下面的自定义指令 (Custom instructions)。把它添加到你的自定义指令中，就能一劳永逸地提升每一张图片的效果，也可以解决侵权问题。如果你还不了解 DALL-E 3 的侵权问题和解决方案的话，可以阅读这篇文章：快看！如何绕过 DALL-E 3 的版权限制需要说明的是，自定义指令是 ChatGPT Plus 用户的一项功能，如果你是 DALL-E 3 的新手的话，可以先阅读这篇文章：重磅！ChatGPT 可以进行 AI 绘图了，来看教程吧自定义指令的位置很好找，只需要在 ChatGPT 界面中点击自己的用户名或者头像，在弹出的菜单中就可以找到。点击自定义指令以后，把下面的提示词填入即可。下面是英文的自定义指令。当你用英文的自定义指令是，如果在 DALL-E 3 中输入中文的提示词，同样也可以生成图片，只是它的响应的语言是英文。…

DALL·E 3

快看！如何绕过 DALL-E 3 的版权限制

ByVito 2023年11月14日2023年11月14日

你是否在用 DALL-E 3 (ChatGPT) 作画正嗨时，它告诉你对不起，由于内容政策无法为你生成图片。然后你得乖乖重写一个提示词，真的很烦人！比如说你想生成一个喜欢的动画或电影人物的图片，只是想自己看看娱乐一下，并不想拿来商用，难道就因为版权问题止步于此了吗？如果你还没遇到，那么恭喜你，你一定会遇到的。要想彻底解决这个问题，让我们先了解一下它的内容政策。给 DALL-E 3 这个提示词：、你好，DALL-E 3，你们关于版权的内容政策是什么？就得到了如下回答：所以比较好的情况是，DALL-E 3 会修改你的提示词，让它遵循内容政策。比如说我写了这个提示词： Prompt: Photo of Po from “Kung Fu Panda” practicing his martial arts moves in a serene bamboo forest, surrounded by tranquility. 提示词：《功夫熊猫》中的阿宝在一片宁静的竹林中练习武术动作的照片。这个提示词居然成功生成了非常酷似阿宝的照片。难道阿宝并没有版权限制吗？并非如此，我看了下它生成的提示词，比如第一个： Prompt: Photo of a large animated panda, similar to Po from ‘Kung Fu Panda’,…

DALL·E 3

在 DALL-E 3 中创建角色并一步步调整

ByVito 2023年11月14日2023年11月14日

创建角色并进行一系列调整在 DALL-E 3 中并不难，关键在于让 DALL-E 3 在多轮对话中清楚地识别出你说的是哪张图片，并保留其中的元素或风格。这样，你就能轻松地使用 DALL-E 3 进行图片编辑了。在本文中，我将首先介绍如何让 DALL-E 3 清楚地知道你说的是哪张图片。然后我们一起来创建一个角色，并进行一系列调整，并尽可能保持一致的角色。本文用到的是 ChatGPT 里的 DALL-E 3，如果你是新手的话，可以先参考下这篇文章：重磅！ChatGPT 可以进行 AI 绘图了，来看教程吧首先，我建议在自定义指令 (Custom Instructions) 包含下面的提示词： Prompt: Assign a unique identifier to each image displayed beneath it in the format: “x” followed by a sequential number. 提示词：为下方显示的每幅图像指定一个唯一标识符，格式为 “x “后跟一个顺序号。中英文皆可，建议英文。这个方法是 X 用户@anukaakash 发明的。它的目的是让 DALL-E…

DALL·E 3

DALL-E 3 不只是文生图！10 个案例颠覆认知

ByVito 2023年11月14日2023年11月14日

DALL-E 3 的出现又一次颠覆了 AI 绘图行业，它生成的图片迅速走红社交媒体。很多人被它生成文字和超现实图像的能力所吸引，但并没有发掘它的另一个强大功能—把你脑中的 Idea 变成现实中的图像。很多时候一张图胜过千言万语，当语言无法清楚表达你的想法时，不妨考虑把它交给 DALL-E 3。你只需要告诉 DALL-E 3 你的想法，并让它把想法可视化即可。 DALL-E 3 会自动根据你的想法帮你写提示词，并最终生成图像。我在这篇文章里发掘了10个使用场景，希望能给你一些灵感。如果你还没有在 ChatGPT 里使用过 DALL-E 3 的话，可以看看这篇文章： 👉 重磅！ChatGPT 可以进行 AI 绘图了，来看教程吧活动策划提示词: 我正在为公司的年会组织一场企业活动，需要一些可视化方面的帮助。概念是这样的：活动将在一个宽敞的会议中心举行，天花板很高。主厅将有一个大舞台，舞台背景将显示我们公司的徽标。在舞台的两侧，将有两个大型 LED 屏幕显示演示文稿和视频。我希望为与会者摆放一排排椅子，中间有一条过道通向舞台。在主厅右侧，我设想设置一个交流区，摆放圆桌，每张桌子上都铺有品牌桌布。这个区域应该有更轻松的氛围，有盆栽植物和柔和的灯光。在左侧，我想为我们的合作伙伴和赞助商设立展台。每个展位都要有背景墙、柜台和一些宣传材料。在入口处，我设计了一个带有我们品牌标识的登记台，两侧有两条横幅。在登记台后面，应该有一个显示活动日程的电子屏幕。最后，餐饮区将设在最远处，那里有自助餐桌、吧台和休息区。您能用 3D 效果图帮我想象一下这样的布置吗？ DALL-E 通过4张图片展示了公司活动现场的效果，并做出了以下说明：以下是企业活动的可视化设置：主厅：这张图片展示了会议中心宽敞的主厅。大舞台的背景墙上印有公司徽标，十分醒目。舞台两侧的 LED 屏幕可随时播放演示文稿，一排排供与会者使用的椅子整齐地排列在通往舞台的中央过道上。交流区：这是主会场旁边的交流区。铺着品牌桌布的圆桌散布各处。盆栽植物和柔和的灯光为与会者营造出轻松惬意的氛围。合作伙伴和赞助商展位：此图重点展示了合作伙伴和赞助商的专用空间。每个展位都各具特色，配有背景墙、柜台和宣传材料。这种布局便于与会者浏览。入口和食品区：会展中心入口处有一个醒目的登记台，两侧有横幅标语。登记台后面的电子屏幕显示着活动日程。在背景中，可以看到餐饮区，包括自助餐桌、吧台和休息区。我希望这些可视化设计能帮助您将企业活动的愿景变为现实！如果您有任何反馈或需要进一步调整，请告诉我。景观设计提示词：我想制作 3D 效果图，以直观地展示花园设计布局。我的想法是这样的：…

DALL·E 3

有了 DALL-E 3，从此自己设计T恤 (附30个提示词模板)

ByVito 2023年11月14日2023年11月14日

学会 DALL-E 3 真是好处多多，只需要一句提示词，T恤图案就出来了。找厂家生产出来，送给亲朋好友，是一件多么贴心的事情。它真是太有趣了，玩着玩着就停不下来，不知不觉就搞出了 30 个T恤风格，欢迎大家品鉴。T恤设计有些特殊，需要宽幅的画面才能完整地并排展示T恤和图案。在 Bing Image Creator 里有些尴尬，不信可以试一下。如果还没在 ChatGPT 里用过 DALL-E 3，可以看看这篇文章： 👉 重磅！ChatGPT 可以进行 AI 绘图了，来看教程吧几何动物 Prompt: Wide vector designs printed on a t-shirt showcasing a geometric {Your Animal Here}, with the text ‘{Your Text Here}’ below. 提示词：将宽幅矢量设计印制在 T 恤上，展示几何形状的{您的动物}，并在下面注明”{您的文字}”。示例：印制在白色 T 恤衫上的宽幅矢量设计，展示一只几何图案的狮子，下面是文字 “我是国王”。举例：宽矢量图形印在淡紫色 T…

DALL·E 3

重磅！ChatGPT 可以进行 AI 绘图了，来看教程吧

ByVito 2023年11月13日2023年11月13日

前几个月，OpenAI 上线了代码解释器，从此人们无需代码，只要通过自然语言，就可以进行大数据分析，从此人人都是数据分析师。就在最近，又上线了 DALL·E 3，通过自然语言，在 ChatGPT 就可以进行 AI 绘画，从此人人都是数字艺术家。比如说，我在推特上 @LearnAI_MJ 看到的最有创意的提示词就是 “A painter painting a canvas, where the canvas shows the same painter painting a canvas, and so on (一个画家在画布上作画，画布上显示的是同一个画家在画布上作画，以此类推)”。把这段文本输入 DALL·E 3，ChatGPT 就为我生成了下图：从此在数字艺术领域，比拼的不是技术，而是创意。那么如何在 ChatGPT 中使用 DALL·E 3 进行 AI 绘画呢？在下面的文章中，我将从基本的方法开始，一步步过渡到 DALL·E 3 的高级用法。 1. 如何激活 DALL·E 3 目前 DALL·E 3 仅对部分 ChatGPT…

Similar Posts

Leave a Reply Cancel reply