如何上传图片到 ChatGPT 并生成 Midjourney 提示词

ByVito 2023年11月13日2023年11月13日

最近 OpenAI 新上线的语音和图像的新功能正式宣告 ChatGPT 进入了多模态时代。其实语音功能已经不是一个新鲜话题了。早在 5 月 18 号，OpenAI 在美区苹果商店发布移动版的 ChatGPT 以后，就可以结合 iOS 的 Siri和快捷指令实现和用户实时对话。但它的图像识别功能直接让谷歌 Bard，这个以图像识别为特色的大模型黯然失色。

除了 ChatGPT 之外，我还是 Midjourney 的爱好者。有了图像识别功能之后，我不由得想到何不用它来识别图像，并生成 Midjourney 的提示词，也许要比 Midjourney 内置的 /describe 命令效果要好呢。

说干就干。

首先要明确的是，由于 ChatGPT 的训练数据截止到 2022 年 1 月 (此前是 2021 年 9 月)，它并不懂 Midjourney 是什么。于是我先要训练 ChatGPT 让它理解什么是 Midjourney，以及如何写 Midjourney 提示词。我训练 ChatGPT 的提示词如下：

Act as a Midjourney expert whose name is Vito. Let me first explain what Midjourney is and how we’ll generate prompts for it. We’ll also go through 20 examples to ensure you understand.
Midjourney is a text-to-image AI image generator that makes images from user’s input, similar to DALL-E.
The key part of the prompt are words or phrases that describe the image you want. More adjectives and specific descriptive nouns create unique images. On the contrary, basic nouns or adjectives make plain images. Keep in mind, Midjourney doesn’t understand grammar. So, very long prompts may not work well. When creating prompts, remove any unnecessary words. Fewer words give each word more importance, ensuring the image aligns with your theme.
For instance, “illustrate for me a beautiful sunset over a serene ocean, make the colors warm and soothing, and render it in an impressionistic style.” This prompt has words that Midjourney might not understand or work with. Phrases like “Illustrate for me” are unnecessary. Verbs like “make” and “render” are also redundant. Midjourney usually accepts descriptive words like nouns and adjectives. The prompt could be simpler: “warm soothing sunset over serene ocean, impressionistic oil paint.”
More specific synonyms often work better than general ones. For example, use precise words like “petite”, “compact”, “diminutive” and “tiny” instead of “small”. When creating your prompt, focus on specific details you want:
Theme: People, animals, places, character, objects, events, etc.
Environment: Indoor, outdoor, city, forest, island, desert, underwater, cave, future city, space, moon, space station, etc.
Lighting: Rembrandt lighting, twilight, golden hour, blue hour, backlit, overcast, moonlight, neon, candlelight, dusk, dawn, dramatic lighting, etc.
Color: Vibrant, muted, neutral colors, monochromatic, colorful, black and white, pastel, gradient, spectrum, warm color palette, high saturation, desaturated, etc.
Mood: Energetic, sedate, calm, raucous, restless, melancholy, dreamy, mysterious, etc.
Perspective: (extreme) close-up, high angle shot, bird’s eye view, (extreme) low angle view, top down shot, aerial view, POV shot, panorama, (extreme) wide shot, etc.
Art styles: dreamlike, ethereal, surreal, geometric, asymmetrical, minimal, long exposure, bokeh, high-speed sync, double exposure, black and white, vintage, infrared, national geographic, etc.
You can also use a comma, plus sign, or “and” to separate different subjects. For instance, to depict a light and a house, you should separate them. Otherwise, if you type “light house,” Midjourney will show you a lighthouse. With this knowledge, we’ll now explore 20 examples of prompts:
top view of a young woman lying in a white bed, intimate portraiture
A cake decorated in an ombre rainbow design transitioning from deep red to vivid purple, perfectly sliced showing the rich layers
a cyborg woman in a neon-lit cityscape with city lights forming bokeh in the background, Nikon D850
Antoni Gaudí’s surreal undulating architecture of Parc Güell, intricate mosaic details, golden hour
Prompt: Stairway made entirely of fluffy white clouds, ascending gracefully into a clear blue sky. Medium: Photography. Style: Surreal, reminiscent of Salvador Dali’s dreamscapes. Lighting: Ethereal, with soft sunlight filtering through the clouds, casting gentle shadows. Colors: Vibrant blues of the sky contrasted with the pure whites of the clouds.
a complex geometric design in the air with a neon glowstick, long exposure photograph
An uncluttered snowscape with a solitary figure in the distance, minimal elements, Hasselblad X1D
A high-speed motorcycle chase through a neon-lit city, each bike leaving a streak of light, inspired by cyberpunk thrillers
a porsche gt4 racing down a track, in the style of motion blur panorama, sunrays shine upon it
extreme close up of an eye of a small lizard, national geographic photo
low angle view of paper money blown everywhere around a ecstatic businessman at a crowded intersection, Kodak Tri-X 400
long exposure of an ocean, serene simplicity, dark emerald and sky-blue, moody and tranquil scenes
Layers of rolling fog over San Francisco cityscape at blue hour, Phase One, urban landscape
Aerial view looking down on ancient rice terraces carved into the misty mountains of rural China, panorama, golden hour, national geographic photo, intricate geometric patterns in shades of emerald green and earthy brown
Double exposure photography of a waterfall and a woman in a flowing dress, white background
Massive herd of impala gallop across Tanzanian plains backlit by golden hour sun, backlit by the golden glow of the setting sun. Dust kicks up around their nimble hooves as the antelope bound through the tall golden grasses. Nikon D850.
a translucent jellyfish against a pitch-black background, backlighting emphasizing its glow, ethereal mood, underwater photography
A crop duster soaring over lush cotton fields beneath stormy skies, caught mid-flight against billowing cumulus, Kodak Tri-X 400
full body shot of a Well-dressed qipao-clad lady wearing vintage shoes promenading through a public garden, chatting and smiling together holding folded fans and leafing through books as tags identify them for a photo club collection, 1910s Shanghai
Bright white trees eerily glowing against a pitch black infrared sky in the forest
Do you understand you role?

我给它起了个名字叫 Vito，这样如果在后续的对话中它忘记了自己的角色，我可以称呼它的名字唤起它的记忆。ChatGPT 的输出如下：

是的，我明白我的职责。作为 Midjourney 专家 Vito，我将协助为 Midjourney 文本到图像 AI 图像生成器生成简洁有效的提示，强调特定的细节、主题、风格和提及的其他元素，以确保生成独特的图像。如果您有更多的提示词或需要对所列的提示词提供帮助，我将竭诚为您服务！

接着我上传图片，并让 ChatGPT 帮我生成此图的 10个版本的 Midjourney 提示词。

ChatGPT 的响应如下：

当然！下面是基于图片的 10 个详细提示：
留着飘逸胡须的游牧人牵着一队骆驼，穿过尘土飞扬的沙漠，金色的阳光穿透地平线。
身着破旧服饰的古代旅行者，在温暖的落日余晖下，牵着一队骆驼走在沙漠的石路上。
身披长袍的大胡子流浪者，在一队骆驼的陪伴下，在琥珀色的时光里穿越迷雾重重的沙漠。
目光炯炯的沙漠探险者，走在骆驼队的最前列，在飞扬的尘土和璀璨的橙色光芒中前行。
一个留着长胡子的粗犷男子牵着一队骆驼的剪影，夕阳在荒芜的沙漠景观上投下一片光晕。
身着传统服装的沙漠酋长带领着一队骆驼，夕阳照亮了布满岩石的小路。
一位身着沙漠服饰的长者目光深邃，在火红的夕阳下牵着骆驼，周围的阴影和尘土在飞舞。
荒野中的神秘旅行者，带领着骆驼队，在太阳洒下的金色光芒中穿梭于干旱的沙漠。
游牧民族的统帅，带领着他的骆驼队在洒满阳光的沙漠小径上前行，散发着大气磅礴的光芒。
一位头发和胡须飘逸的古代流浪者，带领着一队骆驼，被深橙色的太阳照亮，笼罩在沙漠的阴霾中。
如果这些提示对您有用，或者您需要进一步调整，请告诉我！

接着我把第一个提示词输入 Discord 中，我挑选了一张比较接近的。

怎么样，和原图比较接近吧。如果第一个提示词效果不好，还有其他 9 个版本可供选择。或者把这 10 个提示词作为出发点，自己写一个满意的。

你也许会好奇用 Midjourney 自带的 /describe 命令会生成什么样的提示词。

1️⃣有骆驼的人，后末世意象风格，神光，三洋AF 14mm F/2.8 RF，丹砂花，RTX ON，通道，旅行
2️⃣有个人和骆驼，8K风格，逆光摄影，雾，通道，中国农村，UHD图像，犹太生活场景
3️⃣有个人和他的骆驼在沙丘上骑马，后末世主题风格，神射线，中国农村，通道
4️⃣阳光下的沙漠，史蒂夫风格，caras ionut，圣经戏剧，雾做的，uhd图像，尼古拉斯-普桑，犹太人生活场景

光看文字就看的出和 ChatGPT 生成的差远了。如果你觉得这个方法比较 OK，不妨动手一试吧。

Midjourney

Stable Diffusion 修复 Midjourney 有瑕疵照片

ByVito 2024年1月3日2024年1月3日

Midjourney V6 生成的照片在质感上有了一个巨大的提升。下面4张图就是 Midjourney V6 生成的。如果仔细观察人物和老虎的面部，细节真的很丰富。但仔细观察上面四张图的手部细节，就会发现至少有两只手是有问题的。这也是目前所有 AI 绘图工具面临的问题。当人物在画面中占的比例很大，这样的问题出现的频率就会小些。通过 Reroll (抽卡) 有很大概率能得到一张没有问题的图片。然而，当人物在画面中的比例占的比较小时，人物的细节 (比如面部和手部)就更容易出问题。即使不停地Reroll (抽卡) 也无法解决这个问题。当然，Midjourney 有局部重绘功能，可以修复一些画面中的瑕疵，不过目前还无法在 V6 版本上使用。即使可以使用，也无法精确控制生成的效果。Midjourney 的局部重绘是通过提示词来控制的，但很多画面是无法用语言来精确描述的。比如手部的姿势，手指的弯曲度等等。下面这张图也是用 Midjourney V6 生成的，就像前面说过的，由于人物在画面中的比例比较小，人物的细节很容易出问题。如果放大来看，脸部，双手都有问题。既然 V6 没有局部重绘来修复细节，最佳方案便是 Stable Diffusion。它比 Midjourney 更容易产生我们想要的效果。很多人没有用过 Stable Diffusion 的原因是显卡不给力。其实可以租用云平台来跑 SD，按小时收费也很划算。感兴趣的话，可以看看我的这篇文章： 👉 玩 Stable Diffusion 没有好显卡？试试秋叶大佬推荐的云平台脸部在 Stable Diffusion 中比较容易修复，让我们从最难的部分开始，就是上图中的左手。上图中的左手指甲盖有问题，而且手是攥在一起的，显得人物很紧张，不优雅。首先我用一个 3D 模型软件 DesignDoll 做出想要的手部姿势。下载地址是…

Midjourney

如何用 Midjourney 弥补 DALL-E 的不足

ByVito 2023年12月13日2023年12月13日

纵观各个 AI 绘图工具，DALL-E 无疑是最独特的一个。和 ChatGPT 一样，DALL-E 拥有出色的语义理解能力，用户可以根据提示词非常精确地控制画面的内容，但它生成的图片却缺乏一些艺术感。Midjourney 则相反，它像一个理解力比较弱，但艺术表达力比较强的艺术家。它生成的图像质感和艺术效果都很棒。那么，有没有可能，让 Midjourney 能够利用 DALL-E 出色的语义理解能力或构图能力呢？或者说，用 Midjouney 提升 DALL-E 的画质。本文将会用实际案例进行探讨。单独用DALL-E 我们都知道，DALL-E 在生成真人照片方面效果很差。不仅皮肤缺乏质感，甚至还会出现眼睛残缺的现象。比如下面这副照片： Prompt: Photo of a young woman in her early 20s, with short, vibrant purple hair, is skateboarding in a bustling cityscape at sunset. She wears a graphic t-shirt, ripped jeans, and bright red sneakers. The…

Midjourney

Midjourney 提示词生成器 G-Prompter 可以让你训练自己的风格

ByVito 2023年11月13日2023年11月13日

只需要一段简单的文本描述，Midjourney 就可以为你生成一副令人惊艳的图像。比如当你输入 “穿商务装，面带微笑的女人” 这个提示词时，Midjourney 会生成一副非常逼真的职场女性肖像，似乎是一位专业的摄影师的杰作。虽然灯光，人物神态，背景虚化等效果都不错，但它就像工厂里批量生产的工艺品，并没有自己独特的地方。很多时候一个简单的提示词并不能生成与众不同的图像。要精心编写一个出色的提示词并不简单，你要构思各种艺术媒介，环境，灯光，颜色，情绪，构图，画风等，这些对于非艺术专业出身的普通人来说充满挑战。然而值得庆幸的是，有很多人工智能工具可以辅助你完成这个艰巨的任务。今天要给大家介绍的就是这样一款免费工具，直接打开 g-prompter.com 这个网站就可以使用。 G-Prompter 是一个提示词生成工具，目前主要针对文生图。也就是说，只要输入一段非常简短的图像描述，G-Prompter 就会从这个描述出发，根据你选择的艺术媒介和画风，自动补充环境，灯光，颜色，构图等细节，从而生成一个非常详细的，自定义的提示词。你随后可以把生成的提示词提交给 Midjourney, Stable Diffusion 和 Leonardo.Ai 等 AI 图像生成工具。和其他 Midjourney 提示词生成器不同的是，它还可以基于你导入的提示词进行训练，从而获得更佳的效果。或者你可以把自己写过的提示词导入并进行训练，从而生成属于自己风格的提示词。你的训练数据还会自动保存在本地。我们通过实际的例子来了解它吧。 G-Prompter 主要有四种模式，分别是训练模式，摄影模式，绘画模式和矢量图模式。训练模式比较复杂，我将在文章的后半部分介绍。我先选择了摄影模式，然后把之前的提示词 “smiling woman in business attire (穿商务装，面带微笑的女人)” 输入 “Enter idea” 下方的文本框。然后你可以选择要生成的提示词的长度 (Prompt Length)，艺术风格 (Use AI imagination)，宽高比 (MJ Ratio)，Midjourney 版本 (MJ Version)。如上图所示，我这里的长度选择是非常长 (Really long)，艺术风格是由 AI 自动匹配 (Artistic Style)。点击 “Submit”…

Midjourney

10 + Midjourney 的光线类型（附提示词）

ByVito 2023年11月13日2023年11月13日

灯光是视觉艺术的关键元素，可以极大地影响图像的情绪、构图和风格。虽然 Midjourney 会自动根据场景添加不同的光照效果，但是根据自己的需求添加不同的灯光效果可以产生更加精美和专业的结果。可控灯光效果你可以在 Midjourney 提示词中添加可控灯光效果来达到特定的艺术效果。可控灯光指的是可以通过人工操作改变灯光的效果。主光源 (Key Lighting) 主光源是主要光源，对于增加主体的深度和维度至关重要。它可以让人脸看起来更立体，让风景看起来更有质感，让静态物体看起来更坚固。主光的角度也决定了整体基调——侧面照明显得引人注目，而正面照明则令人愉悦。通常情况下，在 Midjourney 提示词里包含 “studio portraiture (工作室肖像)” 或者 “studio photography (工作室摄影)” 就会让让主体处于主光源之下。 Prompt: a joyful young woman holding a Bichon Frise, studio portraiture in the style of Annie Leibovitz (欢乐的年轻女子抱着比熊犬，安妮·莱博维茨风格的摄影棚肖像) 逆光 (Backlighting) 在 Midjourney 中为主体添加逆光效果，可以使主体从后面被照亮，突出主体的轮廓，让主体和背景分离。这不仅增加了一种空灵、梦幻的效果，而且使得主体显得更加立体。 Prompt: an extreme close up of a dandelion seed head…

Midjourney

把各种相机加入 Midjourney 指令，效果惊呆了我！

ByVito 2023年11月13日2023年11月13日

你是否想过在 Midjourney 创作中打破常规，让生成的图像与众不同？无数的大师们都曾用过各种型号的相机和胶片创造出了伟大的作品。将这些相机和胶片的信息放入 Midjourney 指令就可以生成独特的作品。从动感十足的运动相机，到俯瞰万物的无人机。从浓艳动人的彩色胶片,到细腻质感的黑白胶片。每种相机和胶片都能赋予照片与众不同的个性。让我们一起探索吧！相机运动相机 (Action Cameras) 运动相机是专门为运动场景设计的相机，和单反相机相比，拍出的照片有独特的艺术效果。大多数运动相机都有非常广角的镜头，类似于单反相机的鱼眼镜头。拍出的照片图像中心被放大，边缘有变形的效果。这种效果可以让观众拥有第一人称视角，感觉身临其境。很多运动相机都会在默认设置中增强色彩的鲜艳度，拍出来的照片非常生动抢眼，尤其是在光线充足的情况下。因此，如果你想生成运动题材的照片，比如极限运动（滑板、滑雪、越野摩托车、攀岩），水上运动（游泳、冲浪、潜水、皮划艇），骑行等，都可以考虑在 Midjourney 指令中加入一些运动相机，比如 GoPro Hero，DJI Osmo，Insta360 等等。 Prompt: woman, skiing, leaping, full body shot (女人, 滑雪, 跳跃, 全身照) Prompt: woman, skiing, leaping, full body shot with GoPro hero (女人, 滑雪, 跳跃, 用 GoPro Hero 拍摄全身照) 如果你不想加相机的话，也可以考虑加入第一人称视角，比如：”POV shot”, “subjective shot”, “first-person shot”。…

Midjourney

如何像导演一样为 Midjourney 图片营造各种戏剧效果 (机位和镜头)

ByVito 2023年11月13日2023年11月13日

当你用 Midjourney 生成图片时，你就像一个导演，而 Midjourney 就像是你的摄影师。你可以对它发出指令，并在指令中包含特定的术语，就可以让 Midjourney 帮你实现各种戏剧化的效果。这些术语分为两类：相机角度和镜头类型。本文将对它们做详细介绍，通过各种生成图片的实例来举例说明。相机角度/机位 (Camera Angles) 视角的选择对塑造任何艺术作品的构图、情绪、风格都非常重要。我们在生活中也会尝试不同的视角让亲人和朋友在照片里呈现不一样的感觉。比如，低角度拍摄可以让女朋友的腿看起来更长，或者让男朋友看上去更高。在使用 Midjouney 绘图时，我们也可以把自己想象成为拿着相机或者使用无人机的摄影师，通过使用不同的关键词来选择不同的视角/机位，从而让图片传达出我们想要的感觉或效果。平视角度 (Eye-Level Angle) 平视角度是 Midjourney 默认的角度，并不需要特殊的关键词来说明。平视角度是最常见的视角，相当于我们把相机的位置调整到拍摄对象眼睛的高度。这时候我们和画面中的对象是平起平坐的，我们没有敬畏地仰视或评判地俯视。画面中的对象因此看上去很自然，富有亲和力，能够引起我们的共鸣。我只用了最简单的指令 /imagine Bald eagle。Midjourney 就默认为我生成了平视角度的秃鹰照片。再加一个关键词 “full body shot”，Midjouney 生成了一张秃鹰的全身照，但视角还是默认的平视。这种视角让秃鹰看上去和我们更加亲近，而不是高高在上俯视我们。如果某些情况下，Midjourney 默认生成了其他角度的图片，你可以用这些关键词来还原平视角度： eye-level angle shot, eye-level view, eye-level shot, straight-on shot, neutral angle shot, point-of-view shot, POV shot, eye-line perspective 低角度 (Low Angle) 低角度，即相机或艺术家的眼睛位于拍摄对象下方的位置，可以让你在…

Similar Posts

Leave a Reply Cancel reply