Midjourney V6 Beta 矫枉过正了,不过亮点也很大
没有一点征兆,Midjourney V6 测试版就在圣诞节前发布了。大概是迫于竞争对手带来的压力。彼时,Midjourney 一骑绝尘。那时候还没有 Adobe Firefly,也没有 DALL-E 3。如今,连谷歌和 Meta 在文生图方面都在步步紧追。
从测试版来看,V6 的更新无疑是巨大的。官方发表的通告里也指出,V6 写提示词的方法和 V5 有巨大差异。用户可能要重新学习如何写提示词。
Midjourney 主要围绕三点进行了更新:1. 让真实风格的(photorealistic)照片更加写实 2. 提高了语义理解能力 3. 提高了生成文本的能力。
在这篇文章里,我主要进行两组测试:写实肖像和生成文本。我的提示词里面很多也用自然语言风格书写,这样可以看出 V6 的自然语言理解能力。
肖像测试
V 5.2 为人所诟病的一点就是,生成的人像皮肤光滑,缺乏纹理,跟 Stable Diffusion 生成的人像在写实方面有差距。测试下来,V6 的确在写实方面有很大提升。让我们来看
Prompt: lensbaby shot of young woman in a meadow, swirling bokeh background, ethereal lighting casting soft shadows on her face, dreamlike atmosphere –s 750 –style raw
提示词:镜头宝贝拍摄草地上的年轻女子,漩涡虚化背景,空灵的光线在她脸上投下柔和的阴影,梦幻般的氛围
Prompt: outdoor portrait of a woman in a wheat field at sunset –s 250 –style raw
提示词:夕阳下麦田里一位妇女的户外肖像
Prompt: Polaroid camera photo of femme fatale, red lipstick, black veil, dim-lit bar, mysterious and dangerous aura –s 750 –style raw
提示词: 宝丽来相机拍摄的致命女性照片,红色唇膏,黑色面纱,昏暗的酒吧,神秘而危险的氛围
上面这三组提示词比较像,都是场景中的人像。V5.2 生成的照片,场景占的比例比较大。但到了V6这边,几乎就是大头照(headshot)了。同时,V6生成的写实有些夸张,图中的两个女人脸上都布满雀斑。
再来看一幅更微距(close-up)的照片。
Prompt: close up woman face portrait, glossy blue eyes, side ligting, haute couture, ultra detailed, tilt shift –s 750 –style raw
提示词:脸部近景肖像,重点是有光泽的蓝眼睛,侧面衬托,高级定制,超细致,倾斜移位
上面这两张图非常明显的突出了两者之间的巨大差异。V6版本人物的眼睛里甚至血丝都很明显。
总结一下,我觉得V6版本在人物写实方面有些太夸张了,就像标题所说的,矫枉过正。提示词写法也发生很大变化,从最初的三张图来看,同样的提示词,V5.2和V6的构图却很不一样。
我觉得这种写实风格牺牲了一些美感。我在提示词中提到的 lensbaby 和宝丽来相机带来的独特效果,在V6中没有得到很好得体现。第三张图里的眼睛部位的血丝也是一个败笔。
当然,V6的测试版本还不稳定。Midjourney官方也说,这只是Alpha测试,可能在毫无通知的情况下继续更新V6版本。也许我刚才说的问题,当文章发布的那一刻,就不存在了。
当然,V6版本还是有很多亮点。其中最主要的一个就是对于文本的支持。其实自从DALL-E 3发布以后,大多数情况下我用的是DALL-E给文章配封面图。其中很重要的原因是DALL-E能够更精准地在画面中生成文本。
如果想更全面地掌握 Midjourney 的写实风格,可以阅读我的这篇文章:
文本测试
V6版本的文本生成能力有巨大提升。如果要让文字更精准得呈现,得设置一个较低的Style参数,比如 --s 50
。这个测试里,我用的是默认--s 100
。同时,使用参数--style raw
来看下面几个例子:
Prompt: Pastel Drawing: A soft pastel rendering of a field of flowers, their delicate petals swaying in a gentle breeze, with the text “Serenity” overlaid, prominent and aligns with the image’s style. –style raw
提示词: 粉彩绘画: 一幅柔和的粉彩画,描绘了一片花田,娇嫩的花瓣在微风中摇曳,”Serenity”的文字被叠加在画面上,非常突出,并与画面风格保持一致。
Prompt: Photo of a cyberpunk street scene with futuristic neon advertisements and flying cars. The text “Future” inside a semi-transparent box is prominent and aligns with the image’s style. –style raw
提示词: 一张赛博朋克街景的照片,上面有未来主义的霓虹灯广告和飞行汽车。半透明方框内的文字 “Future “非常醒目,与图片风格一致。
Prompt: Craft a fantasy world filled with floating islands, each inhabited by a different mythical creature. The text “fantasy” inside a bubble is prominent. –style raw
提示词: 创作一个充满浮岛的奇幻世界,每个岛上都居住着不同的神话生物。气泡内的文字 “fantasy “要突出。
Prompt: Design a tall book cover about a space battle. The metal text “epic” is prominent. –ar 2:3 –style raw
提示词: 设计一本关于太空战的书籍封面。突出金属文字 “epic”。
Prompt: Create a heartwarming tall greeting card featuring a fluffy teddy bear hugging a bouquet of colorful balloons in a garden filled with vibrant flowers. The embossed text “thank you” is prominent. –ar 2:3 –style raw
提示词: 制作一张温馨的贺卡,在一个开满鲜花的花园里,一只毛茸茸的泰迪熊抱着一束五颜六色的气球。压印文字 “thank you”非常醒目。
上面的提示词来源于我的另一篇关于DALL-E文字特效的文章。
语言是DALL-E的风格,但Midjourney基本上都get到了我的意思。文字呈现得比较精准,有一些还添加了我要求得特效。当然了,跟DALL-E还是有很大差距的。
总结
Midjourney这次从V5.2直接升到V6版本,可以看出它不断提升的决心。让我们期待它稳定之后的表现,以及网页版Midjourney的上线。