Midjourney危险了:来看 FLUX如何超越它
AI绘画领域发展迅猛,近来黑森林实验室推出的 FLUX 引发了创作者的高度关注。FLUX 乃是一套开源的文本到图像模型,据官方评估,其性能优于该领域众多领先模型,包括开源模型与闭源模型,其中广为人知的 Midjourney 也在其列。
作为曾对 Midjourney 功能展开广泛探索并予以记录之人,我对有关 FLUX 超越 Midjournbey 的说法饶有兴致。秉持着审慎的怀疑态度,我决定对 FLUX 加以测试,将其与 Midjourney 于几个关键方面进行直接比对。此文详尽阐述了我的研究成果,对这两款强大的AI绘画模型展开了全面比较。
欢迎观看本文的视频教程:
文本生成
首先,咱们来瞧瞧 FLUX 和 Midjourney 的文本生成功能。为凸显两者之差异,请看如下两组图片:左边为 FLUX Dev 生成的图片,右边则是 Midjourney V6.1 生成的图片。
1. 文本生成和质感
两个模型对于简单的单词拼写处理皆较为娴熟。然而,在纹理细节方面,FLUX 似乎更具优势。譬如,Midjourney 生成的单词“HEAL ”呈现出类似饼干的质感,这与预期的水果外观并不相符。相较而言,FLUX 所提供的纹理更为恰当,使文字看上去更为逼真,也更契合提示词的要求。
上面这组冰块的示例,质感上的差别就更为显著了。FLUX 生成的文本因其清晰度而引人注目——“Cubes”(冰块)一词周边轮廓清晰,极具视觉吸引力,而 Midjourney 的版本则缺乏这种精准度。
2. 宽高比灵活性
FLUX 的另一显著长处在于支持各类长宽比,此功能较 Midjourney 增添了更大的灵活性。例如,在宽高比为 1:1 的情形下,FLUX 生成的文字更小,间距也更小,确保从正面观之,五个字母皆清晰可辨。然而,Midjourney 在这一方面却难以做到——其字母显得颇为拥挤,且无法从正视角度清晰呈现。
结论
总体而言,FLUX 展现出卓越的文字生成和排版能力,在这一方面甚至超越了 Midjourney。FLUX 能够应对不同的长宽比,并生成高品质、纹理清晰的文字。
生成人体
接下来,咱们探讨一下 FLUX 和 Midjourney 如何处理生成人体这一复杂任务——长期以来,这一难题一直困扰着AI绘画模型。
1. 结构精确度
FLUX 的重大改进之一在于其能够生成人形,且不会出现早期模型(如 Stable Diffusion 3)中常见的明显错误。在 FLUX 生成的图像中,人体的描绘精度颇高,不存在重大的解剖学差错。不过,AI的痕迹在某些方面仍较为明显,比如过于凸显的肌肉。这些隆起的肌肉看上去稍显不真实,熟悉肌肉结构之人很容易便能辨别出此乃人工智能生成的图像。
而 Midjourney 塑造的肌肉结构则显得相对真实一些,尤其是在增添汗水等细节时。这使得 Midjourney 图像中的健美运动员看起来更为生动,有助于提升整体的逼真程度。
2. 空间关系
虽说 Midjourney 在肌肉逼真度方面或许占据优势,但在空间关系方面却存在较大问题。例如,在一张图片中,杠铃似乎穿过了女子的头部——这是一个明显的缺陷,打破了生成场景的沉浸感。相比之下,FLUX 在这方面表现出色。由于 FLUX 支持灵活的长宽比,它能够准确地描绘空间关系,使整个杠铃皆能得以展现,而不会挤占图像或导致令人尴尬的错误。
3. 动作和姿势:芭蕾舞和瑜伽
在比较这两个模型处理动态姿势(如芭蕾舞演员和瑜伽练习者的姿势)的表现时,FLUX 和 Midjourney 皆令人称赞,但也存在一些差异。
- 芭蕾舞演员:两个模型生成的芭蕾舞演员图像颇为相似,只是各自存在一些细微问题。不过,Midjourney 的版本尽管瑕疵稍多,但的确更具戏剧美感,尤其是在光线和阴影的运用方面。
- 瑜伽姿势: 在瑜伽姿势方面,FLUX 展现出非凡的精准度,近乎完美地呈现了复杂的姿势。Midjourney 的表现同样出色。
结论
在生成人体方面,FLUX 和 Midjourney 难分伯仲。FLUX 在空间关系和动态姿势的准确描绘方面表现出众,而 Midjourney 则在呈现逼真的肌肉结构和戏剧性的灯光方面略占上风。总体而言,这两个模型皆展现出显著优势,使其成为在AI艺术中生成人物形象的有力工具。
互动/提示词遵循
接下来,让我们深入探究一下“互动”这一概念——即这些模型描绘人与物体之间自然交互的能力,或者说它们如何精准地遵循所给定的提示词。
1. 处理复杂角度和互动
设想一个小男孩正侧着头看肩膀的场景——这是任何模型都难以精准捕捉的角度。在此情形下,FLUX 的表现优于 Midjourney。虽说 FLUX 图像中的蝴蝶并未如提示词所暗示的那般准确落在小男孩的肩膀上,但它确实落在了小男孩的手臂上,与 Midjourney 生成的图像相比,FLUX 营造出了更为自然和可信的互动效果。FLUX 还善于捕捉小男孩的目光,完美地传递出一种惊奇的感觉。
2. 提示词的遵循和表达
在另一组图片中,Midjourney 对提示词的依从性更强,几乎完全依照了提示词。相较而言,FLUX 则稍显逊色。例如,在一个男人应表现出惊讶的场景中,FLUX 图像中男人的表情缺乏提示词所期望的强烈或清晰的情感。在此,Midjourney 对细节的关注,尤其是面部表情方面,使得画面更具说服力,也更贴合提示词的要求。
3. 图像质量和真实感
谈及整体图像质量,Midjourney 通常能生成更为逼真的效果,特别是在皮肤纹理和细节方面。Midjourney 图像中的皮肤往往看上去更自然,微妙的细节增强了真实感。另一方面,FLUX 有时生成的皮肤看起来有些像塑料,影响了图像的整体真实感。
结论
尽管 FLUX 存在一些缺陷,但在某些情形下,特别是在创建自然的互动方面,FLUX 仍能超越 Midjourney。虽然在特定状况下,Midjourney 可能在图像质量和对提示词的遵从方面占优,但 FLUX 处理具有挑战性的提示词和细微互动的能力令人印象深刻。这使 FLUX 成为捕捉互动的场景中的一个令人信服的选择,尽管它并非在所有方面都独占鳌头。
手
让我们探讨一下AI绘画中最为棘手的挑战之一:生成逼真的手。众多AI绘画模型在这方面都困难重重,常常生成看起来扭曲或不自然的手。让我们瞧瞧 FLUX 和 Midjourney 在这方面的表现怎样。
1. 手部生成的逼真度
FLUX 的突出之处在于能够生成令人印象深刻的逼真手形。尤其在处理具有挑战性的角度时,例如左手以非同寻常的角度放置,FLUX 能够保持解剖的准确性和自然的外观。这种细节水平对于创建令人信服的图像极为重要。
另一方面,Midjourney 在手部生成方面存在一些明显的问题。即便在一些较好的例子中,Midjourney 也难以处理指甲盖等细节,特别是无名指和小指。这些不准确的地方会分散注意力,降低图像的整体真实感。
2. 不同场景的一致性
Midjourney 的手部生成问题并非偶然出现,而是一个持续性的问题。例如,在一组描绘某人弹钢琴的图像中——在此情况下,手的准确性至关重要——Midjourney 再次出现问题。它生成的手常常显得笨拙或不正确,破坏了场景的视觉完整性。相比之下,FLUX 能更精准地处理此项任务,生成的手在图像背景中看起来恰当而自然。
结论
在生成手部图像方面,FLUX 明显优于 Midjourney。无论是非正常角度下的解剖精确度,还是不同场景下的一致性,FLUX 都展现出卓越的能力。
人脸生成
生成逼真的人脸是对AI绘画模型的又一关键考验,而在这一领域,皮肤纹理和色调等细微的细节起着决定性作用。让我们看看 FLUX 和 Midjourney 在这方面的表现如何。
1. 皮肤纹理和逼真度
在皮肤纹理方面,Midjourney 的优势极为显著。其生成的人脸看上去更为逼真,皮肤纹理栩栩如生。Midjourney 能够依据提示词反映出暖色调,从而营造出更自然、更令人信服的外观,进一步增强了这种真实感。
相比之下,FLUX 在这方面颇为吃力。FLUX 生成的脸部皮肤经常出现油腻或塑料感,影响了图像的整体真实感。与 Midjourney 甚至 Stable Diffusion 3 Medium 相比,这一问题尤为突出。值得注意的是,在皮肤纹理质量方面,Stable Diffusion 3 Medium 有时能够超越 FLUX 和 Midjourney,生成的人脸纹理更加细腻自然。
2. 处理眼泪和情感细节
虽然 FLUX 在皮肤纹理方面有所欠缺,但在面部细节的某些方面,比如眼泪的生成方面,它的确能够赶上 Midjourney。FLUX 和 Midjourney 都能在提示词出现时显示眼泪——这可不是所有模型都能够做到的。
例如,在与 Juggernaut XL 和 Stable Diffusion 3 Medium 的比较中,这两个模型都未能成功捕捉到眼泪,这表明 FLUX 和 Midjourney 在这一方面表现出色。
结论
在脸部生成方面,Midjourney 优于 FLUX 的主要原因在于其出色的皮肤纹理。FLUX 虽然能够处理某些面部细节,如眼泪,但在生成逼真自然的脸部表情方面始终处于下风。
最后的想法
在仔细研究了这些图像之后,FLUX 作为一个开源模型,显然在AI绘画方面取得了显著的进步。它在多个方面超越了 Midjourney,例如提示词遵循和手部生成,展示了开源模型的巨大潜力。
虽然 FLUX 目前在整体图像质量方面还存在不足,但它的开源特性允许其与其他模型合作,从而有可能迅速提升图像质量。
围绕 FLUX 的热度表明,在不久的将来,我们有望看到基于这项技术的更加完善的模型。我将持续为您更新有关 FLUX 的教程,如果您还没有关注我,现在正是关注的好时机!