Flux微调模型大比拼:PixelWave vs Shuttle 3 Diffusion vs StoiqoNewreality vs FluxRealistic
Flux模型因其高质量的结果和多样的应用场景而在AI社区引发了极大兴趣。然而,众多选择使人难以抉择——从 黑森林实验室 的官方Flux模型(Pro、Dev、Schnell)到众多微调版本,究竟该从哪开始?哪个模型才是最佳选择?
本文旨在阐明官方 Flux模型 与 基于Flux的微调模型 之间的区别,同时全面比较4款流行的基于Flux的微调模型:Shuttle 3 Diffusion、fluxRealistic、PixelWave 和 StoiqoNewreality。
本文并非简单罗列其功能特点,而是基于4个关键性能维度进行深入测试:
- 皮肤纹理和面部细节
- 画手的准确度
- 光效与美学效果
- LoRA兼容性
通过深入对比,我们可以更好地了解每个模型的优劣势,从而为自己选择最适合的工具。
视频教程:
首先,让我们从最基础的部分开始,了解由 黑森林实验室 开发的原始 Flux 模型,以及它们如何演变为这些微调模型。
什么是Flux模型?
Flux模型由 黑森林实验室 开发,是一系列AI绘画模型,可以生成高质量的图片。它们分为3个官方版本:Pro、Dev 和 Schnell,每种版本在质量、灵活性和授权上各有不同。
Flux的三个版本
- Pro
- 质量:Flux家族中质量最高的模型,可生成专业级结果。
- 访问权限:仅限于API使用,不对外提供微调功能。
- 适用场景:适用于需要通过API直接生成高端结果的用户。
- Dev
- 质量:Pro版本的精简版,质量略有下降。
- 灵活性:支持微调,但仅限非商业用途;商业用途需获得黑森林实验室的明确授权。
- 适用场景:适合实验和研究用途,需遵循许可要求。
- Schnell
- 质量:Flux模型中最开放的版本,发布于Apache 2.0 许可证之下,但质量最低。
- 灵活性:可公开用于微调和修改,因此在开源项目和社区开发中很受欢迎。
- 适用场景:非常适合商业用途。
Flux模型的演变
当 Dev 和 Schnell 版本 首次发布时,它们存在一些显著的缺点:
- 文件大小:每个模型需下载23.6GB的巨大文件(不包括VAE和文本编码器文件)。
- 硬件要求:需要至少 16GB 显存 才能以合理的性能生成图像。
这些限制使得许多用户难以使用这些原始Flux模型。不过,后续的改进解决了这些问题:
- fp8版本
- Kijai推出了该更新,将文件大小缩减至仅11.9GB,并集成了VAE和文本编码器。
- 将显存需求降至 8GB,让更多用户能够使用。
- GGUF版本
- 针对仅有 6GB显存 的系统进一步优化。
- 虽然效率更高,但相比早期模型质量有明显的下降。
这些改进为炼丹师们利用Schnell或Dev版本作为基础微调和发布自己的Flux模型铺平了道路。
基于Flux的微调模型
基于Flux的微调模型是使用Schnell或Dev模型为基础,由炼丹师微调而成。这些模型增加了特殊功能或改进了图像质量。本文将分析以下4个微调模型:
- Shuttle 3 Diffusion
- fluxRealistic
- PixelWave
- stoiqoNewreality
这些checkpoint经过优化,与最初的 Flux 模型截然不同,但仍植根于相同的架构。
有了前面的基础,接下来让我们看看测试方法以及如何在关键性能维度上对它们进行比较。
测试方法
为了评估4个基于Flux的微调模型(Shuttle 3 Diffusion、fluxRealistic、PixelWave 和 stoiqoNewreality),我们采用了一套结构化测试方法。在可控条件下对每个模型进行测试,尽量确保公平对比。不过,由于fluxRealistic模型的特殊需求,对其进行了特殊调整。
测试环境设置
- 统一设置
- 引导值(Guidance):2.5
- 采样器:
dpmpp_2m
- 调度器:
sgm_uniform
- VAE和种子:为所有模型使用相同的VAE和种子,以保持一致性。
- 由于fluxRealistic是基于GGUF的模型,需要特定的 Unet加载器(GGUF) 和 双CLIP加载器(GGUF) 节点来正常工作。
- 它的文本编码器也经过量化处理,因此图像生成过程需要针对性调整。
- checkpoint位置
所有checkpoint文件都存放于 Unet文件夹 中。 - LoRA节点
- 第一轮测试中禁用:以评估每个模型在不进行任何风格或性能增强时的原始性能。
- 第二轮测试中启用:测试了两个LoRA的兼容性:
- 一个加速生成的 Turbo LoRA。
- 一个应用复古美学的 1980年代风格LoRA。
测试维度
每个模型在以下4个性能维度上进行评估:
- 皮肤纹理和面部细节
- 测试生成自然、逼真的皮肤纹理的能力。
- 评估眼睫毛、瞳孔和面部特征等细节渲染。
- 手部生成
- 测试生成解剖学准确且真实的手部的能力,这一直是AI模型的难点之一。
- 光效与美学效果
- 评估模型的光影平衡,以及实现特定艺术风格的能力(例如虚化、宝丽来风格)。
- LoRA兼容性
- 分析模型对LoRA的响应能力,特别是其增强图像生成速度和风格调整的能力。
图像对比
在每个测试维度中,我们生成了图像并将其并排展示以便详细比较。通过此过程,突出了每个checkpoint的独特优缺点,便于轻松识别哪些模型在特定领域表现更优。
皮肤纹理和面部细节
第一个测试维度关注的是每个checkpoint渲染皮肤纹理和面部细节的能力,例如瞳孔、睫毛的清晰度以及整体面部真实感。这些方面对于创建逼真的图像,尤其是人像,至关重要。让我们来看看四个基于Flux的checkpoint在这一方面的表现。
1. PixelWave
- PixelWave在这一类别中始终表现优于其他模型。
- 皮肤纹理自然且平滑。
- 面部细节(如睫毛和瞳孔)渲染精准,极具真实感。
- 双眼明亮且富有表现力,高光与反射自然平衡。
2. StoiqoNewreality
- StoiqoNewreality生成了高质量的皮肤纹理,大部分情况下看起来非常自然。
- 添加了细微的细节(如雀斑),增强了图像的逼真感。
- 然而,它有时会在皮肤上呈现出轻微的油光感,使某些输出的真实感降低。
- 面部细节(如睫毛和瞳孔)总体清晰,但不如PixelWave那么锐利。
3. fluxRealistic
- 尽管体积小且使用了GGUF量化,fluxRealistic在这一类别中表现出色。
- 皮肤纹理较PixelWave和StoiqoNewreality略显平滑且缺乏细节,但对于小模型而言表现依然出色。
4. Shuttle 3 Diffusion
- Shuttle 3 Diffusion在这一类别中表现明显不足。
- 皮肤纹理过于平滑和人工化,细节极少。
- 面部经常缺乏一致性,出现诸如面部特征与衣物融合的伪影。
- 瞳孔和睫毛等细节定义不清,导致输出效果不够真实。
比较总结
模型 | 皮肤纹理质量 | 面部细节质量 | 突出问题 |
---|---|---|---|
PixelWave | 5 | 5 | 偶有轻微伪影 |
StoiqoNewreality | 4.5 | 4.5 | 某些输出中皮肤出现油光感 |
fluxRealistic | 3.5 | 3 | 细节不足,略显平滑 |
Shuttle 3 Diffusion | 2.5 | 2 | 纹理欠缺,细节不清晰 |
赢家:PixelWave在该类别中表现最佳,提供了整体上最好的皮肤纹理和面部细节。StoiqoNewreality排名第二,尽管结果不错,但偶尔会出现皮肤油光问题。fluxRealistic是低显存系统的高效替代选择,但细节有所欠缺。Shuttle 3 Diffusion则表现最差,输出明显较弱。
手部生成
生成逼真且解剖学准确的手部是AI模型中最具挑战性的任务之一。本测试专注于评估每个checkpoint处理这一领域的能力。我们生成了展示各种姿势和位置手部的图像进行比较。让我们看看每个checkpoint的表现。
比较总结
四个模型在此类别中的表现相对接近,没有一个模型明显优于其他模型。
光效与美学效果
光效与美学效果是创建视觉吸引力和风格化图像的关键因素。本测试评估了每个checkpoint平衡光影、处理艺术效果的能力,以及生成具有独特美学的输出能力。在此类别中,各checkpoint之间的差异尤为显著。
1. Shuttle 3 Diffusion
- Shuttle 3 Diffusion在光效与美学方面表现显著不足。
- 生成的图像常有不自然的光线,光源之间的组合显得尴尬(如烛光与日光混合)。
- 模型输出平淡且缺乏深度,阴影的层次感和丰富度有限。
2. fluxRealistic
- fluxRealistic在光影平衡上表现优于Shuttle 3 Diffusion。
- 输出的光影均衡且有一定深度感。
- 然而,在艺术元素(如烛台或复杂道具)中细节表现有所欠缺,显示出明显错误。
3. PixelWave
- PixelWave在此类别中表现出色,生成的输出具有独特的艺术风格。
- 光效自然且动态,突出了高光与阴影的平衡互动。
- 生成的风格化图像类似于古典油画或其他精美艺术风格,增加了一种永恒且富有创意的触感。
- 即使在复杂场景中也能始终生成丰富的细节,并在梦幻虚化和宝丽来等效果上表现出色。
4. StoiqoNewreality
- StoiqoNewreality偏向于现代美学,生成的图像鲜明且干净。
- 光效通常分布均匀,但偶尔高光过曝或阴影缺乏深度。
- 虽然没有PixelWave的油画风格,但提供了更现代化的审美。
比较总结
模型 | 光效质量 | 美学风格 | 突出问题 |
---|---|---|---|
PixelWave | 5 | 古典、油画风格、艺术感 | 创意场景中偶有轻微真实感问题 |
StoiqoNewreality | 4.5 | 现代、干净、鲜明 | 偶尔高光过曝;复杂效果稍显不足 |
fluxRealistic | 4.5 | 均衡但简单 | 缺乏艺术风格;细节表现有限 |
Shuttle 3 Diffusion | 2.5 | 平淡 | 不自然的光效,艺术元素表现不足 |
赢家:PixelWave在光效和美学效果方面脱颖而出,技术精准性与创意艺术性完美结合。StoiqoNewreality紧随其后,现代审美表现出色,但复杂效果稍逊。fluxRealistic在技术层面表现良好,但缺乏艺术冲击力,而Shuttle 3 Diffusion因光效不均衡和视觉吸引力不足大幅落后。
LoRA 兼容性
LoRA(低秩适配)是一种强大的工具,可以增强模型性能并应用风格调整。本次测试中使用了两种特定的LoRA:
- Turbo LoRA:旨在加速图像生成,减少生成步骤,同时保持质量。
- 1980年代风格LoRA:添加以20世纪80年代视觉为灵感的复古美学。
测试checkpoint的LoRA功能是否能够有效整合,以及生成结果是否符合预期。
1. PixelWave
- PixelWave在LoRA整合上表现显著欠佳。
- Turbo LoRA未能加速图像生成,输出变得模糊,失去了模型标志性的清晰度和细节。
- 1980年代风格LoRA对生成图像无明显影响,未能成功添加复古美学。
2. StoiqoNewreality
- StoiqoNewreality与两种LoRA的兼容性表现良好。
- Turbo LoRA成功加速了图像生成,且质量损失不大。
- 1980年代风格LoRA效果显著,成功为图像添加了复古美学。
3. fluxRealistic
- fluxRealistic在LoRA整合方面表现非常优秀,尤其是考虑到其紧凑的GGUF架构。
- 与Turbo LoRA配对时,生成速度显著提升,同时保持了质量。
- 1980年代风格LoRA效果明显,成功添加了复古风格的美学调整。
比较总结
模型 | LoRA 兼容性 | 突出问题 |
---|---|---|
fluxRealistic | 5 | 无明显问题;Turbo和风格效果均表现出色 |
StoiqoNewreality | 5 | 复古LoRA中偶有光效不一致的问题 |
PixelWave | 2.5 | LoRA整合不佳;未能显著提升生成效果 |
赢家:fluxRealistic和StoiqoNewreality在LoRA兼容性方面表现出色。两者均能高效整合Turbo和1980年代风格LoRA,在速度提升和风格调整方面均达到预期效果。而PixelWave未能利用LoRA增强性能,生成结果没有明显改善。
最终排名
在皮肤纹理与面部细节、手部生成、光效与美学效果和LoRA兼容性四个关键维度的广泛测试后,基于Flux的checkpoint模型根据整体性能进行了排名。每个模型都展现了独特的优点和缺点,使其适用于不同的使用场景。
1. PixelWave
整体表现:
PixelWave在图像质量和艺术效果方面表现最佳。其生成逼真的皮肤纹理、细致的面部特征和惊艳的光效使其脱颖而出。然而,它在LoRA兼容性上表现不佳,未能有效利用风格和性能增强。
适用场景:
- 艺术家和创作者,追求最高质量和艺术输出。
- 不依赖LoRA增强的项目。
不足之处:
- LoRA整合不佳;Turbo和风格LoRA对其输出没有显著影响。
2. StoiqoNewreality
整体表现:
StoiqoNewreality排名第二,在LoRA兼容性方面表现强劲。尽管其皮肤纹理和光效略逊于PixelWave,但它成功整合了LoRA功能,对于依赖这些工具的用户来说更加灵活。
适用场景:
- 需要Turbo LoRA加速生成或风格LoRA调整美学的项目。
不足之处:
- 某些输出中高光过曝;皮肤纹理有时呈现油光。
3. fluxRealistic
整体表现:
fluxRealistic在优化低显存系统的情况下表现出色。在皮肤纹理、光效和手部生成方面结果中规中矩,但其LoRA兼容性非常优秀,是硬件资源有限用户的绝佳选择。
适用场景:
- 低显存系统(6GB以上)。
- 需要高效LoRA整合(Turbo和风格LoRA)的用户。
不足之处:
- 与更大模型相比,缺乏细致的艺术效果和精细纹理。
4. Shuttle 3 Diffusion
整体表现:
Shuttle 3 Diffusion在几乎所有类别中排名最后。其输出缺乏真实感、一致性和艺术性,并且与LoRA的兼容性表现不佳,应用后没有显著改善。它唯一的优势是4个模型中唯一可免费商业使用的选择。
适用场景:
- 对质量要求不高的商业用途场景。
不足之处:
- 在皮肤纹理、光效和LoRA整合方面表现不佳。
最终对比表
模型 | 皮肤与面部细节 | 手部生成 | 光效与美学 | LoRA兼容性 | 突出优势 |
---|---|---|---|---|---|
PixelWave | 5 | 4.5 | 5 | 2.5 | 最佳图像质量和艺术效果 |
StoiqoNewreality | 4.5 | 4.5 | 4.5 | 5 | 出色的LoRA支持;现代美学 |
fluxRealistic | 3.5 | 4.5 | 4.5 | 5 | 低显存系统的绝佳选择 |
Shuttle 3 Diffusion | 2.5 | 3.5 | 2.5 | 5 | 可免费用于商业用途 |