Text Inversion: 比 Lora 更简单地训练人脸【Stable Diffusion 炼丹教程】

ByVito 2024年2月28日2024年2月28日

Stable Diffusion的最大魅力体现在其DIY的能力上。它不是什么图都能画出来，但是我们可以根据自己的需求，训练它成为我们想要的样子。

其中，Text Inversion 就是一种最简单有效的训练方式。它比 Lora 训练更简单，对数据集的要求比较低，适合入门。它的训练过程和 Lora 有很多共通的地方，熟练掌握的话对于后期 Lora 训练也是很有帮助的。和 Lora 一样，它也可以用来训练任何人脸，生成任何人的照片。

其实，早在一年以前，就有很多关于它的教程。然而，那时的 WebUI 跟现在的有所不同，可能会让你感到困惑。而且，之后还出现了一些新的处理数据集的方法。所以，我觉得有必要写一篇新的文章，让大家从原理层面深入了解 Text Inversion。

在这篇教程中，我会用著名好莱坞女明星 Angelina Jolie 的照片进行训练。有人可能会问，Angelina 是个名人，Stable Diffusion 训练过她的照片。那么我再为她训练 Embedding 有什么意义呢？

如果你喜欢看视频教程，那么我非常欢迎你观看本文所对应的视频(B站同名帐号)：

让我来解释一下。我们都知道，Stable Diffusion 是用网络上公开的6亿张包含描述的图片训练而成的。这些图片的质量都不太高，而且未必符合我们心目中的 Angelina 的形象。如果我们要生成自己心目中 Angelina 的样子，就可以筛选出我们喜欢的照片，然后用它们来进行训练。这才是训练的真正意义。

看，下面是训练前后的对比图片。左边这列是原版的Angelina。右边是我训练的Angelina。它们的区别还是挺大的吧。

接下来，我将一步步引导大家通过实例学习Text Inversion的训练过程，包括数据集的准备、图片的预处理、训练过程以及测试训练结果。

Table of Contents

数据集的准备

训练开始前，数据集的准备是至关重要的一步，它直接影响到最终生成图像的质量。遵循以下两个原则以确保数据集的质量：

图片质量优于数量：选择高质量的图片比大量低质量图片更为重要。
多样化：尽可能选择角度、表情和背景各异的人脸图片，以便AI能全方位学习人物特征。

推荐至少准备10张以上的面部图像，并可以包含一些上半身或全身照片，以学习人物的体型和姿态。注意，图片中不应包含水印，以避免影响最终结果。

看，这是我用不同质量的数据集生成的效果。左边这列的是用质量比较差的数据集，跟右边的效果还是有差距的吧？

图片预处理

图片准备工作完成后，接下来的重要步骤是进行图片的预处理，包括裁剪和打标，以确保所有图片都有统一的分辨率，推荐尺寸为512×512。这一步骤对于提高训练效果和最终图像的质量至关重要。以下是详细的预处理步骤：

1️⃣ 选择合适的工具：由于新版本的WebUI已经移除了“图片预处理”功能，因此需要借助外部工具进行预处理。我在这里推荐一个在线批量处理图片的网站，使用起来非常方便。网址是：

https://www.birme.net/?target_width=512&target_height=512

2️⃣ 上传图片：

访问推荐的在线批量处理图片网站。
点击“BROWSE FROM YOUR COMPUTER”按钮打开文件浏览器。
进入包含要处理图片的文件夹，按Ctrl + A选择所有图片，然后点击“打开”。

3️⃣ 自动裁剪和焦点检测：

上传后，网站会自动识别每张图片的焦点，通常是面部，确保裁剪区域的准确性。
确认“Auto detect image focal point”（自动检测图像焦点）选项已勾选。

4️⃣ 手动调整：

预览处理效果，对于自动标注不准确的图片，手动调整裁剪区域。例如，如果某张图片的脸部被不当裁剪，可以通过拖动裁剪框来调整。

5️⃣ 保存和下载：

调整完成后，点击“SAVE AS ZIP”按钮，将处理后的图片保存为ZIP文件。
选择一个位置保存压缩文件，完成图片的批量裁剪和预处理。

通过上述步骤，我们可以确保数据集中的每张图片都被正确地裁剪和标注，为接下来的训练过程打下良好的基础。这一环节虽然看似简单，但对于提升最终生成图像的质量起到了决定性作用。

精确打标

为了充分利用Stable Diffusion的能力，精确地为图片打标是一个不可忽视的步骤。这一过程通过添加描述性的提示词来为图片内容进行标注，是使用Text Inversion或Lora训练方法的关键环节。下面，我将详细介绍如何高效地完成这一任务。

打标的重要性

Stable Diffusion的训练依赖于大量带有描述的图片，正是这些描述使得我们能够通过提示词来生成特定的图片。因此，为你的训练图片准确打标，能够显著提高生成图像的质量和相关性。

使用WebUI的Tagger插件打标

安装Tagger插件：首先，确保你的WebUI中安装了Tagger插件。如果尚未安装，可以去Github上下载(https://github.com/toriato/stable-diffusion-webui-wd14-tagger)。也或者访问我分享的度盘链接(https://pan.baidu.com/s/1jvg7A0j20XiilvJK-NYmoA?pwd=v5d8)。

批量处理图片：进入WebUI后，切换到Tagger标签页并点击“从目录批量处理”，输入你的图片路径。这一路径依据你运行Stable Diffusion的环境而定，可能是本地或服务器。

选择模型和调整参数：

在“反向推导器”下拉列表中选择一个模型。对于处理人像图片，“ViT v2”模型通常是一个不错的选择。
调整权重阈值（Weight threshold）以控制标注的详细程度。记住，阈值设置得越小，生成的标注就越详细，但同时也可能增加无效标注的数量，从而需要更多时间进行手动修正。

开始打标：设置好参数后，点击“反向推导”按钮开始打标过程。这一过程完成后，你可以在输出目录中看到每张图片对应的文本文件，里面包含了生成的提示词。

审核和调整标注

完成自动打标后，不要忘记检查并调整这些文本文件中的提示词。尽管自动打标可以节省大量时间，但人工审核和精细调整是不可替代的，特别是当你追求最优的训练效果时。

查看并编辑文本文件：转到数据集的文件夹，你会发现许多与图片同名的文本文件。打开任一文件，检查里面的提示词。
精确调整：根据需要编辑或添加提示词，以确保它们尽可能准确地描述图片内容。更精确的标注意味着更优质的Text Inversion训练结果。

批量修改标注

在进行Text Inversion训练前，对图片的标注进行精确调整是关键一步，这不仅关乎训练效果的优化，还涉及到训练过程的高效性。以下是如何利用特定工具来批量修改标注的详细指导。

使用Dataset Tag Editor插件

为了高效管理和修改图片标注，我们将利用一个称为Dataset Tag Editor的插件。这个工具可以大幅简化标注的编辑过程。

安装插件：首先，确保安装了Dataset Tag Editor插件。如果尚未安装，可以去Github上下载(https://github.com/toshiaki1729/stable-diffusion-webui-dataset-tag-editor)。也或者访问我分享的度盘链接(https://pan.baidu.com/s/1L6_RFnU9By5hPmNkSv0hMw?pwd=r3kw)。
加载图片和标签：在Dataset Tag Editor的标签页内，填写图片和标签文件所在的路径，然后点击“加载”按钮。加载成功后，页面上将显示文件夹内的所有图片及其标签。

理解标注的重要性

如何处理标注呢？这个过程有一些反直觉。我们都知道，嘴唇是 Angelia 非常独特的特征。我们要 AI 学习这个特征的话，需要保留“lips”嘴唇这个词吗？我们的第一反应可能是需要。但实际上是不需要的。

因为我们是无法通过文字准确地描述出Angelia嘴唇的特征的，AI 真正依靠的是图片来学习，而不是文字。这一点跟人类是一样的。我们告诉一个画家Angelina嘴唇的厚度和形状，他就能准确的画出来吗？还是得给参考图片，你说对不对？文字只是用来让人类给 AI 发送指令。希望我这个解释你能够理解。

批量编辑标注

选择和删除标签：通过Dataset Tag Editor，你可以轻松查看并选择特定的标签，以便批量删除不需要的标签。例如，“lips”、“breasts”、“nose”等描述可能并不必要，而有关背景的标签如“white background”则可能需要保留。这样AI就不会把白色背景跟Angelina扯上关系。否则最后哪怕提示词里没有白色背景这个词，出来的图也可能是白色背景的。

执行批量删除：在“批量编辑图片描述”区域，使用“搜索和替换”、“移除”和“高清化”等功能来批量处理标签。选择“移除”选项卡，选择你想要删除的标签，并执行删除操作。

单个编辑标注：有些出现频率不高的词，我们还可以一个一个删除。然后点击”批量编辑图片描述“右边的”编辑所选图片的描述“按钮。这里出现了选中图片的描述，可以点击”复制并覆盖“按钮，把提示词复制到下方的文本框里进行编辑。

比如说我删掉”eyelashes“这个单词，然后点击”应用变更到所选图像“。

就这样通过批量编辑和单个编辑的功能，我们就可以完成对所有图片描述的编辑。最后再点击”保存所有更改“。

准备训练：基础设置指南

在启动Text Inversion训练之前，正确配置Stable Diffusion的WebUI设置是非常关键的一步。这些设置不仅影响训练的效率，还关系到最终训练结果的质量。下面是如何进行这些基础设置的详细指导。

访问WebUI设置

在WebUI中，点击“设置”标签页。
向下滚动，找到“训练”的设置选项并点击。
进入后，根据需要进行一些基本配置。

基础设置项

训练时将VAE和CLIP从显存(VRAM)释放到内存(RAM)：如果你的设备显存较小，可以勾选第一个选项以优化显存使用。这有助于在显存受限的情况下进行训练，但可能会略微影响训练速度。
启用Dataloader的pin_memory：追求更快的训练速度可以勾选第二个选项，但需注意这会增加内存的使用。
将优化器状态保存为单独的optim文件：勾选第三个选项会在训练文件夹内生成备份文件，使得训练可以在中断后无损恢复，这对长时间的训练尤为重要。
在每次训练开始时将文本倒置和超网络设置保存在文本文件中：第四个选项通常默认勾选，负责自动备份训练过程，可以保持默认。
训练进度保存：“每N步保存一个CSV文件”的选项可以帮助你跟踪训练进度。默认值可能设置为每500步保存一次，根据需要你可以调整为更频繁的保存，比如每50步，这有助于更密切地监控训练过程中的loss变化。

应用设置

设置完成后，别忘了点击“应用设置”，随后点击“重新加载WebUI”以确保所有设置生效。这一步是准备训练的最后环节，确保了训练环境根据你的具体需求进行了优化。

启动Text Inversion训练

在完成所有基础设置之后，下一步就是实际开始Text Inversion训练。本节将指导你如何进入训练界面，创建embedding，并选择合适的底模进行训练。

进入训练界面

在WebUI中，找到并点击“训练”按钮以进入训练界面。
训练界面是Text Inversion训练的操作中心，在这里你将配置和启动你的训练任务。

创建Embedding

训练的首要步骤是创建一个embedding，这是一个表示你要训练图像特征的向量。正确设置embedding对于训练结果的质量至关重要。

选择合适的底模

底模的选择对训练的成功和最终效果有着重大影响。推荐选择版本为1.5的底模，因为它提供了更好的泛化性，即训练好的模型可以在基于1.5版本的其他模型上表现良好。

避免选择SDXL模型：请注意，选择SDXL模型可能会导致训练过程出错。
下载底模：如果你还没有1.5版本的底模，可以在Hugging Face上进行下载(https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main)。较大的这个模型，可以提供更优秀的训练效果。

其他设置

VAE设置：在设置时，VAE（变分自编码器）最好选择为“无”。
命名你的训练任务：给你的训练任务起一个名字，这个名字可以是任意的，但最好能反映出训练的内容或目标。例如，在本例中，我们将训练任务命名为“ajaj”。
初始化文本：留空，确保从零开始训练，避免受到底模影响。
每个token的向量数：理论上，数值越高，能表现的特征也越多。实际上，1或2已足够。

参数设置好以后，点击“创建embedding”，一个空的embedding就被创建好了。现在，一切准备就绪，你可以启动训练过程，开始创建属于你的定制化模型。

Text Inversion训练的底层逻辑解析

Text Inversion训练的过程和目的是利用Diffusion模型，通过训练使得特定的embedding能够生成与训练图像高度相似的结果。为了帮助大家更好地理解这一过程，下面是对Text Inversion底层逻辑的详细讲解，包括embedding的作用以及训练过程中的关键步骤。

Embedding的角色

什么是Embedding：在AI和机器学习领域，embedding是一种将离散变量（如单词）映射为连续向量的技术。这些向量代表了高维空间中的点，能够捕捉到变量之间的某些关系，如语义相似性。
名称与提示词：在Text Inversion中，我们给定的名称（如”ajaj”）实际上是一个提示词，它代表了我们想要生成的特定图像特征的embedding。训练开始时，这个embedding是空的，或者说，它并未包含足够的信息来指导Diffusion模型生成我们期望的图像。

训练过程

从噪点到图像：训练开始时，Stable Diffusion将使用的训练图（如Angelina Jolie的照片）转换成一堆像素或噪点。这些噪点通过训练逐步组织成有意义的图像，过程中embedding起到了指导作用。
图像生成与对比：Diffusion模型会尝试根据当前的embedding去除噪点中的随机性，生成图像的初步版本。然后，模型会将这个版本与原训练图进行对比，评估二者之间的差异。
损失计算（Loss）：通过比较生成图像与训练图之间的差异，模型计算出一个loss值，这个值表示两者之间的差异程度。Loss值越低，意味着生成的图像与训练图越相似。
迭代优化：根据loss值，Stable Diffusion会不断调整embedding，通过反复的迭代过程，逐步减少生成图像与训练图之间的差异，直到达到一个理想的状态，此时的embedding能够指导模型生成与训练图高度相似的图像。

通过上述讲解，我们可以看到Text Inversion训练实质上是一个不断迭代的过程，旨在优化embedding，以便Diffusion模型能够根据这个优化后的embedding生成与训练图非常接近的图像。这个过程涉及到对训练图的深入理解，以及如何通过不断调整和优化embedding来减少loss值，从而提高生成图像的质量和相似度。

启动Text Inversion训练：深入设置与优化指南

在深入了解Text Inversion的底层逻辑后，是时候将这些理论应用到实践中，启动我们的训练过程了。下面的指南将帮助你进行更精细化的设置，以优化训练效果和效率。

我们点击“训练”，进入训练参数的设置界面。Embedding就选择我们刚才创建好的embedding。如果在下拉列表里找不到的话，可以点击右边的刷新按钮。

“超网络”、“超网络学习率”、“梯度裁剪”都不用设置。这几个都是关于训练”超网络“的。比较重要的是”学习率“。

Text Inversion训练中的学习率策略

在Text Inversion训练过程中，合理设置学习率对于达到最佳训练效果至关重要。学习率决定了AI模型学习的速度，太高或太低都可能影响最终结果。下面详细介绍如何在训练中设置和调整学习率。

学习率的重要性

学习率可以被视为训练过程中的“步伐大小”。一个适当的学习率使得模型能够有效地学习，避免过快学习导致的过拟合或学习不足。

高学习率：在训练初期使用较高的学习率可以快速达到一个较好的起始点，类似于快速雕刻出佛像的轮廓。
低学习率：随着训练的进行，逐渐降低学习率可以帮助模型更细致地调整，精确雕刻出细节，防止过度拟合。

学习率策略

一个经验丰富的Reddit用户分享了他们的学习率策略，该策略在多个数据集上都显示出了有效性。策略如下：

初始阶段：从第1步到第10步，使用较高的学习率0.05，快速捕捉基本特征。
中期调整：随后降低学习率，例如，10-20步降至0.02，20-60步降至0.01，逐步细化模型。
后期微调：从第3000步开始，学习率进一步降低至0.0005，进行精细调整直到训练结束。

实际应用

默认学习率：默认的学习率可能是固定的，例如0.05，这对于许多情况已经足够。但是，采用动态调整的学习率策略可能会带来更精细的控制和更好的结果。
个别数据集测试：对于特定的数据集，测试不同的学习率策略，观察效果，选择最适合你项目的设置。

通过采用这种分阶段调整学习率的策略，可以在训练的不同阶段对模型进行不同程度的调整，既保证了快速收敛，又避免了过拟合，最终获得满意的训练效果。记得在实际操作中，根据模型的反应和训练结果灵活调整学习率，以达到最佳的训练效果。

其他参数

Batch Size和梯度累计步数

Batch Size：影响训练速度和显存使用。较大的Batch Size可以加快训练速度，但也可能导致显存不足的问题。
梯度累计步数：如果提高了Batch Size，相应地也需要调整梯度累计步数，以保持训练的稳定性和效率。

它们两个的关系比较复杂，如果不是非常追求训练速度的话，建议维持默认就好。

数据集目录：指向你的训练数据集所在的路径。正确设置这一路径确保模型能够访问到所有训练用的图片。
日志目录：用于存放训练过程中生成的日志文件。可以使用默认设置，这样训练日志就会被保存在WebUI的根目录下的特定文件夹中。

提示词模板的选择和定制

可以从WebUI自带的模板中选择，或者使用自定义模板。WebUI本身自带了一些模板，对于训练人像的话，可以选择名称为“subject_filewords”的模板。

自带的模板存放在WebUI根目录的’textual_inversion_templates’文件夹。其中，’subject_filewords.txt’模板的内容是这样的。

我觉得很多内容是多余的，可能会影响训练的效果。于是把这个模板复制了一份，然后重命名一下。删掉大部分内容，最后只保留“[name], [filewords]”。这里的“name”代表了embedding的名称，也就是”ajaj”。“filewords”代表了图像的标注。

假如说，我们在某一阶段的训练图是下面这张。它对应的标注是“looking at camera”，看着镜头。

那么，根据模板，提示词就变成了“ajaj, looking at camera”。

于是，Diffusion 模型就根据这个提示词开始了训练。这个就是提示词模板的效果。

下面的宽度和高度不用改。

最大迭代步数

含义：代表训练过程中模型迭代的最大次数。每一次迭代，模型都会尝试减少生成图像与目标图像之间的差异。
设置建议：虽然默认值可能高达10万，但实际上设置为3000步往往就足以获得良好的训练结果。设置过高的迭代步数可能会导致模型过度拟合，例如使特定特征过于夸张。不过，设置的过高也不用担心。因为可以随时终止训练，之前的embedding都会被保存下来。最后选一个效果比较好的embedding就好了。

图像与Embedding的保存设置

每N步保存图像：此参数允许模型每隔N步将生成的图像保存至日志目录，有助于监控训练进度和效果。如果你在训练的过程中，想要频繁的看这个图的效果，可以设置的小一些。
每N步保存Embedding：与图像保存类似，此设置允许定期保存训练过程中的embedding状态，便于后续分析和选择最优模型。如果你追求最佳效果，可以把数值设置的小一些，这样可以多生成一些embedding的版本，从中选择一个最佳的。

训练速度优化选项

使用PNG alpha通道作为损失权重：此选项可以加快训练速度，但可能需要对数据集进行额外的处理，并调整其他相关参数，因此一般不推荐勾选。

额外功能

保存Embedding在PNG图像信息内：启用此功能将在训练过程中生成包含embedding信息的预览图，有助于追踪和管理训练状态。
按逗号随机打乱标签：此选项通过随机打乱提示词中的标签顺序，有助于平衡各个词汇对生成图像的影响，提升模型质量。

采样器选择

随机采样 vs 确定性采样：虽然官方推荐使用随机采样，社区中有提议使用确定性采样（”deterministic”），这可能会对模型训练的稳定性和重现性有所帮助。

开始训练

一旦所有参数都设置好，点击“训练embedding”按钮即可开始训练过程。训练可以在任何时候暂停并重新开始，而且这种中断不会影响到训练的质量，因为训练的状态会被定期保存。这样的设计确保了训练的灵活性和可控性，允许研究者在训练过程中进行必要的调整以获得最佳结果。

开始训练以后，向上滚动。通过右边的预览区域，我们可以监测训练过程和进度。

刚开始可能跟Angelina不太像。到后面会越来越像。预览图看上去效果可能不太好，有时候还会出现崩坏的手和脚。这是因为它是用底模生成的，而且提示词里面没有提升质量的词，比如“best quality”等等。也没有负面提示词来减弱诸如手脚崩坏的问题。等我们用训练好的embedding和其他模型，比如realistic vision生成Angelina的图片，效果就会好很多。当我们暂停训练或者训练已完成，就可以检查生成的embedding的效果了。Stable Diffusion 会在’text_inversion’文件夹内按照日期放置训练产生的数据。

日期文件夹里会按embedding的名称来组织文件。训练好的embedding会放在这个’embeddings’文件夹里面。我之前设置了每N步生成一个embedding，所以这里可以看到已经生成了很多个embedding。这些embedding的名称里的数字就代表步数。我这里用的是服务器，形式上跟本地电脑不太一样，但文件夹的结构是一样的。

这么多embedding，我们如何得知哪个效果最好呢？可以把测试的embedding拷贝到WebUI根目录下的embeddings文件夹。接着，就可以在WebUI中生成这些embedding的对比图来对比它们的实际效果了。

其实，之前我已经展示了几张对比图，都是用我将要介绍的方法生成的。

如何评估和选择最佳的Embedding

在Text Inversion的训练过程中，可能会生成多个不同步数的embeddings。为了确定哪个embedding的效果最佳，我们可以通过在WebUI中生成和比较这些embeddings的对比图来进行评估。下面是如何执行这个评估过程的详细指南。

准备Embeddings

将要测试的embeddings拷贝到WebUI根目录下的embeddings文件夹中。
在WebUI中，选择一个合适的底模进行测试。你可以选择Realistic Vision或1.5的底模，这取决于你的训练配置和目标。

设置提示词进行测试

在提示词输入框中，输入要开始测试的embedding名称，例如”ajaj-500″。
其他提示词可根据需要添加，但负面提示词通常可以留空。
保持下面的设置为默认，这些通常不需要调整。

生成对比图表

滚动到“脚本”部分，从下拉列表中选择“XYZ图表”脚本。
对于X轴（横轴），选择“提示词搜索/替换”，并在“X轴值”处输入不同步数下的embedding名称，例如”ajaj-500,ajaj-1000,ajaj-1500″等，用以测试不同步数的embedding效果。
对于Y轴（纵轴），也选择“提示词搜索/替换”，并输入不同的发型描述词汇，如波浪卷发，直发等，用逗号分隔。
确保所有输入的值末尾没有逗号，以避免错误。

评估和选择

生成的图表将展示不同步数的embedding与不同发型提示词组合的效果，使你能够直观地比较它们生成的Angelina的不同发型效果。
通过对比这些图表，你可以评估哪个步数的embedding最接近你的期望效果。

实用提示

测试过程可能需要一些时间，需要耐心等待图表的生成。
除了发型，还可以测试其他维度，如不同的表情、场景等，以全面评估embedding的效果。
Text Inversion虽然是一种较为简单的训练方法，但通过细致的评估和选择，仍然可以获得满意的结果。

通过上述步骤，你可以有效地评估不同训练步数下的embeddings，从而选择出最佳的embedding进行进一步的应用。这种方法提供了一种直观的方式来比较不同embeddings的效果，帮助你做出更加明智的选择。

SD WebUI

Stable Diffusion 必装插件之 ADetailer，修脸修手无敌，各种参数详解

ByVito 2024年1月19日2024年1月19日

如果你经常用 Stable Diffusion 画人物，相信你一定画出过脸崩的图片。这也是目前文生图 AI 工具普遍存在的问题。连 Midjourney V6 也不例外！当它画一个人的时候表现还好，当画面里的人一多，局面就难以控制了。看，这就是 Midjourney V6 生成的图片。各种扭曲变形，是不是令人大跌眼镜？单人肖像在 Stable Diffusion 中可以局部重绘一下，要是人数多呢？值得我们为修复一张图片花费几个小时的时间吗？幸运的是，我将为你介绍一个非常强大的插件。它就是为一次性快速修复这样的问题准备的。绝对是 Stable Diffusion 必装的一款插件。很多人没有用过 Stable Diffusion 的原因是显卡不给力。其实可以租用云平台来跑 SD，按小时收费也很划算。感兴趣的话，可以看看我的这篇文章： 👉 玩 Stable Diffusion 没有好显卡？试试秋叶大佬推荐的云平台 ADetailer 值得我花很多时间，与你们分享。本文包含的内容非常丰富，从插件的安装，到各种参数的详细介绍。耐心看完的话，一定能成为高级玩家。OK，让我们开始吧。安装首先我们来看如何安装这个插件。安装 ADetailer 的方法和安装其他插件一样。首先来到插件的标签页，然后点击“可用”标签页。接着在 “Search” 文本框内输入 “adetailer”。通常情况下，它会出现在下方的列表里，然后点击安装即可。如果没有出现的话，还有第二种方法，那就是利用“可用”标签页右边的标签页“从网址安装”。这个网址可以从这个项目的 Github 网页获得。我们可以在搜索引擎上输入关键词 “adetailer stable diffusion”，通常这个网页在搜索结果中排名第一。或者直接在浏览器地址栏输入网址。到了 Github 网页(https://github.com/Bing-su/adetailer)以后，点击 “Code” 按钮，在弹出的窗口中点击 “复制url到剪贴板”按钮。这时候网址就被复制到了剪贴板上。 ADetailer 的 GitHub…

SD WebUI

比 Roop 和 Reactor 更像！IP Adapter 新模型为任何人做写真

ByVito 2024年2月9日2024年3月1日

继我们上一篇文章介绍了IP-Adapter的新模型Face ID Plus V2之后，今天我们将深入探讨如何将这一强大工具用于生成具有高度个性化特征的人物肖像，保持脸部一致性的同时，创造出各种不同风格的形象。这个模型也可以在 Stable Diffusion 的云平台上使用。 👉 玩 Stable Diffusion 没有好显卡？试试秋叶大佬推荐的云平台如果你喜欢看视频教程，那么我非常欢迎你观看本文所对应的视频(B站同名帐号)： IP-Adapter应用广泛在上一篇文章中，我们使用了 WebUI 图生图中的局部重绘功能，通过这个功能，我们成功地将好莱坞女神Angelina Jolie的脸融合到了Midjourney生成的图片上。其实，这个新模型也可以在 WebUI 文生图中发挥作用。我们可以用它来生成各种风格不同的人物肖像，并且保持脸部的一致性。比如说，我用同一张 Angelina 的头像作为参考图给到 IP Adapter。通过修改不同的提示词，就能生成 Angelina 的各种风格的照片。我试了另一个换脸插件 Reactor。它的效果和 Roop 差不多，我感觉都比不上 IP Adapter 的这个模型。这是用 Reactor 生成的几张 Angelina 的照片。我感觉和 Angelina 本人并不像。我还试了近期比较热门的另一个用来换脸的 ControlNet。就是小红书开发的 InstantID。这是用 InstantID 生成的照片。虽然和 Angelina 本人比较像，但图像质量比较差，脸部缺乏细节，而且高光和阴影都太强烈。通过对比这几个工具的效果，我还是更偏爱 IP-Adapter的这个新模型。本文将介绍它配合…

midjourney stable diffusion product photography

SD WebUI

Midjourney + Stable Diffusion 做场景图 (ControlNet Depth)

ByVito 2024年1月1日2024年1月1日

Midjourney V6 生成的图片细节逼真，堪比真实摄影。它可以解决绝大多数商业上的场景图需求。从此再也不必专门为了场景而去拍摄照片了。可是，光有场景很难实现商业上的落地。如何把产品很自然地融入其中才是关键！这时候 Stable Diffusion 就派上用场了。我将通过实际案例演示 Midjourney 如何配合 Stable Diffusion 做出一个非常有场景感的产品图片。 1. Midjourney 生成场景图在 AI 赋能摄影的时代，我们只需要一张基本的白底产品图即可。下图是一幅薄荷精油的图片，我们将要为它塑造场景。为了展现精油健康，有机的产品形象，我们需要为此设计相关的场景。我用下面的提示词在 Midjourney 中生成了一幅场景图。我把白底的产品图给 Midjourney 做参考，这样它生成的产品和真正的产品会更像。 Prompt: Medium: Photo. Subject: A bottle of peppermint essential oil on a moss-covered log, surrounded by peppermint leaves. Emotion: Serene. Lighting: Natural, clear blue sky. Scene: Bubbling brook in the background,…

SD WebUI

超高相似度换脸：IP-Adapter+Instant-ID一起上

ByVito 2024年3月31日2024年3月31日

在上一篇文章中，我们探讨了如何使用LoRA模型和Adetailer插件来实现换脸效果，达到了与斯嘉丽本人极高的相似度。如果您对训练真人LoRA模型感兴趣，欢迎回顾我之前的文章。尽管LoRA模型的效果卓越，但其训练过程较为复杂。因此，本篇文章将向您介绍一种无需LoRA即可实现高相似度换脸的方法。我使用这种方法得到的换脸效果虽然相较于LoRA有微小的下降，但整体表现依然出色。众所周知，ControlNet中的IP-Adapter和Instant-ID可以用于换脸，但有时它们的相似度不够高。我将介绍的方法结合了这两者的优势，比单独使用它们能够获得更高的人脸相似度。如果你喜欢看视频教程，那么我非常欢迎你观看本文所对应的视频(B站同名帐号)：另外，我在这个云平台上运行SD，推荐一下： WebUI Forge的介绍本篇文章将使用WebUI的进阶版本——WebUI Forge。相比于旧版WebUI，WebUI Forge在性能上有显著提升，甚至超过了ComfyUI，并增加了许多实用的新功能。例如，ControlNet引入了新版的IP-Adapter，预处理器也有所不同。 Instant-ID的预处理器也跟老版本的WebUI里的不一样。这些变化是我们选择WebUI Forge的原因之一。我发现，在老版本的WebUI中同时使用IP-Adapter和Instant-ID的效果非常差。要安装WebUI Forge的话，可以访问其GitHub主页(https://github.com/lllyasviel/stable-diffusion-webui-forge)。上面有详细的安装步骤。我为大家下载了一键安装包。下载地址是https://pan.baidu.com/s/1HGp5eYb-a0OsRrNOOO5sTg?pwd=j425。解压之后，使用run.bat这个文件来运行，使用update.bat这个文件来更新。保持更新很重要，可以避免老版本的Bug。换脸基础设置 1️⃣选择SDXL底模首先，打开WebUI Forge的界面，我们需要选定一个SDXL的底模作为我们的起点。选择SDXL模型是因为Instant-ID当前仅对此模型提供支持，确保了我们能够利用最新技术实现换脸。 2️⃣局部绘制和上传照片接着，进入到图生图的界面，并选择“局部绘制”选项。这一步骤是准备将我们想要进行换脸的照片上传至平台。上传照片后，涂抹脸部区域以指定将要更换的部分。记得，涂抹的区域应略大于实际的脸部区域，以便我们有足够的空间调整人物的脸型，这是一个关键步骤，确保最终效果的自然和谐。 3️⃣调整蒙版模糊度和使用Soft Inpainting 完成脸部区域的标记后，滚动到页面下方进行进一步的设置： 4️⃣填写提示词和选择采样器 5️⃣调整宽高和重绘强度最后，点击“三角尺”图标自动将宽高设置为原图尺寸，以保持图像比例的一致性。同时，适当调低“重绘强度”以确保换脸后的脸部与原图能够自然衔接。重绘强度设置过高可能导致不自然的效果，因此，根据生成的图像再做微调是非常必要的。在成功安装并进入WebUI Forge界面后，接下来的步骤是配置ControlNet以实现精确的换脸效果。ControlNet的设置是核心过程之一，涉及到IP-Adapter和Instant-ID的应用。这部分指南将详细介绍如何正确配置ControlNet以及相关组件。设置第一个ControlNet（使用IP-Adapter） 1️⃣启用ControlNet：首先，展开“ControlNet Integrated”选项，并启用第一个ControlNet。 2️⃣选择IP-Adapter：在ControlNet配置中，选择IP-Adapter作为工具。预处理器和模型应已预设选择，无需进一步配置。如果你没有这个模型的话，可以看看我之前介绍IP-Adapter的文章。 3️⃣上传控制图像：勾选“Upload independent control image”并上传一张斯嘉丽的大头照作为参考。选择适当的头像至关重要，因为不同的头像可能会直接影响换脸效果的质量和准确性。 4️⃣调整权重：向下滚动并适当调整权重。需要注意的是，没有固定的权重设置标准，需要根据具体情况和效果进行调整。 5️⃣添加LoRA提示词：在提示词区域添加LoRA，以配合IP-Adapter使用。虽然这对最终效果的影响不大，但适当的调整可以微调细节。设置第二和第三个ControlNet（使用Instant-ID）继续设置第二个和第三个ControlNet，这些步骤是为了使用Instant-ID技术优化换脸效果。这部分配置关键在于下载和安装正确的模型，以及精确地调整设置以适应特定的换脸需求。下载和安装Instant-ID模型 1️⃣访问GitHub页面：所有必要的模型下载链接和安装指南都可以在指定的GitHub页面(https://github.com/Mikubill/sd-webui-controlnet/discussions/2589)上找到。这些信息提供了详细步骤，确保用户能够顺利进行配置。 2️⃣下载模型：根据链接直接下载所需的Instant-ID模型。或者，访问我提供的度盘链接：https://pan.baidu.com/s/1dfX4v9O1uGZALsHpnDolHA?pwd=hjk2。 3️⃣模型重命名与放置：设置第二个ControlNet 1️⃣启用ControlNet：在WebUI Forge界面中，展开第二个ControlNet的设置，并勾选启用。 2️⃣配置选项：设置第三个ControlNet 1️⃣预处理器选择：选择InsightFace (Instant-ID)，这是另一种用于识别脸部特征的预处理器。 2️⃣模型选择：此处选择ip-adapter_instant_id_sdxl模型，确保与第二个ControlNet的配置相互补充。…

SD WebUI

用 Stable Diffusion 10分钟实现电商模特换装/换模特

ByVito 2023年12月27日2023年12月27日

Stable Diffusion 以其可控性被越来越多的设计师纳入了工作流程。以电商为例，在AI工具出现以前，拍摄服装的成本很高昂。聘请专业的模特都是按小时计费的。聘请外模的话价格就更高了。如今，服装可以穿在任何人身上，甚至塑料模特身上。借助 Stable Diffusion，就可以把塑料模特替换为真人模特。于是，拍摄服装的成本大大降低。和传统PS抠图相比，Stable Diffusion的效果更加自然。并且这套流程还可以应用在产品上面。对于电商来说是革命性的。接下来，让我们通过实际案例来了解实现过程。我们的目标是替换掉下面的模特。其实，这个模特甚至可以是塑料模特。这样，在拍摄服装时，我们只需要找到一个塑料模特，然后穿上我们想要展示的服装即可。安装插件首先我们要为 Stable Diffusion 安装一个叫 ”Inpaint Anything“ 的插件。它可以利用最先进的图像识别算法，为你制作蒙版。这个做蒙版的过程比在 PS 里更加方便快捷。当然，有些用户也许不必安装。比如我在使用的一个云平台，内置 Inpaint Anything 插件。 👉 玩 Stable Diffusion 没有好显卡？试试秋叶大佬推荐的云平台总的来说，安装这个插件有两种方式。 1️⃣ 通过 WebUI 安装，这种方法适用于本机魔法环境。把 https://github.com/geekyutao/Inpaint-Anything.git 这个网址复制到 WebUI，并点击安装。接着点击 ”已安装“ 标签页，然后点击 ”应用并重启用户界面“。重启 WebUI 之后，就可以看见 Inpaint Anything 出现在 WebUI 的标签页了。 2️⃣ 本地上传。前往 https://github.com/geekyutao/Inpaint-Anything/releases 这个网址，然后根据自己的系统选择一个压缩包，下载并解压至 WebUI 的 Extension…

SD WebUI

如何在WebUI中给人物换发型：两种方法详解

ByVito 2024年4月17日2025年1月21日

大家好！今天，我们将探讨在WebUI中给人物换发型的两种有效方法。这个过程利用了Stable Diffusion的文生图和局部重绘。接下来，我将一步步带你了解每种方法的操作流程和关键细节。如果你喜欢看视频教程，那么我非常欢迎你观看本文所对应的视频(B站同名帐号)：方法一：使用文生图和ControlNet 首先，让我们从文生图开始。假设我们已经有了一张图片（这里使用的是Stable Diffusion生成的）。这使得我们可以轻松地发送提示词进行图像生成或局部重绘。步骤概览 1️⃣ 模型和尺寸设置： 2️⃣ 使用ControlNet进行局部重绘： 3️⃣ 调整和生成：总结：方法二：使用图生图和专门模型第二种方法是使用专门为局部重绘训练的juggerxlinpaint模型，操作起来相对简单而且效果出众。步骤概览 1️⃣ 准备和设置： 2️⃣ 涂抹和输入提示词： 3️⃣ 调整和生成：总结：以上就是在WebUI中给人物换发型的两种方法。希望这些信息对你有帮助！如果觉得有用，欢迎点赞支持。

数据集的准备

图片预处理

精确打标

打标的重要性

使用WebUI的Tagger插件打标

审核和调整标注

批量修改标注

使用Dataset Tag Editor插件

理解标注的重要性

批量编辑标注

准备训练：基础设置指南

访问WebUI设置

基础设置项

应用设置

启动Text Inversion训练

进入训练界面

创建Embedding

选择合适的底模

其他设置

Text Inversion训练的底层逻辑解析

Embedding的角色

训练过程

启动Text Inversion训练：深入设置与优化指南

Text Inversion训练中的学习率策略

学习率的重要性

学习率策略

实际应用

其他参数

Batch Size和梯度累计步数

数据集目录和日志目录

提示词模板的选择和定制

最大迭代步数

图像与Embedding的保存设置

训练速度优化选项

额外功能

采样器选择

开始训练

如何评估和选择最佳的Embedding

准备Embeddings

设置提示词进行测试

生成对比图表

评估和选择

实用提示

Similar Posts

Leave a Reply Cancel reply