用 Stable Diffusion 10分钟实现电商模特换装/换模特

用 Stable Diffusion 10分钟实现电商模特换装/换模特

Stable Diffusion 以其可控性被越来越多的设计师纳入了工作流程。以电商为例,在AI工具出现以前,拍摄服装的成本很高昂。聘请专业的模特都是按小时计费的。聘请外模的话价格就更高了。 如今,服装可以穿在任何人身上,甚至塑料模特身上。借助 Stable Diffusion,就可以把塑料模特替换为真人模特。于是,拍摄服装的成本大大降低。 和传统PS抠图相比,Stable Diffusion的效果更加自然。并且这套流程还可以应用在产品上面。对于电商来说是革命性的。 接下来,让我们通过实际案例来了解实现过程。我们的目标是替换掉下面的模特。其实,这个模特甚至可以是塑料模特。这样,在拍摄服装时,我们只需要找到一个塑料模特,然后穿上我们想要展示的服装即可。 安装插件 首先我们要为 Stable Diffusion 安装一个叫 ”Inpaint Anything“ 的插件。它可以利用最先进的图像识别算法,为你制作蒙版。这个做蒙版的过程比在 PS 里更加方便快捷。 当然,有些用户也许不必安装。比如我在使用的一个云平台,内置 Inpaint Anything 插件。 👉 玩 Stable Diffusion 没有好显卡?试试秋叶大佬推荐的云平台 总的来说,安装这个插件有两种方式。 1️⃣ 通过 WebUI 安装,这种方法适用于本机魔法环境。把 https://github.com/geekyutao/Inpaint-Anything.git 这个网址复制到 WebUI,并点击安装。 接着点击 ”已安装“ 标签页,然后点击 ”应用并重启用户界面“。 重启 WebUI 之后,就可以看见 Inpaint Anything 出现在 WebUI 的标签页了。 2️⃣ 本地上传。前往 https://github.com/geekyutao/Inpaint-Anything/releases 这个网址,然后根据自己的系统选择一个压缩包,下载并解压至 WebUI 的 Extension…

揽瑞星舟

玩 Stable Diffusion 没有好显卡?试试秋叶大佬推荐的云平台揽睿星舟

很多喜欢AI绘画的朋友一听说 Stable Diffusion 就望而却步了。总觉得要买个大几万的好显卡才能跑的起来。其实现在云端那么发达,上面的显卡应有尽有。硬件不应该成为我们 AI 道路上的绊脚石。 云平台甚至比本机部署还要方便。拿我最近一直在使用的这个云平台举例。它支持一键部署 Stable Diffusion,自带200多个模型和各种常用插件。几乎就是直接上手。安装过程中遇到任何问题还可以找客服解决。 我已经连续使用了一个礼拜,几乎每天都在用。 它也得到了秋叶大佬的多次种草。平台上甚至还有秋叶亲自制作的炼丹炉。 它的性价比也很高,经常有各种优惠活动。3090的显卡从晚上12点到次日早上9点更是低至1.5元/时。 我总结了自己使用它的理由: 注册 为了演示注册过程,我新注册了一个账号。 1️⃣ 打开网址:https://www.lanrui-ai.com/register?invitation_code=1297820264 2️⃣ 打开网址以后就自动填入了我的邀请码1297820264。有了这个邀请码,就可以获赠新人的白嫖券。接着完成注册。 开始免费体验 1️⃣ 点击屏幕右上角用户名,然后在下拉窗口中点击充值按钮。 2️⃣ 选择其它金额,输入3.8,就可以看见一个新人专享体验券。接着选择体验券,然后点击充值并零元支付。 创建工作空间 1️⃣ 点击顶部导航栏的”去市场“按钮,进入选择一台机器。 2️⃣ 根据需要选择一个 GPU,并点击购买。根据是否有活动和使用的时间段,这个价格也会波动。 3️⃣ 再选择一个镜像。推荐”SD1.6+SDXL全插件版“。因为它继承了多个最新且实用的插件。网盘选择挂载。网盘提供无限大的存储空间,每个用户拥有10GB免费空间,超过部分会按照实际使用量计费(0.15元/GB/月)。数据集选择”sd-base“。预训练模型根据自己的需要,如果想体验SDXL,可以选择”sdxl-models“。否则,选择”sd-webui-model“。最后,点击右下角的”创建“按钮。 之后稍等几分钟,待状态变为”运行中“以后,工作空间的实例就创建好了。然后点击右侧的”进入“按钮,并选择 ”JupyterLab“。 启动WebUI 1️⃣ JupyterLab 类似于 Windows 电脑上的文件浏览器。里面可以浏览各种模型,插件。进入 JupyterLab 以后,点击”Terminal“进入终端。 2️⃣ 进入终端会弹出说明。根据说明,平时输入命令 bash /app/start.sh 即可启动 WebUI。 首次启动因为没有安装额外的插件,所以可以输入bash /app/start.sh –skip-prepare-environment 这个命令跳过环境准备,更快地启动 WebUI。 3️⃣ 当页面显示“http://0.0.0.0:27777”,说明已启动成功。…

best image generator for pose control

控制人物姿势,哪个AI绘图工具最棒?

Midjourney V6 发布了,图片真实感很强。大家都欢欣鼓舞,好像世界上已经不需要摄影师了。其实,真正用过AI绘图工具的人,都知道它们的普遍弱点。这个弱点短时间内无法被彻底解决。 我们今天来一个挑战项目,用主流 AI 绘图工具 (Midjourney, DALL-E 和 Stable Diffusion) 来绘制下面这张图。这张图是从Unsplash图片库下载的,是真实的摄影图。 DALL-E 首先让 DALL-E 接受这个挑战。为了让它能够精确地呈现画面的每一个元素,包括瑜伽姿势,我写了个非常详细的提示词: Prompt: Wide photos of an athletic Asian female performing a one-legged wheel yoga pose with one leg extended up towards the ceiling. Her back is deeply arched, forming a semi-circular wheel shape. Both her arms are straight with hands…

close up woman face portrait by midjourney

Midjourney V6 Beta 矫枉过正了,不过亮点也很大

没有一点征兆,Midjourney V6 测试版就在圣诞节前发布了。大概是迫于竞争对手带来的压力。彼时,Midjourney 一骑绝尘。那时候还没有 Adobe Firefly,也没有 DALL-E 3。如今,连谷歌和 Meta 在文生图方面都在步步紧追。 从测试版来看,V6 的更新无疑是巨大的。官方发表的通告里也指出,V6 写提示词的方法和 V5 有巨大差异。用户可能要重新学习如何写提示词。 Midjourney 主要围绕三点进行了更新:1. 让真实风格的(photorealistic)照片更加写实 2. 提高了语义理解能力 3. 提高了生成文本的能力。 在这篇文章里,我主要进行两组测试:写实肖像和生成文本。我的提示词里面很多也用自然语言风格书写,这样可以看出 V6 的自然语言理解能力。 肖像测试 V 5.2 为人所诟病的一点就是,生成的人像皮肤光滑,缺乏纹理,跟 Stable Diffusion 生成的人像在写实方面有差距。测试下来,V6 的确在写实方面有很大提升。让我们来看 Prompt: lensbaby shot of young woman in a meadow, swirling bokeh background, ethereal lighting casting soft shadows on her face, dreamlike atmosphere…

Midjourney 实现角色一致性的新方法

Midjourney 实现角色一致性的新方法

AI 绘画的奇妙之处,实乃令人叹为观止!就像大千世界中,寻不见两片完全相同的树叶一般,AI 绘画亦复如是。同一提示之词,竟能催生出千变万化的图像,使得AI所绘之作,宛如自然之物般独特,毫无呆板重复之嫌。 然而,这种随机性却给许多用户带来了不小的困扰。尤其对于那些故事书或绘本的创作者来说,他们往往希望 AI 生成的人物能够保持一致的特征,以便为故事书或绘本塑造统一的人物形象。 角色一致性这一议题并非新生事物,过去我们曾采用过多种方法来解决这一问题,如借助随机种子(seed)或上传参考图等手段。然而,随着 Midjourney 的不断迭代更新,新的方法往往会超越旧有的手段。 本文旨在介绍一种全新的方法,通过它我们能够实现更为持久且精准的角色一致性。我以真人举例,漫画人物的方法雷同。 1. 为角色创建相册 第一步是为角色创建一个相册。这个相册展示了角色不同角度和表情的头像。我用的提示词如下: Prompt: wide 12-frame photo sheet, young woman with pixie-cut brunette hair, white background, diverse angles and expressions 提示词:12 幅宽幅照片,年轻女性,褐发精灵头,白色背景,不同角度和表情 我更倾向于将这一提示词输入到DALL-E之中,因为它能够生成更为规范的格子布局。同时,DALL-E的格子布局还蕴藏着诸多巧妙的用途,具体细节可参阅我此篇文章: 下图是 DALL-E 生成的图片。 Midjourney 生成的 Photo Sheet 布局会乱一些,人物的一致性也会略差一些,请看下图: 不过,如果用 DALL-E 生成的图像做参考图的话,Midjourney 也能生成比较稳定的格子布局。并且,通过平移 (Pan) 和 放大 (Upscale),还可以生成更多头像。不过,我不建议目前这么操作,因为格子越多,Midjourney 越不稳定。 2. 截图并上传头像 一旦我们拥有了人物的头像相册,便可以为人物创建场景提供有力的参考。 接下来的步骤是挑选出一些具有差异且效果上佳的头像,截图并保存,再上传到 Midjourney…

Overcoming DALL-E's Limitations with Midjourney

如何用 Midjourney 弥补 DALL-E 的不足

纵观各个 AI 绘图工具,DALL-E 无疑是最独特的一个。和 ChatGPT 一样,DALL-E 拥有出色的语义理解能力,用户可以根据提示词非常精确地控制画面的内容,但它生成的图片却缺乏一些艺术感。Midjourney 则相反,它像一个理解力比较弱,但艺术表达力比较强的艺术家。它生成的图像质感和艺术效果都很棒。 那么,有没有可能,让 Midjourney 能够利用 DALL-E 出色的语义理解能力或构图能力呢?或者说,用 Midjouney 提升 DALL-E 的画质。本文将会用实际案例进行探讨。 单独用DALL-E 我们都知道,DALL-E 在生成真人照片方面效果很差。不仅皮肤缺乏质感,甚至还会出现眼睛残缺的现象。比如下面这副照片: Prompt: Photo of a young woman in her early 20s, with short, vibrant purple hair, is skateboarding in a bustling cityscape at sunset. She wears a graphic t-shirt, ripped jeans, and bright red sneakers. The…

unique features of gemini pro

我发现谷歌 Gemini Pro 的这 8 个功能连 GPT-4 都自愧不如

谷歌的聊天机器人 Bard 已经发布很久了,但我始终都没当回事儿,当然也很少用它。直到前两天,谷歌和 DeepMind 合作的大模型 Gemini Pro 被植入 Bard,一时间竟有碾压 GPT-4 之势。 我在之前的文章中对 Gemini Pro 和 GPT-4 进行了深度比较。 👉 谷歌 Gemini 吊打 GPT-4?来看我的深度测评 Gemini Pro 在很多方面和 GPT-4 存在较大差距。然而,作为一个对标 GPT-3.5 的产品来说,已然成功了。它本身就是一个多模态的大模型,可以联网,也可以识图,和 GPT-3.5 没有可比性。 如果还没有体验过,可以访问 bard.google.com。确保谷歌账户的国家和 IP 是米国,语言是英语。如果你访问它的更新日志 (bard.google.com/updates),看到下图所示的更新,就代表你在 Bard 上使用的模型确实是 Gemini Pro。 本文将介绍它的 8 个独具匠心的功能。这些功能是 GPT-4 所欠缺的,或无法匹敌的。它的中文能力吊打 GPT-4,甚至超过国产大模型。 为了更客观地评估其能力,我在大多数情况下使用英文提示词进行测试,只有在最后需要展示其中文能力时才会使用中文。 1. 精准搜图 Gemini Pro 集成了世界上最大的图片搜索引擎——谷歌图片,使得它的图片搜索能力比谷歌还强。比如我输入以下提示词: Prompt: close-up aerial…

custom gpt with api

小白也能让 GPT 通过 API 连接各种 App

ChatGPT 把大量的知识都浓缩到一个大模型里,可以通过文字、代码或图片帮用户解决各种问题。尽管如此,它的作用范围仍然是有限的。但是,最近发布的新功能 GPTs 改变了这个局面。所有 Plus 用户都可以创建自己的 GPTs,并连接第三方 App 进一步扩展 GPT 的功能。 从此,大模型进入了可以连接一切的时代。你可以让 ChatGPT 帮你发送邮件、发布社交媒体,安排每天的计划,甚至控制家里的智能设备。 如果你还未创建过自己的 GPTs,可以先阅读这篇文章:人人都可创建自己的GPT啦!来看怎么弄。 对于不懂代码的技术小白来说,API 这个名词令人望而生畏。其实 API 就是可以连接各种 App 的一个接口。 这方面的技术问题也可以让 ChatGPT 辅助解决。比如让教你如何调试 API ,如何写 Schema 等等。这些内容本文都会介绍。 如果觉得复杂,可以试试 Zapier。它已经连接了国外 6000多个 App,并且有成熟的对接 GPTs 的方案。比自己研究 API 文档方便很多,我在这篇文章里有介绍:ChatGPT 连接 6000+ App,效率提升百倍! 本文将一步一步造一个可以通过 API 连接 Unsplash 图片库获取图片的 GPT,并可以用 DALL-E 对其进行重绘。 测试 API 首先,我们要获取 API 的访问权限。绝大多数 API 都不是直接就可以调用的,需要我们申请密钥。具体如何申请,每个…

gpt-4 vs gemini pro

谷歌 Gemini 吊打 GPT-4?来看我的深度测评

万众期待的谷歌最新的大模型 Gemini Pro 发布了!之后还会上线更强大的 Gemini Ultra 。 曾经听到新闻说 Claude 2 超越 GPT-4,后来又听说谷歌 Bard 超越 GPT-4。今天一觉醒来,又听说 GPT-4 被谷歌 Gemini 超越了,不由得问自己:这是真的吗? 很多博主一看下面这个表格就说 Gemini 全面超越了 GPT-4。毕竟这是权威的 benchmark,数据都是真实的。 实际上,这个指标也可以作弊的。如果有意把用于评估大语言模型的的测试数据包含在大语言模型的训练数据时,它自然会表现得更出色。 就像考试一样。如果提前知道考试的内容包含在哪几本书里。然后考前拼命学习那几本书,最终的成绩可能会比那些平时很用功,但并不知道考试内容的学生最终取得的成绩要好。 当然,我并不是说谷歌在作弊,只是说不能单纯靠这些 benchmark 来判断大模型的优劣。 下面我们来通过 Token 容量、长文本总结、知识更新、推理能力、数学能力、联网搜索能力、识图能力、中文支持等 8 个指标,对比谷歌 Gemini Pro 和 GPT-4 的能力。 目前 Gemini Pro 免费,如果还没有用过,可以访问这个网址:https://bard.google.com/。Gemini Pro 这个模型已经接入谷歌 Bard。确保你的谷歌账号的地址是漂亮国。 需要说明的是,我在测试过程中用的是英文提示词,因为这样才能客观地进行比较。毕竟模型主要的训练数据是英文。中文提示词出来的结果不佳,可能是模型的中文训练数据不够,并不代表模型本身的能力不强。 文末,我也会用中文提示词,测一下两个模型对中文的支持力度。 Token 容量 Token 容量是评估大模型非常重要的一个指标。说的直白一些,就是你跟大模型进行一次完整的对话,大模型能容纳多少单词。 比如让大模型总结一本书的内容,如果被允许容纳的单词越多,那么我们就可以总结更长的文本。 在跟大模型的多轮对话中,如果 Token…

best chatgpt plugins for web browsing

让你造的 GPTs 联网搜索:两种联网方式对比

GPTs 的出现让非程序员也可以创建自己的 AI 应用程序,提高生产力。和以往仅仅通过提示词和 ChatGPT 进行交互不同的是,你可以像创建一个 App 一样,定义它的工作流。如果你还没有创建过自己的 GPT,可以通过这篇文章来入门。 👉 人人都可创建自己的GPT啦!来看怎么弄 我认为 GPTs 区别于 ChatGPT 4 的最大优势在于,你可以上传自己的文档作为 GPT 的知识库。这个 GPT 因为有了你的私有数据,才真正成为你的私人助理。 如果要让这个 GPT 能够获取实时的信息,还得给它加上联网的功能。GPT 本身的知识是要通过训练才能更新的,而训练总要花费时间,所以不依赖联网的话,它的数据始终存在滞后性。 目前,要让你造的 GPTs 实现联网,主要有两种免费的解决方案: 本文主要解决这些问题:如何让你的 GPT 联网?两种方式哪一种方式更好? 简介 如果只是为了让 ChatGPT 去执行一些搜索任务,为此专门造一个 GPT 可能适得其反。简单的任务直接使用 ChatGPT 4 自带的联网功能即可,复杂的任务可以使用各种插件,我在这篇文章里有专门介绍: 👉 4 个 ChatGPT 联网搜索插件对比 如果你在造 GPTs 之前还没体验过如何让 GPT 执行复杂的搜索任务,可以先使用文章中提到的插件。本文要介绍的 WebPilot 也是其中的一款插件。 如果你真的让 ChatGPT 执行过复杂的搜索任务,就会明白为什么…