首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
50 篇文章
1
AI绘画专栏之statble diffusion入门(一)
2
AI绘画专栏之statble diffusion入门之插件篇(二)
3
AI绘画专栏之statble diffusion采样方法篇(三)
4
AI绘画专栏之statble diffusion炼丹篇(四)
5
AI绘画专栏之statble diffusion SDXL 1.0 (五)
6
AI绘画专栏之statble diffusion SD艺术二维码教程(六)
7
AI绘画专栏之statble diffusion 大模型 Lora 测试实战(七)
8
AI绘画专栏之statble diffusion controlnet 篇(八)
9
AI绘画专栏之statble diffusion 放大图片 (九)
10
AI绘画专栏之statble diffusion 漫画线稿上色 实战篇(十)
11
AI绘画专栏之statble diffusion 风格迁移 IP Adapter SD vs SDXL (十一)
12
AI绘画专栏之statble diffusion regional-prompter 分区上色 SD SDXL1.0 (十二)
13
AI绘画专栏之statble diffusion 提示词插件 篇(十三)
14
AI绘画专栏之statble diffusion 提示词embedding (十四)
15
AI绘画专栏之statble diffusion ComfyUI从入门到放弃(十五)
16
AI绘画专栏之statble diffusion 炼丹素材批量调整分辨率 (十六)
17
AI绘画专栏之statble diffusion 电商场景应用篇(十七)
18
AI绘画专栏之statble diffusion 艺术字体光影文字(十八)
19
AI绘画专栏之statble diffusion SD秋叶启动器1104报错修复 这是个bug(十九)
20
又一里程碑!!GPT4全家桶16倍性能提升API降价
21
AI绘画专栏之 comfyUI WEBUI一个插件性能就提升5倍?(21)
22
AI绘画专栏之statble diffusion AI绘画&游戏速度翻倍 显卡硬件飞天了(22)
23
AI绘画专栏之statble diffusion SDXL 1.0 更加精细的OpenPose DW Openpose(23)
24
AI绘画专栏之statble diffusion SDXL 1.0 换脸roop easyphoto (24)
25
AI绘画专栏之statble diffusion SDXL 1.0 FaceSwapLab roop 换脸(25)
26
AI绘画专栏之statble diffusion SDXL 1.0 用AI绘画打造最炫酷de双11电商节
27
AI绘画专栏之statble diffusion SDXL 紧急通知!!SD秋叶启动器1104报错修复 这是个bug(二十)
28
AI绘画专栏之statble diffusion SDXL 1.0 Inpainting anything VS segment-anything 使用教程
29
AI绘画专栏之statble diffusion SDXL 1.0 解决下载git仓库慢 超时(time out),SSL,git403 404(25)
30
AI绘画专栏之statble diffusion SD XL 1.0 修复脸部 (29)
31
AI绘画专栏之statble diffusion SDXL 1.0 4种方式stable diffusion无需提示词文生图 | 图生图(31)
32
AI绘画专栏之statble diffusion SDXL 1.0 模型管理 大模型Lora(30)
33
AI绘画专栏之statble diffusion AI绘画提示词又进化 text rich(33)
34
AI绘画专栏之 SDXL AI动画手把手教程(34)
35
AI绘画专栏之 SDXL controlnet 老照片上色教程(35)
36
AI绘画专栏之 SDXL controlnet API教程(36)
37
AI绘画专栏之 SDXL Fooocus!让SD跟Midjourney一样简单易用!(37)
38
啊?AI绘画一个插件性能就提升5倍?尊嘟假嘟
39
又一里程碑!!GPT4全家桶16倍性能提升API降价
40
一键放大 10+免费好用的AI图像高清放大工具
41
AI绘画提示词又进化 放弃局部重绘 富文本提示词生效
42
7个可以AI视频网站手把手教程评测 附带chatGPT官方prompt教程
43
AI绘画专栏之 SDXL 插件之保持图片比例(41)
44
AI绘画专栏之 SDXL Stability Veidoe SVD动漫转动画制作(43)
45
AI绘画专栏之 SDXL AnimateDiff替代品动漫转动画制作(42)
46
AI绘画专栏之 SDXL 新的换脸插件使用非roop(38)
47
AI绘画专栏之 SDXL 查看历史提示词的N种方法(44)
48
AI绘画专栏之stablediffusion 用于扩散模型精确控制的 LoRA 适配器 (47)
49
AI绘画专栏stablediffusion之 AI 艺术的未来就在这里 (48)
50
重大更新!!!4G显存就能跑SDXL ?SD1.7或将对F8优化merge

重大更新!!!4G显存就能跑SDXL ?SD1.7或将对F8优化merge

关于SDXL的生态目前还未完全稳定,但是不得不提到的就是SDXL的在VAE,CLIP,UNET三大组件的巨大提升,其101亿的参数量是原本SD的N倍,那么对于SDXL的生态介绍我们再次重复一遍。4G的显存都能跑SDXL意味着将来大模型Lora将降低其大小,炼丹炉压力更小~

SDXL为什么强?

0.1参数训练量为101亿 其中BASE模型35 亿 加REFINER模型66亿 SD的8倍???

0.2对Stable Diffusion原先的U-Net(XL Base U-Net 一共14个模块),VAE,CLIP Text Encoder三大件都做了改进。可以明显减少显存占用和计算量

0.3增加一个单独的基于Latent(潜在)的Refiner(炼制)模型,来提升图像的精细化程度。【新增:对Base模型生成的图像Latent特征进行精细化,其本质上是在做图生图的工作。】

0.4设计了很多训练Tricks(技巧)(这些Tricks都有很好的通用性和迁移性,能普惠其他的生成式模型),包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等。

0.5先发布Stable Diffusion XL 0.9测试版本,基于用户使用体验和生成图片的情况,针对性增加数据集和使用RLHF技术优化迭代推出Stable Diffusion XL 1.0正式版。

0.6采样方法禁用DDIM (保留意见、非绝对),不需要开启CN,随着CN的支持,可以开启CN的XL版本。所有的环境需要都是XL的生态

0.7直接出1024分辨率图片 1024 * 1024 起步

随之而来的就是对大显存的占用,但随着新的PR的提出,或将在4G的测试显存,并在一定的内存占用上解决!!!

代码语言:javascript
复制
A big improvement for dtype casting system with fp8 
storage type and manual cast

一个很大的提升对于FP8的内存和手动转换

在 pytorch 2.1.0 之后,pytorch 添加了 2 个新的 dtype 作为存储类型:float8_e5m2、float8_e4m3fn。[1][2] 基于讨论使用 fp8 作为训练/使用 NN 模型的参数/梯度的论文。我认为值得对 fp8 格式进行一些优化。[3][4] 此外,一些扩展也已经支持这个功能[5]

速度提升

由于将 FP8 与 FP16 一起使用,因此计算需要一些额外的操作来强制转换 dtype。 它会降低速度(特别是对于较小的批量)

批量大小

768x768 标清1.x fp16

768x768 标清1.x fp8

1024x1024 SDXL fp16

1024x1024 SDXL fp8

1

8.27 秒/秒

7.85 秒/秒

3.84 秒/秒

3.67 秒/秒

4

3.19 秒/秒

3.08 秒/秒

1.51 秒/秒

1.45 秒/秒

会降低质量吗?几乎不会

什么是FP8 FP16?

Fp16:意味模型用16位浮点数存,相对于Fp32更小更快,但是无法用于CPU,因为有的半浮点精度运算在CPU上不支持。通常为了更快的运算,在GPU上我们也会将Fp32转换成Fp16,这个可以在设置里配置。那么随之而来的一个params是8个byte(字节),FP32就是4个byte,FP8就是一个Byte,FP或者BF16相对已经是比较好的出图质量了。

以下测试结果来自原PR作者琥珀青叶,如果你想要尝试,在源码中切换此PR即可

首先SD1的时候FP16存下来是2G,SDXL因为参数变多了FP16也要5G,这样很多显卡就hold不住了。 所以青叶做了个事情,就是load的时候用FP8放在显存里,这样SDXL存在显存是2.5G。但是在每一层运算的时候把对应的FP8转到FP16,所以整个计算流程看起来是是一致的。同时整个流程的显存占用也下来的。

正常启动测试

开启FP8并开启内存缓存优化

XYZ测试关闭前后对比

起初的静态内存占用为5.3

运行后稳定在6.4左右

开启前后对图片直连影响很小,有细微细节差距

搭配LCM测试

当前所有的PR审核已经通过,或将在测试后在1.7进行升级推出正式版本

超多AI合集已整理到https://yv4kfv1n3j.feishu.cn/docx/MRyxdaqz8ow5RjxyL1ucrvOYnnH

小说转视频地址:https://kkget.jeff1992.com/

举报
领券
http://www.vxiaotou.com