开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >LoRA:大模型的低秩自适应微调模型

LoRA:大模型的低秩自适应微调模型

作者头像

deephub

发布于 2023-08-28 20:11:04

3650

发布于 2023-08-28 20:11:04

举报

文章被收录于专栏：DeepHub IMBADeepHub IMBA

对于大型模型来说，重新训练所有模型参数的全微调变得不可行。比如GPT-3 175B，模型包含175B个参数吗，无论是微调训练和模型部署，都是不可能的事。所以Microsoft 提出了低秩自适应(Low-Rank Adaptation, LoRA)，它冻结了预先训练好的模型权重，并将可训练的秩的分解矩阵注入到Transformer体系结构的每一层，从而大大减少了下游任务的可训练参数数量。

LoRA

对于预训练的权重矩阵W0，可以让其更新受到用低秩分解表示后者的约束:

在训练过程中，W0被冻结，不接受梯度更新，而A和B包含可训练参数。当h=W0x时，修正后的正向传播变为:

对A使用随机高斯初始化，对B使用零初始化，因此ΔW=BA在训练开始时为零（这点需要注意）。

这种方法的一个优点是，当部署到生产环境中时，只需要计算和存储W=W0+BA，并像往常一样执行推理。与其他方法相比，没有额外的延迟，因为不需要附加更多的层。

在Transformer体系结构中，自关注模块中有四个权重矩阵(Wq、Wk、Wv、Wo)， MLP模块中有两个权重矩阵。LoRA只对下游任务调整关注权重，并冻结MLP模块。所以对于大型Transformer，使用LoRA可减少高达2/3的VRAM使用量。比如在GPT-3 175B上，使用LoRA可以将训练期间的VRAM消耗从1.2TB减少到350GB。

结果展示

采用HuggingFace Transformers库中的预训练RoBERTa base (125M)和RoBERTa large (355M)还有DeBERTa XXL (1.5B)进行了评估。它们通过不同的微调方法进行微调。

在大多数情况下，使用LoRA可以在GLUE上获得最佳性能。

GPT-3 175B在WikiSQL和mnli匹配的几种自适应方法的可训练参数数的比较

可以看到使用GPT-3, LoRA匹配或超过所有三个数据集的微调基线。

Stable Diffusion

Lora首先被应用在大语言模型上，但是可能被更多人知道的还是他在SD上的应用：

在Stable Diffusion微调的情况下，LoRA可以应用于将图像表示与描述它们的提示联系起来的交叉注意力层。下图的细节并不重要，只需知道黄色块是负责构建图像和文本表示之间关系的块。

所以可以看到这样训练出来的自定义Lora模型会非常的小。

我个人实验：Stable Diffusion进行全面的微调需要最少24G的显存。但是使用Lora，批处理大小为2的单进程训练可以在单个12GB GPU上完成(不使用xformer的10GB，使用xformer的6GB)。

所以Lora在图像生成领域也是非常好的一个微调模型的方式。如果你想了解更多，这里是论文地址：

https://openreview.net/forum?id=nZeVKeeFYf9

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2023-05-18，如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

LoRA
结果展示
Stable Diffusion

相关产品与服务

对象存储

对象存储（Cloud Object Storage，COS）是由腾讯云推出的无目录层次结构、无数据格式限制，可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限，无需分区管理，适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。

免费体验产品介绍产品文档

COS新用户专享存储包低至1元，新老同享存储容量低至0.02元/GB/月，立即选购！