前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings

Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings

作者头像
marsggbo
发布2024-05-07 09:58:20
1610
发布2024-05-07 09:58:20
举报

transformers 库里实现的很多模型会有这么两个函数 get_output_embeddingsget_output_embeddings。以 SwitchTransformer 为例

代码语言:javascript
复制
class SwitchTransformersForConditionalGeneration(SwitchTransformersPreTrainedModel):
    def set_output_embeddings(self, new_embeddings):
        self.lm_head = new_embeddings
    def get_output_embeddings(self):
        return self.lm_head

默认情况下,大模型的输入和输出的 vocab 是保持一致的,所以如果传入的 embedding 的大小变化了,默认也会让 lm_head 发生变化。

但是在实现张量并行的时候,我们通常会使用如下方式来初始化lm_head

代码语言:javascript
复制
from fairscale.nn.model_parallel.layers import (
    ParallelEmbedding,
    RowParallelLinear,
    ColumnParallelLinear
)
default_linear_init = functools.partial(nn.init.kaiming_uniform_, a=math.sqrt(5))
def __init__(self, ...):
    self.lm_head = ColumnParallelLinear(config.d_model, config.vocab_size, bias=False, init_method=default_linear_init)

换言之,在多 GPU 张量并行下,每张卡上 lm_head 的输出维度就不再是原来的 vocab_size 了,而是 vocab_size/#gpus。所以一种粗暴的解决办法就是把get_output_embeddings的输出改为 None 即可,如下:

代码语言:javascript
复制
    def get_output_embeddings(self):
        return None # PretrainedModel.tie_weights 函数会将 lm_head 绑定为 shared 参数,导致张量并行情况下 lm_head 参数发生不匹配的错误
本文参与?腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2024-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客?前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com