前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简单的结构,优异的性能,SimMIM 来了!

简单的结构,优异的性能,SimMIM 来了!

作者头像
OpenMMLab 官方账号
发布2022-04-09 16:54:36
3630
发布2022-04-09 16:54:36
举报
文章被收录于专栏:OpenMMLabOpenMMLab

自从 BEiT 的到来,图片自监督领域逐渐从对比学习时代,过渡到掩码图片学习时代。MAE 的横空出世,更是掀起了该领域的热潮,不久前 MMSelfSup 已经支持了 MAE。

今天我们要非常荣幸地宣布,MMSelfSup 也开始支持 SimMIM 啦 !

模型

主干网络

预训练 Epoch

Fine-tuning 精度

SimMIM

Swin-Base

100

82.9

总体来说 SimMIM 具有几个突出的特色:

1)轻量级的 decoder

2)用 raw pixel 作为回归的 target

3)除了 ViT 之外,也支持其他常用网络结构,如 Swin,PVT

4)one-stage 训练

与 MAE 对比

相较于 MAE,SimMIM:

1)接受结构化输入;

2)拥有一个轻量化的 decoder(一层 MLP)。

MAE 为了使 encoder 变得更加轻量级,在 encoding 阶段会抛弃掉被 mask 掉的 patch,这让 encoder 的输入变得非规则 (不具有图片这样的结构化形状),所以只能利用诸如 ViT 之类接受非结构化输入的网络模型。近些年来 transformer 的蓬勃发展,产生了一系列性能更加优异的 transformer,例如 Swin,PVT, 但是这些网络结构只能接受结构化的输入,所以限制了进一步提升 MAE 性能的可能性。

同时,MAE 使用了更重的 decoder 结构(8 层 transformer block 来适配 ViT-B),这也进一步增加了模型的计算量。

与 BEiT 对比

相较于 BEiT,SimMIM 采用了 raw pixel 作为回归的 target,而 BEiT 采用的是一个预训练的 tokenizer 出来的 feature 作为 回归 target。这就让 SimMIM 具有三方面的优势:1)使用了更少的计算量(在模型 pre-train 的过程中,省去了 tokenizer 这一部分计算量);2)可以做到端到端的一阶段训练(因为 BEiT 需要预训练一个 tokenizer,所以是一个两阶段的算法);3)具有更加优异的性能。

总体来说,SimMIM 凭借其简单的结构和优异的性能,深受大家的喜爱和追捧。

最后,MMSelfSup 已开始支持 SimMIM 啦,欢迎大家来 MMSelfSup 体验和使用。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-31,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com