简单的结构，优异的性能，SimMIM 来了！

OpenMMLab 官方账号

发布于 2022-04-09 16:54:36

3630

发布于 2022-04-09 16:54:36

文章被收录于专栏：OpenMMLabOpenMMLab

自从 BEiT 的到来，图片自监督领域逐渐从对比学习时代，过渡到掩码图片学习时代。MAE 的横空出世，更是掀起了该领域的热潮，不久前 MMSelfSup 已经支持了 MAE。

今天我们要非常荣幸地宣布，MMSelfSup 也开始支持 SimMIM 啦 !

模型	主干网络	预训练 Epoch	Fine-tuning 精度
SimMIM	Swin-Base	100	82.9

总体来说 SimMIM 具有几个突出的特色:

1）轻量级的 decoder

2）用 raw pixel 作为回归的 target

3）除了 ViT 之外，也支持其他常用网络结构，如 Swin，PVT

4）one-stage 训练

与 MAE 对比

相较于 MAE，SimMIM：

1）接受结构化输入；

2）拥有一个轻量化的 decoder（一层 MLP）。

MAE 为了使 encoder 变得更加轻量级，在 encoding 阶段会抛弃掉被 mask 掉的 patch，这让 encoder 的输入变得非规则 (不具有图片这样的结构化形状)，所以只能利用诸如 ViT 之类接受非结构化输入的网络模型。近些年来 transformer 的蓬勃发展，产生了一系列性能更加优异的 transformer，例如 Swin，PVT，但是这些网络结构只能接受结构化的输入，所以限制了进一步提升 MAE 性能的可能性。

同时，MAE 使用了更重的 decoder 结构（8 层 transformer block 来适配 ViT-B），这也进一步增加了模型的计算量。

与 BEiT 对比

相较于 BEiT，SimMIM 采用了 raw pixel 作为回归的 target，而 BEiT 采用的是一个预训练的 tokenizer 出来的 feature 作为回归 target。这就让 SimMIM 具有三方面的优势：1）使用了更少的计算量（在模型 pre-train 的过程中，省去了 tokenizer 这一部分计算量）；2）可以做到端到端的一阶段训练（因为 BEiT 需要预训练一个 tokenizer，所以是一个两阶段的算法）；3）具有更加优异的性能。