自从 BEiT 的到来,图片自监督领域逐渐从对比学习时代,过渡到掩码图片学习时代。MAE 的横空出世,更是掀起了该领域的热潮,不久前 MMSelfSup 已经支持了 MAE。
今天我们要非常荣幸地宣布,MMSelfSup 也开始支持 SimMIM 啦 !
模型 | 主干网络 | 预训练 Epoch | Fine-tuning 精度 |
---|---|---|---|
SimMIM | Swin-Base | 100 | 82.9 |
总体来说 SimMIM 具有几个突出的特色:
1)轻量级的 decoder
2)用 raw pixel 作为回归的 target
3)除了 ViT 之外,也支持其他常用网络结构,如 Swin,PVT
4)one-stage 训练
与 MAE 对比
相较于 MAE,SimMIM:
1)接受结构化输入;
2)拥有一个轻量化的 decoder(一层 MLP)。
MAE 为了使 encoder 变得更加轻量级,在 encoding 阶段会抛弃掉被 mask 掉的 patch,这让 encoder 的输入变得非规则 (不具有图片这样的结构化形状),所以只能利用诸如 ViT 之类接受非结构化输入的网络模型。近些年来 transformer 的蓬勃发展,产生了一系列性能更加优异的 transformer,例如 Swin,PVT, 但是这些网络结构只能接受结构化的输入,所以限制了进一步提升 MAE 性能的可能性。
同时,MAE 使用了更重的 decoder 结构(8 层 transformer block 来适配 ViT-B),这也进一步增加了模型的计算量。
与 BEiT 对比
相较于 BEiT,SimMIM 采用了 raw pixel 作为回归的 target,而 BEiT 采用的是一个预训练的 tokenizer 出来的 feature 作为 回归 target。这就让 SimMIM 具有三方面的优势:1)使用了更少的计算量(在模型 pre-train 的过程中,省去了 tokenizer 这一部分计算量);2)可以做到端到端的一阶段训练(因为 BEiT 需要预训练一个 tokenizer,所以是一个两阶段的算法);3)具有更加优异的性能。
总体来说,SimMIM 凭借其简单的结构和优异的性能,深受大家的喜爱和追捧。
最后,MMSelfSup 已开始支持 SimMIM 啦,欢迎大家来 MMSelfSup 体验和使用。