��ϵ�� | Tokens-to-Token ViT:��ϻ��CNN

AiCharm

�� 2023-05-15 17:45:50

9390

�� 2023-05-15 17:45:50

�ٱ�

��±��¼��ר��AiCharmAiCharm

��ViT��ͼ��Ѿ��ʣ��ViT��޴��ѷɫ��ResNet�ġ��ViT��T2T-ViT��ճ��ˣ��ٶȸ��ܸ�ǿ��T2T-ViT��ViT��MACs(Multi-Adds)��200%��ImageNet��2.5%��T2T-ViT�ں�ResNet50ģ�ʹ�С���£��ImageNet�ϴﵽ��80.7%��׼ȷ�ʡ�

��Ŀ��룺https://github.com/yitu-opensource/T2T-ViT

1.�о��붯��

Vision Transformer (ViT) ��һ��ʹ�� Transformer ģ�ͽ��Ӿ��ķ��ģ��Խ�ģ��ܻ�ӭ��Ȼ�� ImageNet ��еȹ�ģ��ݼ����ͷ��ʼѵ��ʱ��ViT �ı��Ҫ��ھ�� (CNN)��ViT �ľ��԰��ͼ��м򵥵ķִʣ�δ�ܽ�ģ��Ե��ڵľֲ��ṹ��Լ��ע��Ǹ��ƣ��Ӷ��¹��ܷḻ��޲��ģ��ѵ��ѡ�

��Ӿ�ת��ViT��֤��ȫTransformer�ܹ��Ӿ��Ǿ��ǰ;�ģ��ڴ�ͷ��ʼѵ��δ�ﵽ��ƴ�С�ľ��磨��ResNets��ı��ˮƽ��磬ImageNet��Ǽ��ViT��ܲ��Դ��ViT����Ҫ����

��ViT�ǲ��Ӳ����ԭͼ��ֿ飬Ȼ��Linear Projection�õ�embedding��ͨ��ʵ�鷢�֣��ֻ��ԭͼ��ļ�tokenization��û�кܺõ�ѧ��ͼ��ı�Ե��ֵͼ����ViT�㷨��ѧϰЧ�ʲ��ߣ��ѵ��ViT��Ҫ��ݽ��ѵ��
ViT�Ĺ�ע�Ǹɲ��Ӿ��а����ಿ����ḻ��ģ��ѵ��ѡ�

��ȷ�� Resnet50��Vision Transformer �� T2T Transformer ��ӻ��У��̿��ע��ǳ��Ե��;��ע��ֵ��ֵ��

��Ϥ�� CNN��ڱȽ�ǳ�Ĳ��У��ѧϰ���ṹ��Ϣ��ֻС��Ե�Ŀ̻��Ų��ͨ����ҲԽ��Խ��

ViT��Ӿ�transformer��ȴ�ǳ��ͬ���ṹ��Ϣ��ģ�ϲ�(�Ҿ��ÿ��Ϊû�� CNN ��˻��Ĳ��¶��ھֲ��Ϣ��׽��?) ��ȫ�ֹ�ϵ��ֻ��Ա��ע��鲶����ֱ�ӽ�ͼ��ָ�Ϊ�̶��ȵı��ʱ��ViT��Ӿֲ��ṹ�� ֮�⣬��һЩ��ͼ��˼�ֵ��ȫ�׺�ȫ�ڵ��Ԥ��û�й��׵ġ��ζ��ViT��֧�ֹǸɲ��ResNets��Ч����ѵ��ʱ�ṩ��ḻ����

��Ǳ��ĵ�T2T Transformer��ͨ�� Token to Token �ṹ ��ǳ��ʱ��Ҳ�ܽ�ģ��ṹ��Ϣ��ͬʱҲ��˼�ֵ�ĳ����

2.��

?�״�ͨ��Ʊ�ѹ��ܹ��T2Tģ��͸�Ч�Ǹɣ��չʾ��ViT��ImageNet�ϲ��Ҫ��JFT-300M�Ͻ��Ԥѵ��Ĳ�ͬ��Ӷ��ʤ��CNN��

?��ǿ��һ��µĽ��ʽtoken��ΪViT�ṩ��Խ��ܣ����T2Tģ����ͨ��𲽾ۺ��token��ṹ��ͼ��Ϊtoken��token��token��Ӷ��Խ�ģ��Χtoken��ľֲ��ṹ��Լ��token��ȡ�

?��չʾ��CNN�ļܹ��ܹ�ʹViT�ĹǼ����ķḻ�Բ��ࡣͨ��ʵ�飬��Ƿ����խ�ļܹ����ViTЧ��ѡ�

3.��

3.1 T2T Pipeline

��ڻ��ViT�ĹǸ��Чͨ��ͼ2��Ǽƻ�Ϊ��ǵ�T2T-ViT�ҵ�һ��Ч�ĹǸ��磬�Լ��ಢ��ḻ�ԡ��ˣ��̽��˲�ͬ��ViT�ܹ��ƣ��һЩCNN��߹Ǹ��Ч�ʺ��ǿѧϰ��ķḻ�ԡ�

��ÿ��Transformer�㶼��ResNets��Ծ��ӣ��һ��ֱ�ӵ��뷨��Ӧ��DenseNet [21]��ܼ��Ժ��ḻ�ԣ��Ӧ��Wide-ResNets��ResNeXt�ṹ��ı�ViT�Ǹ��е�ͨ��ά�Ⱥ�ͷ��Ǵ�CNN��ViT̽��ֲ�ͬ�ļܹ��ƣ�

1. �ܼ��ӣ��DenseNet [21]��

2. ��խ��ǳ��ṹ��WideResNets

3. ͨ��ע��Squeeze-an-Excitation(SE)��

4. ��ͷע��и��ͷ��ResNeXt

5. Ghost��GhostNet

��߶��Щ�ṹת�ƽ��˹㷺��ʵ�顣��Եط��֣�

��խ��Deep Narrow��ViT�ṹ�ȸ�ǳ��Shallow Wide ��ܸ��
DenseNet���ܼ�concat�ṹ��ʹViT��T2T-ViT��½�
SEע��ģ�� ��ViT��T2T-ViT��
ResNext�ṹ��ViT��T2T-ViT�� ��΢��
GhostNet�ṹ�� һ��ѹ��ģ�ʹ�С��ͬ����ʧһ��

��ʵ�飬��ѡ��Deep Narrow�Ľṹ��ʽ,��ͼ��ʾ

T2T-ViT��ɣ�Tokens-to-Token ��T2T��ģ����T2T-ViT����T2Tģ��ڸ��ֿ��ܵ��ѡ��T2T-ViT��ɴ�T2Tģ��ȡ�þ��й̶��ȵ�token��Ϊ��룬��ViT��ͬ��Ǿ��н�С��ά�ȣ�256-512��MLP��С��512-1536��ܹ��ơ�

f_c^a=\text{MaxP}\left(\{f_{cj}^{w}\}_{j\in\mathcal{N}_{c}}\right)+\text{AveP}\left(\{f_{cj}^{w}\}_{j\in\mathcal{N}_{c}}\right)

3.2 Token to Token ��Progressive Tokenization

Token-to-Token (T2T) ģ��ּ�ڿ˷� ViT �м򵥷ִʵľ��ԡ��𲽽�ͼ��ṹ��Ϊ��ǣ���ֲ��ṹ��Ϣ��н�ģ��ͨ��ַ�ʽ��Ե��ؼ��ٱ�ǳ��ȡ�ÿ�� T2T ��裺�ع���step 1����ָ� (SS)��step 2��

3.2.1 re-structurization �ع�

��ͼ��ʾ��̡��һ��ǰ�ñ任��token��T��ͨ��ע��飨ͼ�е�T2T Transformer��ת��T' = MLP(MSA(T)), Ȼ�󣬽��T'�ڿռ�ά��Ϊͼ�񣬵õ� I = Reshape(T')��

3.2.2 soft spliit ��ָ�

��Vision Transformer�ǽ��άͼƬչƽ��һά��Ҳ��token��Ȼ��뵽Transoformer�ṹ�

T2TΪ�˲�׽�ֲ��Ϣ����е�tokenͨ��reshape����ָ��ɶ�ά��ع��Ȼ��һ��unfoldһ������һ��ڵ�tokens��ӳ�һ��token��Ȼ��뵽Transformer�С�

���𽥼��token����֮��token�ĳ��Ȼ��Ӻܶࣨ��Ϊ��tokens��һ��token��˺��ģ��Ҳ��ά��Ŀ��ƽ��

�ڽ��ָ�ʱ��ÿ��patch�Ĵ�СΪk��k��ص�s��ͼ��p��䣬��k-s��ھ��Ĳ��ˣ��ع�ͼ��I��Rh��w��c��ָ��token T0�ĳ��Ϊ��

ͨ��ع��ָ�ĵ��T2Tģ��𲽼��token�ĳ��Ȳ�ת��ͼ��Ŀռ�ṹ��T2Tģ��еĵ��̿��Թ�ʽ��

4. Experiments

4.1 T2T-ViT on ImageNet

��ImageNet�ϵ�ʵ��У��ǽ�Ĭ��ͼ��С��Ϊ224��224��ĳЩ�ض��⣬��һЩ��ǿ��mixup ��cutmix ��CNN��ViT&T2T-ViTģ��ѵ��ΪViTģ��Ҫ��ѵ��ݲ��ܴﵽ��ܡ��ʹ��AdamW��Ϊ�Ż��ѧϰ��˥��ѵ��Щģ��310��epoch��ʵ��õ��ϸ��Ϣ�ڸ�¼�и��T2Tģ��ͬʱʹ��Transformer��Performer��ǵ�ģ�ͣ��Ӷ��õ��T2T-ViTt-14/19/24(Transformer)��T2T-ViT14/19/24(Performer)ģ�͡�

4.2 From CNN to ViT

Ϊ��Ѱ��Vision Transformer�ĸ�Ч�Ǹɽṹ��ʵ��Ӧ��DenseNet�ṹ��Wide-ResNet�ṹ��խͨ��ά�ȣ��SE�飨ͨ��ע��ResNeXt�ṹ��ڶ�ͷע��ʹ�ø��ͷ��ʹ�CNN��ViT��Ghost��Щ�ܹ��Ƶ�ϸ��ڸ�¼�и��ӱ�6�жԡ��CNN��ViT��ʵ��Է��֣�SE��ViT-SE��Deep-Narrow�ṹ��ViT-DN��ViT��Ч�Ľṹ��Deep-Narrow�ṹ��ýṹ��С��ģ�ʹ�С��MACs��2��ڻ��ģ��ViT-S/16�ϴ��0.9%�ĸ��ơ�

5.Conclusion

����У��һ��µ�T2T-ViTģ�ͣ����ͷ��ʼ��ImageNet�Ͻ��ѵ��ﵽ��CNN��õ��T2T-ViT��Ч�ض�ͼ��Ľṹ��Ϣ��н�ģ��ǿ��ḻ�ԣ��˷��ViT�ľ��ԡ��µ�token��token��T2T��̣��𲽽�ͼ��token��Ϊtoken��ṹ��ۺ�token��ǻ�̽��CNN�ĸ��ּܹ��ѡ��Ը��T2T-ViT��ܣ��ʵ֤��խ�ļܹ��ǳ��Ľṹ��ָ��á��ͷ��ʼ��ImageNet�Ͻ��ѵ��ʱ��ǵ�T2TViT��ģ�ʹ�С��Ƶ��£��ResNets��ܸ��ã��MobileNets��൱��Ϊ��һ��ڱ�ѹ��Ӿ��ģ��ƽ�˵�·��

��Ĳ��?��Ѷ��ý��ƻ��΢�Ź��ںš�

ԭʼ��2023-04-20��Ȩ��ϵ?cloudcommunity@tencent.com ɾ��

�ܹ��