��/��/��ţ

��

Transformerģ��ж��ֱ��壿��Ŷ��ȫ��

��Դ��51cto��֮��

�� 2017 �� 6 �¹ȸ跢��ġ�Attention is All You Need��Transformer �ܹ�Ϊ�� NLP ��˼��ľ�ϲ��ڵ��ʱ��Transformer �Ѿ��Ϊ��Ȼ��Դ��ģ�ͣ�� Transformer ��Ԥѵ��ģ�͸��ǳ�Ϊ��

��ʱ��ƣ�Transformer ��ʼ��Ŀ�硣��ѧϰ�ķ�չ��Transformer �ڼ��Ӿ��CV��Ƶ��˹��Ȼɱ��ˣ��ɹ��ѧ��ҵ��о��Ա�Ĺ�עĿ�⡣��ĿǰΪֹ��о��Ѿ��˴��ವ�ӵ� Transformer ��壨�� X-former��Ȼȱʧϵͳ��ȫ�� Transformer ��

ȥ�꣬�ȸ跢��ġ�Efficient Transformers: A Survey��Ը�Ч Transformer �ܹ�չ��Ҫ��ע attention ģ��Ч��⣬�� Transformer ��ķ��Ƚ�ģ��

��գ��ѧ��ѧ��ѧԺ��ŶӶ��෱�� X-former ��ȼ�Ҫ�� Vanilla Transformer�� X-former ��·��෨��ŴӼܹ��޸ġ�Ԥѵ��Ӧ��ǶȽ��˸�� X-former��δ��о��һЩǱ�ڷ��

��ӣ� https://arxiv.org/pdf/2106.04554.pdf

�ع� Transformer �ķ�չ

Transformer ��Ϊ��е��ģ��ģ��о�� Transformer ��Ԥѵ��ģ�ͣ�PTM�� ڸ��ж��ŵı��֡��ˣ�Transformer �ѳ�Ϊ NLP ��ѡ�ܹ�� PTM��ص�Ӧ�ã�Transformer �� CV��Ƶ��ǻ�ѧ��ѧ��ȡ��˳ɹ��ȥ��о��˸�� Transformer ��壨�� X-former��Щ X-former ��Ҫ��ͬ�ĽǶȸĽ�� Vanilla Transformer

ģ��Ч�ʡ�Ӧ�� Transformer ��һ��ؼ��ս��䴦��ʱ��Ч�ʵ��£��Ҫ��ע��self-attention��ģ��ļ��ڴ渴�Ӷȡ��Ľ��ķ�� attention��ϡ�� attention ��壩�ͷֶ��֮�ķ��ѭ��ͷֲ��ƣ��

ģ�ͷ�� Transformer ��һ��ļܹ��Ҷ��ݵĽṹƫ���û�м��裬��˺��С��ģ��Ͻ��ѵ��Ľ��ṹƫ��򻯣��Դ��ģδ��ݽ��Ԥѵ��ȣ�

ģ��䡣��һϵ�й��ּ��ʹ Transformer ��Ӧ�ض��Ӧ�ó��

��Ȼ��Ը��Ƕ��֯ X-former��е� X-former ��ܻ��һ��򼸸��⡣��磬ϡ�� attention ��岻��˼��㸴�Ӷȣ��˽ṹ��Ի��С��ݼ��ϵĹ��⡣��ˣ��Ҫ�� X-former �Ľ� Vanilla Transformer �ķ�ʽ��з��ܹ��޸ġ�Ԥѵ��Ӧ�á��ǵ��ڿ��Բ�ͬ��о��Ҫ��ע��ͨ�üܹ��壬��Ҫ��Ԥѵ��Ӧ�÷��ľ��塣

Vanilla Transformer

�ܹ�

Vanilla Transformer ��һ��е��е�ģ�ͣ��һ��һ��ɣ��߶��ͬ�Ŀ� ��ɵĶ�ջ��ÿ��Ҫ��һ��ͷ self-attention ģ��һ��λ��ǰ��磨FFN��ɡ�Ϊ�˹��ģ�ͣ�ÿ��ģ��Χ��˲в��ӣ�Ȼ��ǲ��һ��ģ�顣��ȣ��ڶ�ͷ self-attention ģ��λ�÷�� FFN ֮�� cross-attention ģ�顣��⣬��е� self-attention ģ��ڷ�ֹÿ��λ��Ӱ��λ�á�Vanilla Transformer ��ܹ��ͼ��ʾ��

�÷�

ͨ��ֲ�ͬ�ķ�ʽʹ�� Transformer �ܹ��

ʹ�ñ�� - ��ͨ��е��н�ģ��񾭻��룻

��ʹ�ñ��еı�ʾ��ͨ��ڷ��б��⣻

��ʹ�ý��Ҳ�Ƴ��˱�� - �� cross-attention ģ�飬ͨ��ɣ��Խ�ģ��

Transformer ��ĵķ��

��ֹĿǰ��о��Ա�Ӽܹ��޸��͡�Ԥѵ��Ӧ��˸��ֻ�� vanilla Transformer �ı��ģ�͡��ͼ��ʾ�� Щ��ģ�͵��

��ͼ��ʾ�˱��о��ߵķ��һЩ��ģ�ͣ�

Attention ģ��

Self-attention �� Transformer �зǳ��Ҫ��ʵ��Ӧ��д��ս��

��Ӷȡ�self-attention �ĸ��Ӷ�Ϊ O(T^2��D)��ˣ�attention ģ��ڴ��ʱ��ƿ��

�ṹ��顣Self-attention ��û�м��κνṹ��ƫ���ָ��ϢҲ��Ҫ��ѵ��ѧϰ��ˣ��Ԥѵ�� Transformer ͨ��С��ݼ��Ϲ��ϡ�

Attention ��ƵĸĽ��Է�Ϊ��¼��

ϡ�� attention��ϡ��ƫ�� attention ��ƿ��Խ��˸��ԣ�

��Ի� attention��⿪ attention ��ں��ͼ��Ȼ��෴��˳�� attention ��ʵ��Ը��Ӷȣ�

ԭ�ͺ��ڴ�ѹ��෽��˲�ѯ��ֵ��Ե��Լ��ע��Ĵ�С��

�ͽ� self-Attention��һϵ�й�� self-Attention �ĵͽ��ԣ�

Attention ��顣��о�̽�� attention �ֲ��׼ attention��

�Ľ��ͷ��ơ��ϵ��о�̽��˲�ͬ��ͷ��ơ�

ϡ�� attention

�ڱ�׼�� self-attention ��У�ÿ�� token ��Ҫ attend �� token��Ȼ��ݹ۲죬��ھ��ѵ�� Transformer��ѧϰ�� attention �� A �ڴ��ݵ��ͨ��ǳ�ϡ�衣��ˣ��ͨ��Ͻṹƫ��ÿ��ѯ attend �Ĳ�ѯ��Ե��ͼ��㸴�Ӷȡ�

��һ��Ƕ��׼ attention ��Ա��Ϊһ��Ķ��ͼ��ÿ��ѯ��ڴ�ڵ��Ϣ��ʾ��ϡ�� attention ��Կ��һ��ϡ��ͼ��ɾ��˽ڵ�֮��һЩ��ӡ��ȷ��ϡ��ӵ�ָ�꣬�о��߽��Щ��Ϊ��ࣺ��λ�úͻ��ݵ�ϡ�� attention��

ԭ��ϡ�� attention

��λ�õ�ϡ�� attention ֮һ��ԭ��ϡ�� attention��ͼ��ʾ��Ҫ��ģʽ��ɫ��ʾ�� attention ��հ׷��ʾ�� attention ��

��ϡ�� attention

��һ�ֻ��λ�õ�ϡ�� attention �Ǹ��ϡ�� attention��ͼ��ʾ��Ҫģʽ��к�ɫ��ʾ��б߽硣

��չϡ�� attention

��ģʽ��һЩ��е��о��Ѿ��ض��̽��չϡ��ģʽ��ͼ��a��չʾ��ȫ�� attention ��չ�ĳ��ͼ��ȫ�ֽڵ��Ƿֲ��֯�ģ��κ�һ�� token ��е�·��ɫ��ʾ��ѯλ�ã��ɫ�ڵ� / ��ʾ��ѯ��ע��Ӧ�� token��

��һЩ�Ӿ��ݵ��չ��Image Transformer ̽��͵� attention��

��դɨ��˳��չƽͼ��أ�Ȼ��Ӧ�ÿ�ֲ�ϡ�� attention��

2D ��ֲ� attention��в�ѯ��ڴ��ֱ�� 2D ��У��ͼ (b) ��ʾ��

�Ӿ��ϡ��ģʽ��һ��ӣ�Axial Transformer ��ͼ��ÿ��Ӧ�ö�� attention ģ�顣ÿ�� attention ģ��һ��Ϣ��ͬʱ��һ��Ϣ��ͼ (c) ��ʾ��Ϊ��դɨ��˳��ˮƽ�ʹ�ֱչƽͼ��أ�Ȼ��ֱ�Ӧ�þ��ͼ��Ⱥ͸߶ȼ�϶�Ŀ粽 attention��

��Ի� attention

��ͼ��ʾ�˱�׼ self-attention ��Ի� linear-attention �ĸ��Ӷ��

��ѯԭ�ͺ��ڴ�ѹ��

��ʹ��ϡ�� attention ��ں˵��Ի� attention ֮�⣬��ͨ��ٲ�ѯ��ֵ�Ե�� attention �ĸ��Ӷȣ��ֱ��˲�ѯԭ�ͺ��ڴ�ѹ��ķ��

�ڲ�ѯԭ��У��ѯԭ��Ϊ�� attention �ֲ��Ҫ��Դ��ģ��Ҫô��ֲ��Ƶ��ʾ�Ĳ�ѯ��λ�ã�Ҫô��ɢ��ȷֲ��Щλ�á�

��ͼ (a) ˵��˲�ѯԭ�͵ļ��̡��ͨ��ѯԭ�ͼ��ٲ�ѯ��⣬��ͨ��Ӧ�� attention ��֮ǰ��ټ�ֵ�Ե��ѹ��ֵ�ڴ棩��͸��Ӷȣ��ͼ��b��ʾ��

�� attention

Attention ��ͨ��Ԥ��ֵ��Ϊ��ļ�Ȩ�ͣ��Ȩ��ֵ�ϵ� attention �ֲ��ͳ�ϣ��ֲ��Ǵ��ɵģ�� Vanilla Transformer �е� softmax(QK?)��һ��£�attention �ֲ�Ҳ��Դ��Ҳ��顣��ע��ֲ��Բ��ķֲ��Attention ��ֱ��Գ��Ϊ�� attention��ͼ��ʾ��ڴ��£�� attention �ֲ��ںϿ��ͨ��Ӧ�� softmax ֮ǰ��Ӧ�� attention �� attention �ķ��ļ�Ȩ��ɡ�

�Ľ��Ķ�ͷ��

��ͷ attention ��ܹ��ͬ attend ��Բ�ͬλ�õĲ�ͬ��ʾ�ӿռ��Ϣ��Ȼ��û�л��ƿ��Ա�֤��ͬ�� attention ͷȷʵ�ز�׽��ͬ��

��ͼ��ʾ��ͷ��ֿ��κ��()��룬��ֵ��

��ģ�鼶�޸�

λ�õ��Ҫ��

��֤��ѭ��粻��û��ȱ��Ǻܼ򵥵ġ�Ȼ��Transformer �е� self-attention ģ��λ��ǰ��㶼��û��ȱ�ģ��ڽ�ģ��ʱ��һ��⡣��磬�ڶ��ı��н�ģʱ��ʵ�˳��Ҫ�� Transformer �ܹ��ȷ��뵥�ʵ�λ��Ҫ��ˣ��Ҫ��Ļ��ƽ�λ��Ϣע�뵽 Transformer �С�һ�ֳ��ʹ��ʾλ��Ϣ��Ȼ��Ϊ��ע��ģ�͡�

��Ĺ�һ��

��һ�� ( Layer Normalization, LN) �Լ��в��ӱ��Ϊ��һ��ȶ��ѵ��Ļ��ƣ��᲻�ʶ��ݶȺ�ģ��˻�� Vanilla Transformer �У�LN ��λ�ڲв��֮�䣬��Ϊ post-LN �� Transformer ʵ�ֽ� LN �� attention �� FFN ֮ǰ�Ĳв��ڣ��һ��֮��һ�� LN ��Ĵ�С�� pre-LN��Pre-LN �ѱ��о��ʵ��á�pre-LN �� post-LN ��ͼ��ʾ��

λ�÷�� FFN

��ܼܺ򵥣��λ��ǰ�� (feed-forward network, FFN) �� Transformer ʵ��Ҫ��о��߹۲쵽�򵥵ضѵ� self-attention ģ��ᵼ�µȼ��Լ� token ��Թ��ƫ���ǰ��ǻ��Ҫ��֮һ��̽��о��߶� FFN ģ��޸ġ�

�ܹ��޸�

�ڱ��У��о��߽��˼ܹ�� X-former ��ģ�͡�

�� Transformer

��ģ��Ϊ��㿪��Ŭ��⣬��ڻ��һЩ�ڸ��߲��޸ĵ�� Transformer ģ�ͣ�� Lite Transformer��Funnel Transformer �� DeLighT��

Strengthening Cross-Block Connectivity

�� deep Transformer �� - ��ģ��У��е� cross-attention ģ��ñ��źű��ű��Ƚ��б��ʹ�� Transformer ��ܵ��ݶ��ʧ��Ż��Ӱ�졣

Transparent Attention [8] ʹ��ÿ�� cross-attention ģ��б��㣨��Ƕ��㣩�ϵı��ʾ�ļ�Ȩ�͡��ڵ� j ��飬cross-attention Ӧ��ʾ��£�

Feedback Transformer[34] �� Transformer ��ӷ��ƣ��ÿ��λ�þ��ע��в��ʷ��ʾ�ļ�Ȩ�ͣ�

��Ӧ��ʱ��

��ģ��һ��Vanilla Transformer ʹ�ù̶��ѧϰ�ģ��ÿ��롣һ��Ȥ��з�չǱ��޸��ʹ��ʱ��Ϊ�� Transformer ģ��Ӧ��ʱ�䣨Adaptive Computation Time, ACT��

��ͼ 12��a��ʾ��Universal Transformer (UT) ��ѭ��recurrence-over-depth��ƣ��û��ʹ��һ��Ϲ��ģ��ظĽ��з��ŵı�ʾ��ͼ 12��b��У�Conditional Computation Transformer (CCT) ��ÿ��ע��ǰ��һ��ſ�ģ��Ƿ��ǰ�㣻ͼ 12��c��У�� UT ��ʹ�õĶ�̬ͣ��ƣ��һ��ר��ڵ��ÿ��Ĳ��ʵ��õ��ٶ� - ׼ȷ��Ȩ�⣬��Ϊ��ǰ�˳��ơ��early exit mechanism��

��á��ֶ��֮��Ե� Transformer

��ע��г��ȵĶ��θ��ӶȻ��һЩ��ܡ��о��ȷ��о��д��Եķ��ֱ��ѭ��Ͳ㼶 Transformer��ͼ 13 ��ʾ

��ѭ�� Transformer �У�ά��һ��ٻ��棨cache memory��ϲ��ʷ��Ϣ��ڴ��һ��ı�ʱ��ӻ��еĶ�ȡ��Ϊ��롣��ɺ��ͨ��򵥵ظ��״̬��ʹ�ø��ӵĻ��д��ڴ档

�㼶 Transformer ��ֲ�ֽ�Ϊ��ϸ��ȵ�Ԫ�ء��ͼ��ȱ��뵽 Transformer ��ʾ��Ȼ��ʹ�óػ��ۺ��γɸ߼��Ȼ��ͨ��߼� Transformer ��д��

��: 2021-06-112021-06-11 15:02:00
ԭ��http://news.51cto.com/art/202106/666369.htm
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

Transformerģ��ж��ֱ��壿��Ŷ��ȫ��

�ع� Transformer �ķ�չ

Vanilla Transformer

��ģ�鼶�޸�

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

Transformerģ���ж����ֱ��壿���������������Ŷ�����ȫ������

�ع� Transformer �ķ�չ

Vanilla Transformer

����ģ�鼶�޸�

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

Transformerģ��ж��ֱ��壿��Ŷ��ȫ��

��ģ�鼶�޸�

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�