��/��/��ţ

��

��Ӧ��Transformer�ļ��ޣ�˼ά��

��Դ�� - ScienceAI

�༭ | �ײ�Ҷ

��Сѧ��ʦ��û�н�� 20 λ��ֵļӼ��֪��μӼ��С��֣��Ҫ��ֻ��ֽ��Ǧ��Լ�һ��ġ��Ӹ�λ��ʼ��һ��󣬺ܿ��ɵػ��۳�ǧ��ڵ��֡�

��˵��׽��ǰ��ȷ�ķ�ʽ��ǡ��Щ��ķ�ʽ��ǡ��Ȼ��д�´𰸡��ѧ��ѧϰ�о�Ա Eran Malach ��ʾ��ʵ��߹��Щ̨�׵ġ��

��һ��о��Ա�о�Ϊ ChatGPT ��ṩ֧�ֵĴ��ģ�͡��Щϵͳ��Խ��漰��⣬��Ǿ��漰��⣬��ܺ͡�

�� 2022 �꣬�ȸ��о��Ա�Ŷӱ��Ҫ��ģ��𲽽��ʹģ��ܹ��ǰ��޷��⡣��ǵļ��Ϊ��˼ά��ʾ��chain-of-thought prompting��ܿ�͵õ��˹㷺Ӧ�ã��Ȼ�о��Ա��Ĺ��ԭ��

��ӣ�https://arxiv.org/abs/2201.11903

��ڣ��Ŷ��Ѿ�ͨ��ʹ��ۼ��ѧ��һ��ط�֧��Ϊ��㸴��ۣ��ļ��̽��˼ά��

��ʹ�ø��о��ģ�͵��ڹ��ܺ;��Ե�һϵ��о��½ڡ��Щ�о��Ӧ��Ԥ��ģ�ͻ��Щ��ʧ�ܣ��ǿ��ܻ�ָ��ģ�͵��·��

��һЩħ��˹��Ǵ�ѧ��ѷ��У�Ļ��ѧϰ�о�Ա Dimitris Papailiopoulos ˵��Ǻ��顣��

ѵ�� Transformer

��ģ��Χ�Ƴ�Ϊ�˹��ѧ�ṹ��ġ��Щ��ڵ��ࡸ��Ԫ��Դ��ʵĳ��ִ�м򵥵��ѧ��㣬��ͨ��ÿ��ת��Ϊ��һ��ʡ��ѧ��ϸ��ȡ��һ��Ϊ��֣��Ԫ֮��ǿ�ȡ�

Ϊ��ѵ��ģ�Ͳ��о��Աͨ��Ӳ��ֵ��翪ʼ��Ȼ��ṩ��Ի��Ĵ��ݡ�ÿ��ģ�Ϳ��һ��µ��ı��ʱ��᳢��Ԥ��ÿ��ʣ��ݵ�һ��ʲ²�ڶ��ʣ��ǰ��ʲ²��ʣ��ơ��ÿ��Ԥ��ʵ��ı��бȽϣ�Ȼ��Լ��ٲ��졣ÿ�ε��ֻ��΢�ı�ģ�͵�Ԥ�⣬��֪�ιʣ��ǵļ��ЧӦʹģ��ܹ��δ��Ӧ��

20 ��о��Աһֱ��ѵ��ԡ����ʼ�� 2017 �꣬��ʱ�ȸ��о��Ա�Ƴ��һ��Ϊ Transformer ��硣

��ӣ�https://arxiv.org/abs/1706.03762

��̴�ѧ��ѧϰ�о�Ա Pablo Barcel�� ʾ��ǰ��ģ��ʷǰʱ��

Transformer ֮��˾��б��ԣ��Ϊ��ģ��Ӳ��ѵ��ʹѵ��ɱ��ߡ�

�� Transformer ��֮ǰ��м��ڸ��Ļ�� Transformer ��ģ��ѳ��һ��ڡ��ȥ��ģ��ܵĴ󲿷ָĽ��Լ򵥵��չ��

Transformer ͨ��ʹ�ó�Ϊ attention heads ��ѧ�ṹʹ��Ϊ��ܣ��ʹ��ܹ��Ķ��ı�� Transformer ��ȡһ��µ��ı��ʱ�� attention heads ��ɨ��ı��ʶ�𵥴�֮��ϵ��Ҳ��ע�⵽��ĸ��͵ڰ˸��ʿ��ܶ��Ԥ��ʮ��á�Ȼ��attention heads ��ʴ��ݵ�һ��Ϊǰ��ľ޴��Ԫ��磬��д��㣬�Ӷ��ѧϰ��Ԥ�⡣

�� Transformer ��ǰ��ָ��Ķ�� attention heads��ҽ��һ��֮��Ԥ�⡣��ÿһ�㣬attention heads �Ѿ�ʶ��ÿ��ص��ģ��˼��ܼ��ǰ��ı��е�ÿ��ͬʱ��ӿ��ѵ��̣�ʹ��Խ��Խ��ݼ�ѵ�� Transformer ��Ϊ��ܡ��Ҫ��ǣ��о��Ա��ѵ��ľ޴��㸺�ط�ɢ��Эͬ��Ĵ��ϡ�

Ϊ�˳��ú��ݼ��ģ�ͱ�÷ǳ��󡣡�ʥĸ��ѧ��ѧϰ�о�Ա David Jiang ��ʾ��ǲ��л��ѵ��ǲ��ʵ�ʵġ��

Ȼ��ʹѵ�� Transformer ��׵Ĳ��нṹ��ѵ��û�а��ʱ��ҪԤ��Ѿ��ڵĵ��ʡ��ͨ��ڼ䣬 Transformer һ��һ��֣��һ��֮ǰ��ÿ��¸��ӵ��ϣ��Ȼͣ��Բ��д��Ż��ļܹ��ϡ�

��Ż�� Transformer ��ģ�Ͳ��Ϸ�չ��ĳЩ��Ǵ��鷳��һЩ�о��Ա��ʼ��ɣ��ƶ��ɲ��л��ģ��Ƿ��Ҫ��ۡ��û�а취�� Transformer ��Ϊ��

Transformer �ĸ��

��о��ѣ��ر��ǵ��ͼ��ѵ��ʱ��ʹ��֪�ĳ��ѵ��̵�ÿһ��Ϊʲô��򵥵Ĺ��̻��һ��õĲ��

һЩ�о��Աû�п��ѵ��ڼ䷢��ͨ��Խ��Ϊ��ֵ��о� Transformer ��ڹ��ܡ��൱�ڽ� Transformer ��Ϊһ��͵Ŀɱ�̼��

��һЩ��豸��֪��ʲô��Լ��Щ��͵ĺ��Chiang ˵��

��Щ��ʽ��о��⡣��ʷ��׷�ݵ� 1936 �꣬��ʱ Alan Turing �״��һ��ص��豸��ڳ�Ϊͼ��ͨ��޴Ŵ��϶�д��ִ��κμ��㡣

��㸴��ۼҺ�� Turing �Ĺ��Ϊ��֤��Ȼ�ط�Ϊ�ɽ��Դ��Ĳ�ͬ��

2019 �꣬Barcel�� Ŷ�֤��й̶��뻯 Transformer �汾��ͼ��һ��ǿ��һ�� Transformer ��ظ��Ϊ��뷴��Ϊ��Ҫ��ض��ʵ�ֵ��ջ��ȷ�Ĵ𰸡�

��ӣ�https://arxiv.org/abs/1901.03429

�ý��һ��㣬��һЩ��ʵ�ʵļ��裬��Щ��ܻ�߹� Transformer �Ĺ��ʡ��Ժ�ļ���о��Աһֱ��ڿ��ʵ��ۿ�ܡ�

��һ��о�ʼ�� 2021 �꣬��ʱŦԼ��ѧ�о�� William Merrill ��뿪��ͼ��˹��о����ʹ��ƺ��̫�ʺ� Transformer ��мܹ��ļ��͵��硣�뿪ǰ��ã��밬��˹��о��о�Ա Ashish Sabharwal ��ۣ��ڽ��˹��о�֮ǰ��о��ۡ��ǿ�ʼ��ɸ��ۿ�� Transformer �ľ��ԡ�

��⿴��ֻ��һ��򵥵�ģ�ͣ��϶��һЩ��ȷ��ơ��Sabharwal ˵��

��ʹ�ü��㸴��۵�һ��֧��Ϊ��·��ԣ�� Transformer ��ͨ��о��м��㣬��Ӧ��ڼ򻯰汾�� Transformer ��ڽ��һ����ǸĽ��֮ǰ��е�һЩ��ʵ�ʵļ��衣

��ӣ�https://arxiv.org/abs/2204.06618

Ϊ��о� Transformer �Ĳ��нṹ��ǵ��˿�� Transformer ��෴��ǵĵ�һ��մ𰸡�

��֤��ۿ��е� Transformer �޷��ض��֮��κμ��⡣��ѧ��⣬��Է��̵��Լ򵥵��⣬��Ϊ��ڸÿγ̡�

��ӣ�https://arxiv.org/abs/2207.00729

��ϣ��Ǳ��ȷʵ��д��۵ġ��ٵ� Transformer ��ʱ��Merrill ˵��ʹ�� Transformer �ķ�ʽ��ṩ��룬Ȼ��ֻ��õ��𰸣��ô Transformer �ͷǳ��ˡ��

˼��ʵ��

Merrill �� Sabharwal ��о��Ȼ��Ȼ��һ��⣺�� Transformer ��ʱ��ǵ��ǿ��٣�Barcel�� Ŷ�� 2019 ��뻯 Transformer �ķ��о��˸��ʵ�ļ��裬��Ȼ��δ��ļ���о��Ա��˼ά��ʾ��ʹ��µ��ԡ�

Merrill �� Sabharwal ֪��ǵĴ��ѧ��޷��׽��ʵ��ģ��˼ά��ʾ��Ϣ��ʾ�еĴ�ǿ��ܷǳ��Ҫ��

��ӣ�https://arxiv.org/abs/2212.10001

��ʾ��δ�ǣ�ֻҪ��ʹ��ģ��𲽽��ģ��ԭ��ϾͿ��ں��ͨ�� Transformer ʱ��м䲽��Ľ��ṩһ�ֹ�ܲ��м��Ƶķ��

��ͬʱ��ѧ��һ��Ŷ�Ҳһֱ��Ƶ�˼·˼��ǵĳ��ǻ��ġ�� 2023 �� 5 �µ�һƪ��У��ȷ�� Merrill �� Sabharwal ��ͨ Transformer �޷��һЩ��ѧ��⣬��м䲽��ʹ Transformer �ܹ��Щ��⡣

��ӣ�https://arxiv.org/abs/2305.15408

10 �·ݣ�Merrill �� Sabharwal ��ڵĹ��˼ά��ļ��ϸ��о��˶��ļ��ȡ�� Transformer �ڱ��մ�֮ǰ��ʹ�õ��м䲽��

��ӣ�https://arxiv.org/abs/2310.07923

һ��˵��о��Ա��κ��м䲽��ʵ��ȡ��Ĵ�С��磬�� 20 λ��ӵ��򵥲��м�ӷ��ͬ�� 10 λ��м�ӷ��

��ӱ�� Transformer ��ʹ�ü��м䲽�貢��̫��ô��ʵ�ϣ�Merrill �� Sabharwal ֤��ֻ�е��м䲽��Ĵ�С�ɱ��ʱ��˼ά��ʼ��ã��Ҫ�м䲽��

��ĳ��Ը��о��Ա��̵�ӡ�󡣡��ȷʵȷ��һ�㡣��ױ��Ǵ�ѧ��ѧϰ�о�Ա Daniel Hsu ˵��Merrill �� Sabharwal ��о��˼ά��ܵġ��ԭ��ϣ��԰�� Transformer ��ѵ��⣬��Ǵ��ļ��㹤��

��Ƕ�һ��Խ�� Transformer ��ԵĲ�ͬ��Ȥ��Merrill ˵��˼ά��һ�ַ��ı��ܲ���õķ��

Back to Reality

��ˣ��о��Ա��ѣ��۷��ֻ�ܽ�ʾ��޵��ʵ��ģ�͡��Ľ��֤�� Transformer ԭ��Ͽ��Խ��ĳЩ��⡪��ζ��ģ��ʵ��ϻ��ѵ��ѧϰ��Щ��

��ʹ�� Transformer ��ԵĽ��ҲӦע�⣺��Ǳ��û�� Transformer ��ĳЩ��⡣��Ȼ��һ��൱�ߵ��ż��һЩ��Ժܺõش��Hsu ˵��

��ˣ��¹��ṩ��һ��ģ�壬��ڷ��ͬ��͵��ܹ��Щ�ܹ��տ��ܻ�ȡ�� Transformer��۷��ĳЩ��͵��͵��ǿ��ô�⽫֤��Щ��ʵ��Ҳ��ܱ��ֵø��á�

Chiang ��ǿ��ģ��Խ��Խ�㷺��Ӧ��ʵ��Ӧ��У�� Transformer ��Ե��о��͸��м�ֵ��׸߹��ǵ��

��ʵ��кܶ��ò�̫�ã��Ҫ�ǳ��ǳ��ʶ��ԡ��Chiang ˵��Ϊʲô��ֹ��ǳ��Ҫ��

��ر��https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/

�˹��ܡ�[?�� 񾭿�ѧ?��ѧ �� ѧ �� ]

��: 2024-03-222024-03-22 12:18:31
ԭ��https://page.om.qq.com/page/OHSIJujyHkUU-PmG3315lv6A0
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��Ӧ��Transformer�ļ��ޣ�˼ά��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

���Ӧ��Transformer�ļ�����ޣ�˼ά������������������

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��Ӧ��Transformer�ļ��ޣ�˼ά��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�