��/��/��ţ

��

GPT-3��һ��ʧ��ģ��

��Դ��infoqnostalgebraist

��GPT-2��û��GPT-2��AI��Ƕ�ʱ����׫д�˲��ص��¡�Ȼ��GPT-3��ķ��Ϊ��ʵ�û��ȴ�о��һЩʧ��GPT-3��Щ��ʧ��ĵط��ע��ƪ��tumblr�Ϸ��ƪ��µĻ��ܡ�

��أ��һֱ��GPT-2��û��Ҳд��ܶ��GPT-2��transformerģ�͵��£��"human psycholinguists: a critical appraisal"��"the transformer �� explained?��һ��GPT-2��Ϊ��һ��tumblr bot��

��һ��

��ƪ��ģ�https://arxiv.org/pdf/2005.14165.pdf��һ�û�ر��ϸ��о��漸��ҿ��Կ϶��ģ�

1.1��GPT-3�ж�󿪴��

��GPT-3��ֻ��GPT-2�ķŴ����仰˵��ֻ�ǡ��transformers��ˡ��ַ��Ĵֱ��졣��GPT-2��ܶ��о�С�鶼��ʹ��ַ��

��ժҪ��һ�㽲�ú��

��һЩ��Ҫ��ģ��еĲ��/��Դ��Ϊ�Ľ��ɻ��ܵ��ֶΡ�[��]һ���ֱ��transformerģ�͵Ĵ�С��ӽ��ı��˲��ÿ��Ƶ�FLOPS��ⷽ��Ĺ��ģ�ʹ�С��ţ�ԭʼ��2.13�ڸ��[VSP+17]��3�ڸ��[DCLT18]��15�ڸ��[RWC+19]��80�ڲ��[SPP+19]��110�ڲ��[RSR+19]��170�ڲ��[Tur20]��

��ᵽ��ǰ��ƪ��ķֱ��ǻ��ԭʼtransformer��VSP+17��BERT��DCLT18��ƪ��֮��Ĳ��û��ô�ࡣ

��ƪ��RWC+19��GPT-2��5��GPT-2��ĵ��ص��ž��ǡ��Ȼ��ⷽ��ܱ��ֱܴ��ֻҪ��transformer�ͻῴ��Ľ��ƪ"GPT-3"��ĵ��۵㻹��һ��ֻ��ֱ�ø��ˡ�

��GPT-3��һ��ӵ��1750�ڸ��transformer��һ�η�Ծ��ǻ��ܹ��û��̫��仯��

��ĳ��˵��"GPT-3"Ҳͦ��ģ���GPT-2��ַ����

��Ƕ��˵��GPT-3��Ҳ�ܰ��ۣ��һ��ˡ�GPT-2��˵��һ���ԵĽ��Ϊ��һ��չʾ�˴��ģ��transformerӵ�ж��ڴ�Ҷ�֪��GPT-3��ȫ�Ʋ��ʲô��ϵĽ����Ȼ��µĴ�ģ��ܽ�"GPT-3"��ô��һ��ᵽ��ģ��Ҳ��ʸ��ˡ��

1.2��С��ѧϰ��

��ƪ��ĺ��Ҫ�ֺõľ��NLP��ֻ��ȫ�߷��˷��

GPT-2��Ϊ��ģ�ͣ��ı�Ԥ��NLP��׼��Ե�һЩ�ض��Ͽ��úܺã��ĳЩ��¡��ٲ��Ǻ��⡱��ʹģ��Ȳ��˽��Щ��ϸ�ڡ��Ҫ��Ϊ��֤��ģ�͵��ж�ǿ��

��չʾ�ġ��zero-shot��ѧϰ��ǡ��ı��һ�仰�ܽᣬ��GPT-2��д��continuation��ժҪ��ֶ��ֹ��ִ��ʵ��û��Ҫ��ô�ɡ��ַ��ʺ��֤��ģ��"��"��㲻��Ŀ��Ҳ�ܸ㶨��ص㲻��˵��Щ��"��"��˵��Ǽ��û�г�ֵ�׼��Ҳ�ܻ�ò��ˮƽ��е��ڿ佱һ��С��ͯ��

��GPT-3��У��Ϊ��ģ��һ��·��ģ��ڱ�׼��еı��֡��ڵĹؼ��Ǹ��ı��"��"��Ӧ��ʲô��顣��ǰ�Ǹ�ģ��һ��ʾ��prompt��˵��

�ʣ��׶�� ��

��ʾ��

�ʣ��׶��ʲô�� 𣺰��
�ʣ��׶��ʲô��
�ʣ��׶��ʲô�� ά��Ŧ˹
�ʣ��׶��ʲô��

��NLP��˵��"GPT-3"��ֵ�ù�ע��һ��ǣ��ģ��ڱ�׼��Լ��ϵı��ֿ��Ա��Ҫǿ�ܶ࣬;��ֶ��ʾ��͸��Ĳ��ַ�ʽ��һ��л����ĳɼ��

�Ҿ��Щ�˻��Ϊ��Ǻ��Ҫ�ģ��ǻ��transformer��ģ�;߱��ֻ��ٵ��ݾ�"Ѹ��ץס�ص�"��Gary Marcus��ĳЩ��Ҳ�й�ϵ��

��"ֱ��ѧϰ��learning on-the-fly��"��棬��ƪ��ƺ��ȫû��Ȥ��ԣ��ܹŹ֡��һ��ͼ��չʾ�Ķ��Ǹ��ֲ��µ��ܱ��֣���֮��Ϊ��˵��Խ��Խ����ֻ�ҵ��һ��ͼ��չʾ��ǺͲ��K��ص��ܱ��֣�K��ʾ�в�ͬ��ʾ��

��ͼչʾ��ݲ�û��ô�ÿ��

һ��ʾ��ı��Ҫ��ʾ��GPT-2��ľ��㣩��ʾ��ȥ��ûʲôЧ��ˣ��Ȼ��"Խ��Խ��"��û��ô��Ч��

��ֵ��ǣ��ͼ�ı��˵��Щ�ǿ��ݼ��Ľ��˲��ֱ��ˮƽ�߸��Ĳ��Լ��Աȡ��ǻ��ô��ˣ��ǵ�ȷ��ط��SuperGLUE�Ĳ��Լ��ֻ��K=32��⣬��ͼȱ��Ҳ�Ǹ��⡣

1.3��׼��

��ƪ��̸��ȫ��ڲ��Լ��ĳЩָ��ȡ�ó�ɫ�ĳɼ��

��˵��Ϊ��ֺ�NLP��Щָ��Լ��ˮƽ��Ȼ�أ��롱��Щ��ǵ��һ��е��ŵ¹��ض��ɵ��ˣ�Ϊˢ�ֶ�ˢ�֣��

GPT-2��Ϊ��Щ��ϱ��ֳ�ɫ��ӱ��ġ��֮��ô�ߵĵ�λ��Ϊ��һ��ǳ��õ��ģ�ͣ�չʾ��һ�ֶ��Ե�ȫ��ⷽʽ��ڱ�׼��ĺò��ö��˵û��ô��Ҫ��ǿ��һ��ͺ��ϰ��ֵ��ֻ��ֻ��һ��ò��ô��Դ��֤��츳һ��

GPT-2��֮��ó��ش��⡱��ó��ֻ��"�ش��"��Ե�Ŀ��ܶ�ǳ�ˡ�

GPT-2Ϊtransformer��Ľ��̫��ˣ��һ��µĻ�׼��ԡ�SuperGLUE��Ϊ��ǰ�Ļƽ��׼��GLUE��Ե�̫��ˡ�

GPT-3ʵ��ûʲô��SuperGLUE�ϱ��ֶ��ô��Ҳ��൱�ڰ��˵��ְ󱳺��ǿ��һ��ˮƽ��

��˻�˵��10��ѧ��ͯ��û��֤��ʲô�¶��10��Ӿ��ڸ߿��ѧ��õ��ĳɼ��ѵ��ͻ��ԵĽ��

Ҳ��ǰɣ��ôһ�㣿

1.4��

��˼��ƪ��˼��Խ�࣬��Խ��ķ��ҡ��transformer�Ƿǳ��Ȥ����2020�꣬��ǹ��transformer��Ȥ��ˡ�

�ڶ��

2.1��̸��С��ѧϰ��

��ʱ��Ϊ��ֻ��һ��ͼչʾ��K��С��仯��ûע��ĵ�4ҳ��ͼ1.2��

��ͼ��ǰ��ᵽ��Ÿ��Ҫ��Щ��Ըı��ҵĿ��Ǿ��߲�û�ж��Ȥ��չʾ��ı��ϵ�"��ʽѧϰ"��

��ͼ��ͼ1.2֤��۵��ǣ��ģ�ͻ��Ľ��ʽѧϰ��ˣ��ǵ��ԡ��ʹ�ô�ģ��+С��ѧϰ��׼��Ա��֡��֣��ģ�ͣ��ѧϰ��һ��һ��ڶ��Ч��

ͬ��ĵ��NLP��׼��ϵĳɼ��ǵ�˵��Ǻ��Ȥ�ġ��ˮƽ��ԣ��ҿ��ʲô��ԵĽ�չ��

2.2��ӱ��

��һ��ʵ�飬��ѧϰ��ʹ��µ��ʡ��̵�ӡ�󣬵��ʵ��û��Ч��ˡ��ƪ��Ĳ�û��ī�ܶ࣬��Һ��֡��ⲿ��ڵ�3.9.5�ںͱ�3.16��Wug��ϵ�ܽ��ܡ��Ҳ��Gary Marcus��GPT-2ʱ�ܹ�ע��һ��£�

[��ʾ]��farduddle��˼�ǿ��ٵرı��ʵ��䣺 [GPT-3 ��]��һ��Һ��ˣʱ��Խ��Խ�˷ܣ��ʼ��Ƶıı��

��ѧ��о��ͯʱ�ͻ��漰��񣬹�ȥ��NLPģ��ⷽ��ֺܲ�ⷽ��Ľ�չ��Ӧ�õõ��ߵ��Ͽɡ��Ȼ�ᵽ��ⷽ��ȡ�õĳɾͣ��ȴֻ��һ�᣺��˵��ǳ��6�β�ȫ��ɹ��100��׼ȷ�ȣ��Ȼû��£��û��ڽϴ��ظ�ʵ�飬��һ��ʵָ�꣬��չʾw/r/t��µı��֣��ȵȡ��40��϶��̣��Ҿ��Щ��û��ô��Ȥ��

2.3��ڳ��

��˳��NLP��׼��⣬��ǻ��һЩ��ۺϻ��ԡ��񣨵�3.9�ڣ��ǵ�Ŀ��ǲ��С��ѧϰ��ѧϰ��ʵ��ã�

��С��̽��GPT-3��Χ��һ�ַ��Ǹ��Ҫ��ִ�м򵥵ļ�ʱ��ʶ��һ��ӱ��ģʽ��̫��ѵ��з��Ѹ��Ӧ�쳣��

��ġ��ۺϻ��ԡ��ǣ�

��ʽ�ļ��硰��2λ��
�Ե��ʵ��ĸ��ĸ��ֽ��/��ת��
SAT��

�о����ۻ��ι̣��Խ��ѡ�

��˵��Ͽ��ߵ�ǰ�ᣬ�Ǿ��ģ�Ͳ��洢��һЩ��Ĳ��ұ��һ��Լ�ʱ��⡱��ģ��״̬��Ҳ��ͬʱ��ģ��

��ѵ��ı��п��ֺ�ģ�Ϳ��Ѿ��ڲ��һ��ģ�ͣ��Ӧ�ø�ģ��һ��⣻
��Ϊ��ֳ��չ��һЩͨ��Խ��Ϊ��ͨ�õ��˵��к��ʵ��ʾ��Ҳ�ῼ�Ǻܶ��û��ʵ�ʺ��ĳ��

ֻҪ��1��ˣ�С��ѧϰ�еĶ��ʾ��ûʲô��ˣ��ģ��֪��ģ��ٵģ��ν��еģ��ı��ѧ��һ�㣩��ô�ٶ��ʾ��Ҳ��"��λ��"��˵��ֻѧ��ʵ��Ͳ��Ҫ��У�+��ǼӺŵı�׼��塱��Ϊ��ǻ��һ��ġ�

��ˣ��Ҫ��ǵ�1��ô��ʾ�Ͳ��չʾС��ѧϰ��塣

��ǵ�2��ôС��ʾȷʵ��Ҫ��ڿ��ܵ��ʽϵͳ�Ĵ�ռ��С��λ�˷��ŵĺ��塱��̫��ˣ��ζ��ģ�ͻ��˸��һ�㻯��ɲ��ʲôС��顣

�Ҳ��ߵ�Ŀ��Ҫ֤��һ�㡣��Ϊ��ģ��ͨ�õ��Ϊʲô��ǿ��һ��أ��Ѿ��̽��transformer�ĳ��û��Ϊ�ǳ��͵��ض��Ե�ģ�Ϳ��Է�չ��ǿ��ͨ��Ȼ�ˣ�Ҳ��Ϊ��ߵķ��û�ܼ��ı�ʶ��/��ĳ�ֱ��塣��

�Ҿ��Ӧ��ǰ��ֽ�Ϊ��֪��͡�֪��֡��ı�ѵ��ģ�Ϳ��Ը��ʵ�ģ��С��ʾ��ģ�͡��ʵ�ģ��ѧ��Щ��ݡ��

��̽��Ƿǳ��ѡ���ڴ˴�ʹ��K=50��Ҳ��˵��Ϊģ��ṩ��50��򵥵��ѧ��ȷʾ��ʹ�䡰��λ��񡱡��Ҫ50��ʾ��ô��Ļ��û�˿��

��50��ʾ��Щ��49��ʾ��û�е��Ϣ��Ҫ�ų�ʲô��ݣ��ѵ��Ҫ�ų��󲿷�ʱ�䶼��ӷ��ϵͳ��"�ӷ��ֻ��52ʵ�ʵ��37��һ��"��ģ�ͱ��ѧϰ��ļӷ�ʱ��Ӧ��ų��

�Ҳ�֪��ʲô��Լ�Ҳ��Ҳ��֪��

��ע��ͼ�齱��Geoffrey Hinton��GPT-3��ۡ��GPT-3��δ��ľ��ǰ��Եó��ۣ��Ĵ𰸣��ֻ��4.398��ڸ��ѡ�

ԭ��ӣ�

https://www.lesswrong.com/posts/ZHrpjDc3CepSeeBuE/gpt-3-a-disappointing-paper

��: 2020-06-152020-06-15 14:01:22
��Ϊ InfoQ ��վ�ع��
�׷��ַ��https://www.infoq.cn/article/o4BJ6KBUTJOOJKdYfdct
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

GPT-3��һ��ʧ��ģ��

��һ��

1.1��GPT-3�ж�󿪴��

1.2��С��ѧϰ��

1.3��׼��

1.4��

�ڶ��

2.1��̸��С��ѧϰ��

2.2��ӱ��

2.3��ڳ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

GPT-3��һ������ʧ��������ģ��

��һ����

1.1��GPT-3�ж�󿪴���

1.2����С����ѧϰ��

1.3����׼����

1.4������

�ڶ�����

2.1����̸��С����ѧϰ��

2.2��������ӱ��

2.3�����ڳ�������

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

GPT-3��һ��ʧ��ģ��

��һ��

1.1��GPT-3�ж�󿪴��

1.2��С��ѧϰ��

1.3��׼��

1.4��

�ڶ��

2.1��̸��С��ѧϰ��

2.2��ӱ��

2.3��ڳ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�