��/��/��ţ

��

�˴�� 90��NLP ��

��Դ�� - Sanda��С֪ʶ�ۼ��

��ʵ��У��ı��Ϣ�޴��ڡ��Ⲣѧϰ�ı��ݵ��ں��һֱ��һ��ǳ��Ծ��о��⣬��Ȼ��Դ��

��ҵ��ԣ��ı��ݿ��Զ��²�Ʒ�Ĺ��ܽ��֤��Ľ��չ��ʵ��Ӧ��У��Ȼ��Դ��Ϊ��

ʶ��ͬ��û�/�ͻ�Ⱥ��Ԥ��ͻ��ʧ��ڼ�ֵ��Ʒƫ�ã�

׼ȷ�ؼ��ȡ��ͬ��ķ��Ϣ��͸��/��·��ߴ��ض��Ե��ἰƵ�ʣ�

��û��ͼ��ı��Ϣ��з��ࣨ��⣩

��Ȼ��Դ��кܶ��ߵ��ĺͽ̳��Դ��һЩ�Ƚϸ�Ч��ָ��ʾ��Է��ǿ��ֲ��⡣��ĵ�Ŀ�ġ�

�ڱ��У��ǽ��ְ˴��û��ѧϰ��ı��ݡ��ǽ��򵥵ķ��ʼ��һ��⣬Ȼ��ķ��ϸ�ڣ��̡��ѧϰ��԰ѱ��Ŀ��Ǳ�׼��ĸ߶ȸ��

��걾�ĺ��㽫ѧ�᣺

��ռ��׼��ͼ��

��ν��򵥵�ģ�ͣ��б�Ҫ�Ļ��Ӧ��ѧϰģ��

��ν��Ͳ��ģ�ͣ��ȷ��ģ��ѧϰ��Ϣ��

��⣬��ĩ��һ��ʽnotebook�ʼǣ��б��еĴ��룬��ʾ��Ӧ��еļ��ر��һЩ�Ƚϳ��ĸ��

Step 1: �ռ��

ÿһ��ѧϰ��ⶼʼ��ݣ��һ��ʼ��ӻ��ġ��ı��Ϣ�ĳ��Դ��

��ۣ�� Amazon��Yelp �Լ��ƽ̨��

�û��ݣ��ġ�Facebook ��ӡ�StackOverflow ��ʵȣ�

��ͻ��󡢼��֧�֡��¼��

��ƪ��У��ǽ�ʹ�� CrowdFlower �ṩ��һ��ݼ��Ϊ��罻ý��е��ѣ�Disasters on Social Media��

��ǲ鿴�˳�� 10000 ��ơ��Ż𡱡��롱��ҡ��ؼ��ʵ��ģ�Ȼ��Ƿ��¼��йأ��֮�෴��һЩ��Ц��Ӱ��һЩ��Ե��¼��

��ǵ��Ƿֱ��Щ��¼��صģ��һЩ��Ƶ�Ӱ��Ĳ��ػ��⡣Ϊʲô�أ�һ��Ǳ�ڵ�Ӧ��ͻ��¼��ִ��Ա��ר�ŵ��ѣ��ᱻ��޹��Ϣ�� Adam Sandler ��ӳ�ĵ�Ӱ��š��һ��ر��ս��ĵ�ʱ��õ��ͬ�ļ��ʣ��ֻ��ͨ��ϸ΢�Ĳ��ȥ��ǡ�

��У��ǽ��¼��ص��ĳ�Ϊ��ѡ��ĳ�Ϊ��صġ��

��ǩ

��Ѿ��ע��ݣ��֪��η��ġ��Ż�һ��ӵ��޼ලѧϰ��Ѱ�Һͱ��㹻��ѵ��ģ�ͻ��ӿ�ݡ��򵥺��ۡ�

Step 2:��ϴ

��ݿ�ѧ�ҵ�һ��ر��֪��Լ��һ��Ǵ��ģ�ͻ��ݡ��һ��õľ��鷨��ȹ۲��Ȼ��ϴ��һ��ɾ��ݼ��ʹģ��ѧϰ��ᱻһЩ��ص��Ӱ�졣

��Խ��·��б��ϴ��鿴��ȡ��Ϣ��

ȥ��һ�в��ص��ַ��κη��ĸ��ֵ��ַ�

��ı��ǲ��Ϊ��ĵ��

ȥ��صĴ���� @��ѻ�� url ��

��ĸת��Сд��hello��Hello��HELLO��ͻᱻ��ͬ��ĵ��ʴ��

��ƴ��ĵ��ʻ��Ƕ��ƴ��ĵ��ĳ��ض��ı��󶨣��磺��cool��/��kewl��/��cooool��

��Ǵ��λ�ԭ��罫��am��,��are��,��is��be��

��Щ��貢��ǾͿ��ʹ��Щ�ɾ��ġ��ǹ��ݽ��ģ��ѵ��ˣ�

Step 3:�ҵ�һ�ֺõ��ݱ��﷽ʽ

��ѧϰģ��ͨ��ֵ��Ϊ��롣��ݼ��Ǿ��б��Ϊ��ģ�Ϳ��Դ��ѧ��ӵ��ģʽ��Ҫ�ҵ�һ�ַ��ת��ģ��ʽ��б��

One-hot �� Bag of Words

ͨ��Ϊ��ı��ķ��ǽ�ÿһ��ַ��Ϊһ��֣�� ASCII �룩��̽����ȡ��ʹ��ּ򵥵ı��Ҫ��ǵ��ݴ�ͷ��ʼѧϰ��Ľṹ��Դ��ݼ��˵�Ǻ��ʵ�ֵġ��Ҫһ�ָ��ϲ�ķ��

��磬��ǿ��Ϊ��ݼ��е��е��һ�Ŵʱ��Ȼ��ÿ��ʺ�һ��Ψһ��ÿ��Ӷ��һ��ɣ��⴮��Ǵʱ��еĶ��ʶ�Ӧ�ĸ��ͨ��б��е��ǿ��ͳ�Ƴ��ĳ��ʳ��ֵĴ��ַ�� ʴ�ģ�ͣ��ȫ��˾��е��ʵ�˳��ͼ��ʾ��

�ôʴ�ģ�ͱ�ʾ��ӡ��ߣ��ȡ��ұߡ��е�ÿһ��һ��ض��ĵ��ʡ�

��ӻ�

�ڡ��罻ý��е��ѡ��ʱ��д�Ż�� 20000 ��ʣ��ζ��ÿ��Ӷ��һ��Ϊ 20000 ��ʾ�� 󲿷ֻᱻ 0 ��䣬��Ϊÿ�仰ֻ��˴ʱ��к�С��һ��Ӽ��

Ϊ�˿��Ƿ��ץס�˺��ص��Ϣ��Ƿ��أ��һ��÷��ǽ��ǿ��ӻ��Ȼ��۲��Ƿ��кܺõķֲ��ǵ��ʱ�ͨ��ܴ󣬶�� 20000 ά��ӻ��ǻ��ܵģ��ʹ�� PCA ��ּ��ݽ��ά��£�

��࿴��û�кܺõķ��룬��ѡ��Ƕ�뷽��ǵ��Ϊά�ȵļ��ġ�Ϊ��˽�ʴ��ȡ��ʽ�Ƿ��һЩ��ã��ǿ��Ż��ѵ��һ��

Step 4:��

��νӴ�һ��⣬ͨ��˵��õķ��ѡһ��ܽ��򵥵Ĺ��ߡ��ᵽ��ݷ��ʱ��һ��ܻ�ӭ��ͨ��ԺͿɽ��Լ�ߵ��߼��ع��㷨��㷨��ѵ��ҽ��Ҳ�ǿɽ��͵ģ��Ժ��ɵش�ģ��ȡ��Ҫ��һЩϵ��

��ǽ��ݷ�Ϊ��ϣ�ѵ��ƥ��ģ�ͣ��Լ��ڹ۲�Ӧ��δ֪��ϵ�Ч��ѵ��ǵõ�� 75.4% �ľ�ȷ�ȡ��Ʋ��ࣨ��ء��ֻ�ܴﵽ 57%��ǣ��ʹ�� 75% �ľ�ȷ��Ҳ�Ѿ��㹻��ˣ��Ǿ��ڻ�û��ģ�͵��¾Ϳ�ʼӦ��

Step 5: ��Ч��

��

��ģ�͵ĵ�һ��˽�ģ�Ͳ��Ĵ��࣬�Լ��Ӧ�ó��ֵĴ��ǵ��У��󱨡��ָ��ص��ķ��Ϊ��¼��©��ָ��йص��Ĺ��Ϊ��޹ص��¼��Ҫ��ȴ��Ǳ�ڵ��¼��Ǿ�Ҫ��͡�©��Դ��ޣ��Ҫ��Ƚ��͡��󱨡��ٴ��ѡ�ʹ�û��Ժܺõؿ��ӻ��Щ��Ϣ��ģ��Ԥ��Ľ��ݵ��Ǳ�ǩ��бȽϡ��£�ģ�͵�Ԥ��ʵ��˹��ע��ȫ��ʱ��һ��Ͻǵ��½ǵĶԽǾ��

��ɫ��ռ��ϸߣ��ɫ��ֵı��ϵͣ�

��ȼ��Խ��ǵķ��˸��ļ��Խ��仰˵��ģ����Ĵ��ǽ��Ĵ��Ϊ��ġ��Խ��ִ��ɱ��ܸߵĻ��ô��Ƿ��ƫ��Եġ�

��ͺ�˵��ģ��

Ϊ��֤ģ�Ͳ��Ԥ��Ҫ��ȷģ��Խ��жϵ��Щ�ʻ㡣��ǵ��ƫ���ȴ��׼ȷԤ�⣬��ģ�;��޷��ʵ��кܺõ��ƹ㡣

����ǿ��ͼ��ʾ��벻��Ԥ��Ҫ�Ĵʻ㡣��ǿ��Զ�ģ�͵�Ԥ��ϵ��ȡ��ôʴ�ģ��(bag-of-words)��Logistic�ع�ģ�ͺ��׾��ܼ��ʵ��Ҫ�ԡ�

�ʴ�(bag-of-words)��ڵ��ʴ�Ƶ��ʾ��Ҫ��

��ǵķ��ܹ��ȷʶ��һЩģʽ��㵺��ɱ�ȣ��һЩ��Ĵʻ㣨��heyoo��x1392�ȣ��ϻ��ǳ��˹��ϡ��ʴ�ģ�ͣ�bag-of-words��ܴ��Ӵ�ʻ��ڵĲ�ͬ�ʻ㣬��еĴʻ��ͬ��Ȩ�ء�Ȼ��һЩ�ʻ��ֵ÷ǳ�Ƶ��ȴֻ��Ԥ��ݡ��ǽ��ҵ�һ��ܹ��ʾ�ʻ��ھ��г��Ƶ�ʵķ��ģ�ʹ��л�ȡ��źš�

Step 6��ʻ�ṹ��ͳ��

TF-IDF��ȡ��ʽ

Ϊ��ģ��רע��ѧϰ��Ĵʻ㣬��ǿ��ڴʴ�ģ��ʹ��TF-IDF��ȡ��ʽ��TF-IDFͨ��ʻ��ݼ��еĴʻ��tfidfֵ��ô��Ҫ�ԣ��ʶ��ֹ��Ƶ��ĵ��ʡ��ͼ�ǻ��TF-IDF��ȡ��ʽ��ģ�ͣ��PCA��ά��ӻ��

��п��Կ��ɫ֮��˸��֣�ʹ��ݸ��ڱ��ֿ��ģ��ѵ��Logistic�ع飬��ǵõ��76.2��׼ȷ�ȣ�˵��TF-IDF��ȡ��ʽȷʵ��ʶ��ܡ�

��ֻ�Ƿǳ�΢С�ĸĽ��ǵ�ģ��ܷ�ʹ�ѧ��Ҫ�Ĵʻ��أ��ܵõ��õĽ��ͬʱ��ܱ��ģ��޹شʻ��ϵĹ��ϣ�ʹ��TF-IDF��ȡ��ʽ��Ա��Ϊ�Ƕ�ѧϰ��Ч��ĸ��ơ�

��Կ��ģ��ѧ��Ĵʻ㿴��ضȸ��ߣ��ܲ��Լ��ָ��ֻ��ӣ��Ƕ�ģ�͵�ʶ��ܸ��а��գ��˲��ģ�͵Ľ��ϵͳ��û��Ϊ��ʡ�

Step 7:ʹ��

Word2Vec��ʾ��ʽ

֮ǰ�Ĵʴ��one-hot��tfidf��ǻ��ڴ��Ͽ⹹��Լ��ø��ȥ��ȡ��ת��Ϊ��ɷ��ݡ�

Ȼ��ģ�ͺ��Ǻܿ��ܻ��һЩ��д�δ��ֹ��Ĵʻ㡣��ǰ��ģ�;��޷��ȷ��ݣ��еĴʻ��Ͽ�ǳ��ơ�

Ҫ��⣬��Ǿ�Ҫ��׽�ʻ��壬��ζ��ģ��Ҫ��⡰�á��롰��ϵľ��Ҫ�ȡ��ӡ��͡��½��ӽ��Ĺ��߾��Word2Vec��

ʹ��Ԥѵ��õ�word2vec��

Word2Vec��һ��Ϊ��ʲ��Ƕ��ļ��Ƕ��˵��Լ򵥵��Ϊ��ĸ�ÿһ��ʷ��һ��ά��word2vec�ŵ��κ��ʿ��ͨ��ƶȼ��㣩��ͨ��Ķ��֣��ܹ�ѧϰ��Щ��ﾳ�г��ֵĴʻ㡣��㹻��ѵ��֮��Ϊ�ʻ��е�ÿ��ʶ��һ��300ά��Լ�¼��Ĵʻ㡣

Word2Vec��һ��ǳ��Ͽ��Ԥѵ��Դ�˸�ģ�͡��һ��Ͽ⣬��ǿ��Խ�һЩ��֪ʶ��뵽��ǵ�ģ��ڡ�Ԥѵ��õĴ��Word2vec��ҵ��ء�

https://code.google.com/archive/p/word2vec/

��ӷּ��ʾ

�÷��ٵõ��Ƕ��ķ��Ƚ��дʻ�Word2Vec�÷ֵ�ƽ��ǰ�ʴ�ģ�͵��ƣ��ڱ��Ϣ��ͬʱֻ��䷨��

Word2vecģ�͵ľ��ʾ

Word2Vec��ʾģ�ͷ��Ŀ��ӻ��£�

����ɫ�ķ��̶ȸ��һЩ��ζ��Word2Vec�ܹ��õط��һ��ʹ��Logistic�ع飬�õ�77.7��׼ȷ�ʣ��õĽ��

��/�ɽ��Ȩ��ȡ��

��ǰ��ģ�Ͳ�ͬ��ģ��޷��ÿ��ʶ��ʾ��һά��˺��ѿ��Щ�ʻ��ǵķ��ض��ߡ��Կ�ʹ��Logistic�ع��ϵ��ǽ��Ƕ��300��ά��أ��ʻ��ֵ��ء�

Step 8:ʹ�ö˵��˵ķ�ʽѵ��﷨��

��Ѿ��ܹ��ÿ��Ч�İ취��ɽ��յľ��Ƕ�롣Ȼ��ͨ��ʡ�Դʻ��˳��Ҳ��о䷨��Ϣ��򵥵ķ��Ľ��Ǿ��ø�Ϊ��ӵ�ģ�ͣ��Ϊ��벢Ԥ��ǩ��ͬʱ��轨��м��ʾ��һ�ֳ��ǰѾ��Ϊ��У��ʹ��Word2Vec��GloVe��CoVe�ȸ��Ƚ��ķ��ϸ��ۡ�

ѵ��ٶȺܿ졣��Ϊһ��ż��ѧϰ�ܹ��ܹ��ܺõؽ��⡣��CNN��ҪԴ��ͼ��ĳ�ɫ��ı��ϣ��ṩ�Ľ��Ҳ�൱��졣��ȶ��ӵ�NLP��LSTM��Encoder/Decoder�ܹ��ȣ��CNNѵ��ٶ�Ҳ��졣��ܹ��ʵ�˳�򣬺ܺõ�ѧϰ��ʵ��Լ��Ϣ��ǰ��ģ�ͣ��ֳ��Alex eats plants��롰Plants eat Alex��֮��졣

��ǰ�ķ��ģ�͵�ѵ��Ĺ��Ч��ȴ�õö࣬׼ȷ�ʸߴ�79.5��ǰ��Ĳ��һ��һ��ҲҪ��̽��ӻ��ģ�͵�Ԥ��֤��Ƿ�Ϊ��ģ�͡��һ��Ӧ��Լ��Ĳ��

д��

�򵥻ع�һ�£��ڸ��õķ��ģ�

��һ��򵥵�ģ�Ϳ��ٿ�ʼ

��ģ�͵�Ԥ��

��ģ�ͷ��еĴ��

ʹ��Щ֪ʶ��һ��Ĳ��

��˴��õ�ģ��Ǵ��ı�ʱ�ļ��ض�ʵ��䱳��Ľ��Ѿ��㷺��ڸ��NLP��ʵ�ʴ��ϡ�

��: 2018-05-132018-05-13 11:21:25
ԭ��http://kuaibao.qq.com/s/20180513A0KITU00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

�˴�� 90��NLP ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�˴����� 90����NLP ����

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

�˴�� 90��NLP ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�