��/��/��ţ

��

��Ź��꣬�˹��ܴ��ʫ

��Դ�� - ��ݿ�ѧ��ͳ��о�Ժ

��꣬��ִ��Ƽ��ķ�չ��ǵ��Խ��Խ�죬��Ի�Į��ľ��󡣡��й�ʫ�ʴ�ᡷ�Ⱥ��л��ͳ�Ļ��Ľ�Ŀ�ĳ��֣��»��Ƕ��л��Ĺ屦��ʫ�Ĺ�ע��Ľ�ͨ��һϵ��ı��ھ򹤾߶ԡ�ȫ��ʫ��ı��ھ��һ�Ƕȶԡ�ȫ��ʫ��ȫ�½��

��ߣ�2018��Ӧ��ͳ��ר˶Ф��Ƽ��ۡ��ѻ�

1��

��ʫ��л��Ĺ屦��Ȼ��ճ��в��ʫ��ԣ��š��й�ʫ�ʴ�ᡷ�Ƚ�Ŀ��Ȳ��ҶԹ�ʫ��֮��ɸ߰��ȫ��ʫ��Ϊ�ŵ�ʫ��ľ��֮��ܵ��ʫ��ߺ��о��Ա�Ĺ㷺��ע��Ŀǰ��ԡ�ȫ��ʫ��о��Ϊ��ѧ�Ҵ��־��ѧ��ס��Ļ��ȽǶȶ��Ľ��ı��ھ򹤾ߣ��ھ��һȫ�µĽǶȶԡ�ȫ��ʫ��з��Ҫ��£�

��Ƶ��ͳ��ȫ�ָ�Ƶ�֣��ʫ��缾�ڡ��ɫ�ȡ�

�ʻ�̽�⣺̽��ʫ��˫�ִʣ��ɴʹ��ɡ�

��ַ��Word2vec��ʫ��֡�

��磺���Ƶǰ30��Ƶ�ֹ��磬��֡�

��Ƽ��WMD��ʫ��ƶȣ��ʫ��

��з��LSTM��磬��ɹ�ʫ��Ԥ�⡣

ʫ��ɣ��LSTM��磬��Զ�дʫģ�ͣ����ҳ��ڳɹ�չʾ��

2��ģ�ͷ��

2.1��ַ��Word2vec

��Ȼ��Դ��У�Ҫ��Ȼ��Խ��Ҫ�Ƚ��Ȼ��ѧ��Word2Vec��Word to Vector��Ϊһ��ת��Ĺ��ߡ�Word2vecΪTomas Mikolov��Google��о��ŶӴ��졣��÷ֲ�ʽ��ά��Ƚϴ��£�ÿһ��ʶ��Ԫ�صķֲ�ʽȨ��ʾ��

��ʱ�ʾΪ��󣬼��A ��֣��ת��Ϊ��A��cos��Ƶ��ͼ2.1-1Ϊ��Word2vec��ģ��ԭ��ʾ��ͼ��

ͼ2.1-1 ��Word2vec��ģ��ԭ��ʾ��ͼ

2.2��Ƽ��WMD

WMD��Word Mover��s Distance��ƾ��룩��Matt��˽�EMD�㷨��Ȼ��Դ��򣬽��Ƕ��EMD��Earth Mover��s Distance��룩��Զ��ĵ��ľ��룬��ƶȡ�

2.2.1 EMD

EMD��Թ滮��Ž⡣��ͼ��ʾ��P1��Pm��ʾm��P1��ΪWPi�Ļ��Q1��Qn��ʾn��ֿ⣬�ֿ�Qj��ΪWQj��Pi��Qj�ľ��Ϊdij��˻��Ϊfij��ͼ2.2-1��ʾ��

ͼ2.2-1 EMDʾ��ͼ

2.2.2 WMD

WMD�Ķ��Word2vec��NBOW��Normalized Bag-of-words��һ��Ĵʴ�ģ�ͣ��WMDͼ��ͼ2.2-2��ʾ��

ͼ2.2-2 WMDʾ��ͼ

WMD�㷨ͨ��Word Travel Cost ��i��j��Ƴ̶ȣ��һ��ʹ��Word2vec��ռ��е�ŷ�Ͼ��룬��

c(i,j)��Ϊ�Ӵ�i�ƶ��j��Ĵ��ۡ�

��ĵ��WMD��뼴ת��Ϊһ��͵��Թ滮��⡣

2.3��硪Fast Unfolding

��罻��У��Щ�ڵ�֮��ӹ�ϵ��Ϊ��ܣ��Щ��Ϊϡ�衣�ɽ��ϵ��Ϊ��ܵĲ��Ϊһ��ڲ��ڵ��ӱȽϽ��ܣ�ͨ��һ��Ĺ�ͬ��ԣ��֮��ӱȽ�ϡ�衣��Ĳ��Fast Unfolding�㷨��֡�

2.3.1ģ��

ģ��Newman��2006��Ķ��ӵĸ��ģ��Խ��Ч��Խ�á��ģ��ȵļ��㹫ʽ��£�

2.3.2 Fast Unfolding

Fast Unfolding�㷨��Blondel��2008��ǽ��ֵľ��㷨֮һ��Fast Unfolding �㷨�ɷ�Ϊ��׶Σ��е�һ�׶�ΪModularity Optimization��ģ��Ż��ڶ��׶�ΪCommunity Aggregation��ɣ��岽��£�

1st Pass: 1. ��ڵ��ڲ�ͬ��У��г�ʼ��

2.��Խ�ÿ��ڵ��ٽ��У��仯ǰ��ģ��Ȳ�ֵ��Q��ģ��ȱ�󣬼��Q>0��˵��˴γ��ʹ��ֱ��ţ��ܴ˴α仯��ܾ��

3.�ظ�2ֱ��ģ��Ȳ��Ϊֹ��

2nd Pass: ��ͼ��ͼ�еĽڵ�Ϊ��һ�׶��л��ֳ��е��Ż��ֱ��

��̿ɱ�ʾ��ͼ2.3-1��ʾ��

2.3.3�н��

�н��Զ��һ��ڵ㵣��ڵ��·��ý��Ĵ��Ǻ��ýڵ��Ӱ��С��Ҫ��ء��ı��У��н��Դ�Ĵʿ��Ϊ�ö��ı��ľ�Ҫ�֡��乫ʽ��ʾ��£�

2.4��з��LSTM

��з��LSTM��磨Long Short-Term Memory��ڼ��磩��ͬʱ��ڿɻ�õı�ע��ݽ��٣��ʲ��Ǩ��ѧϰ�ķ��ע��ݹ��һ��⡣

2.4.1 LSTM��ṹ

LSTM��Hochreiter �� Schmidhuber ��1997��ģ�Ŀ��ǽ��RNN��ĳ��⡣LSTM�Ľṹʾ��ͼ��ͼ2.4-1��ʾ��

ͼ2.4-1 LSTM�ṹʾ��ͼ

��ͨ��š��š��Žṹ��ʵ�ֶ��Ϣ�ı��Ϳ��ơ�

2.4.2Ǩ��ѧϰ

Ǩ��ѧϰ�Ķ��Ϊ��Դ��Ds��Դ��Ts��Ŀ��DT��Ŀ��TT��Ds��Ts��֪ʶ��DT��Ԥ�⺯��ܡ��Ŀ��ǽ��һ��ѧ��֪ʶ��»��е�ѧϰ��

��ڱ�ע��ݽ��٣��Radford��˶��޼ල��Ԫ�о��Ǩ��ѧϰ�ķ��Ӵ��ģ��ݼ��ѵ��õ�LSTM��Ǩ�Ƶ��ı�ע��У��ʹ��ģ�ͽ��Ԥ�⡣

2.4.3��ṹ

��з��ģ�͵ļ�Ҫ��ṹͼ��ͼ2.4-2��ʾ��

ͼ2.4-2 ��з��ģ�ͼ�Ҫ��ṹ

��Embedding Layer��Ƕ��㣩��Ļ��Word2vec��ģ��ı�Ƕ�롣Ƕ��֮�� LSTM�㣬��Softmax��㣩��Ϊ��ɷ��Softmax��ʽΪ��

2.5ʫ��ɡ�LSTM

��ַ��ı��ɲ��ܽ�Ϊ��

1.��һ��ı��뵽ѭ��硣

2.��ڸ��ǰ׺��е��ݣ��н�Ҫ��ֵ��һ��ַ��ĸ��ʷֲ��ģ�͡�

3.ÿ�β��һ��µ��ַ�

��ֲ��LSTM��ӣ��ģ��Ԥ��׼ȷ�ԡ�ͼΪʫ��ģ�͵ļ�Ҫ��ṹͼ��

ͼ2.5-1 ʫ��ģ�ͼ�Ҫ��ṹ

3 ʵ��

3.1��ݽ��

�ƴ��ҹ��Ŵ�ʫ�跢չ�Ķ�ʢʱ�ڣ��ѡȡ��¼��ʫ��ȫ�ġ�ȫ��ʫ��ı��ʫ��ڿ��ʮ��꣨1705�꣩��󡢲��˷�ּ��У��̣��ʫ��ǧ�Ű��ף��ǧ��ˣ��900��Ŀ¼12��Ϊֹ�ŵ�ʫ��ƪ��һ��

��ڹŴ�ʫ��ִ��ص�ʮ�ֲ�ͬ��ʫ��۾��̺��޾��ζ��ʱ��ı�Ԥ��ʱ��зֵķ�ʽ��ʫ��з�Ϊ��ֵ��ʽ��ͬʱȥ��˶��Ρ��ˡ��䡢�ҵ�34��ʵ�ʺ��ʡ�

3.2ʵ��Ƽ��

3.2.1��Ƶ��

3.2.1.1ȫ�ָ�Ƶ��

��ȥ��ʵ��ʺ󣬱��Ľ��Ƶͳ�ƣ��3.2.1-1�г��ǰ50��ȫ�ָ�Ƶ�֡�

��3.2.1-1 TOP50��Ƶ��Ƶ

�ɱ�3.2.1-1��֪��ڡ�ȫ��ʫ��г��Ƶ��ߵ��ǡ��ˡ��ν��ˣ��֮��Ҳ����ʫ�ܺõı��ˡ��Ϊ��һ���󲿷�ʫ��д��ͼ��ָ��־��㼺��ܡ�ͬʱ��ʫҲ��д��֮��Ĺ�ϵ��硰��ˡ��һ�ʱ㾭��ʫ��С��⣬��ˡ�Ҳ��Ϊ��е�һ��ں��գ��硰·��ϻꡱ��𡱵ȵȡ�

�辰��ҹ��Ŵ�ʫ���õı��ַ��ʫ�˻��ʫ��ǰ��д��Ϊ��־��̵棬��ȫʫ��д��ޱ��顢��۵㡣��֮��ռ��ʫ��Ĵ󲿷֡��ˣ��⣬ ��ɽ��硱��¡��ơ��ˮ��ȵȾ��ֵĴ�Ƶ��ڡ��ˡ��

��ǰ120��Ƶ�ֻ��Ƴɴ��ͼ3.2.1-1��ʾ��

ͼ3.2.1-1 T120��Ƶ�ִ��

3.2.1.2��

��ͳ��ˡ��ġ����ĸ��ڡ�ȫ��ʫ��г��ֵ�Ƶ�Ρ�ͳ�ƽ��3.2.1-2��ʾ��

��3.2.1-2 ��Ƶ

��Ƶ��ߣ����֮��ġ��Ҫ��һ��

ʫ�˳��˴��ᣬ��Ҳ��ɽˮʫ��԰ʫ��д��ʫ�ѡ��硰��ɽ����ʶ��λ��ǰ��Ҳ��Ϊ�档��Ҳ��︴��֮��ʫ��Ҳ��١����Ĵ��ͼ��С��ƪ��ȫ�ơ�֮�Ƶġ��ҹ��С��ˮ��ƽ��¹��һ�䣬��硰��һ�괺�ô��ʤ��ʶ��

ͼ3.2.1-2��ֱ�۵�չʾ�˴��ﶬ�ĸ��ռ��

ͼ3.2.1-2 ��ֲ��ͼ

3.2.1.3��ɫ��

д��ʫ�ǹ�ʫ��һ��Ҫ��ɲ��֣��ǽ辰��黹�ǵ��д��д��ʫ��ж��ž��صĵ�λ��ɫ��Ǿ��д�е��Ҫ��أ��ͬɫ��Ļ��ӳ��ͬ��л��ĶԹ�ʫ�г�ʹ�õı�ʾ��ɫ��۽��Ƶͳ�ƣ��䰴ɫϵ��Ϊ��࣬��Ƶ�ϵ͵Ĺ�Ϊ��3.2.1-3��ʾ��

��3.2.1-3 ��ɫ��Ƶ

��ס�λ�Ӱ��ף��ԭ��Ϊ�󲿷��ɫ��д��״���͵��ɫд��ʫ�䡰��һ�а��졣��ס��һ��󣬳��С��ͷ��ס��׷��ȣ��Ⱦһ��ػ��š��˵��գ��硰��׷��˿ĺ��ѩ��硰��ͷɦ��̣��ʤ��ȡ�

��ɫ��ֲ�ռ��ͼ3.2.1-3��ʾ��

ͼ3.2.1-3 ��ɫ��ֲ��ͼ

3.2.2�ʻ�̽��

��ʫ��Ծ��ƣ�ͨ��һ��þ��۱��ܱ��޾��ζ��ʱ��ʫ��Ҳ��һЩ˫�ִʳ��֣��Ľ��ڴ˲��̽��ʫ��˫�ִʵĳɴʹ��ɡ�

��ͳ��ˡ�ȫ��ʫ��˫�ִʵĴ�Ƶ��3.2.2-1�г��˳��Ƶ��λ��ǰ50��˫�ִʼ��Ƶ��

��3.2.2-1 TOP50˫�ִʴ�Ƶ

�ܽ��Щ˫�ִʵĳɴʹ��ɣ��ɴ��·�Ϊ��ࣺ��ϴʡ��ִʡ�˫��ϴʡ��ϴ�ָ�ɴʵ��ɵ��ﺬ�壬��Զ��˫��ڴ��һ��ִ��Ȼ��ã��ǰ�ġ����ǧ���ա��¡��˼��ȡ��ϴʺ��õ��ʶ�ʹ�ø��ϴ�һ��Ϊ�˱��׼ȷ��ִ��硰��ơ��ãã��ȡ�˫��ָ��ɴ��ֵ��ĸ��ͬ��ϴ�Ϊ��ĸ��ͬ��硰��β��ң��ʺ�˫��ϴʵ�ʹ�ö�Ϊ��ǿ�ɶ��Ի�Ѻ��ã��硰��һƬȥ��ƣ��ϲ�ʤ���硰��ãã�뺣��ƽɳ�ƺ��ޱߡ��ȡ�

3.2.3��ַ��

��ʫ�е��Ȼͨ��Ե��ֵ��ʽ��֣��֮��Ҳ��һ��Ĺ��ֻ��Word2vec��ģ�ͣ��ʫ��е��ֱ�ʾ��Ϊ��ʽ��ͨ��ƶ��֮��ƶȡ�

��Ĳ�ѯ��ʫ�г��ı��ۣ��Ϊ��硱�롰��Ϊ0.6973��ġ��롰���Ϊ0.5551��롰�족��Ϊ0.5177��롰˼��Ϊ0.4292��ʾ��ѩ��ת�磬�롰�硱�ֵĺ��ȫ��ͬ��ȸߴ�0.6973��ġ��롰��京��ġ��д��У����ͨ��ڱ��ȡ��족��С��˼��ͬʱҲ��ʾ��ɫ��硰��ְ�ˮ��ҡ��롰˼��Խϵͣ��ԭ��Ϊ��ʫ�ˡ��һ��е�ԭ��˼��кܶ࣬��ҳ��ޡ��ȵȡ�

��ѯ��硱��С��Ĺ��ǰʮ��֣��ֱ��ڱ�3.2.2-3��3.2.2-4��3.2.2-5�С�

3.2.4��

��ѡȡ��Ƶ��λ��ǰ30�ĸ�Ƶ�ֹ��磬��Fast Unfolding�㷨��仮��Ϊ��ͼ��ͼ3.2.4-1��ʾ��

ͼ3.2.4-1 TOP30��Ƶ�ֹ��ͼ

ͼ��ԲȦ�Ĵ�С��н��ԣ��Ϊ��ڴ��е�Ӱ��С��Կ��ڸ�Ƶ�ֹ��У�Ӱ��Ȼ�ǡ��ˡ��֡�

ͼ��ÿ��ɫ��һ��ÿ��Ա��3.2.4-1��ʾ��

��3.2.4-1 TOP30��Ƶ��

��У��ɫ��еĳ�Ա��Ϊд��ۣ��ɫ��еĿա��塢��ʫ��ͨ��Ⱦ��գ��ͱ�ʫ��˼��ʫ��˼��ʫ�У��ɫ��еĳ�Ա�ԡ��ˡ�Ϊ��ģ��Ϊ��ĵ��ۡ�

3.2.5��Ƽ��

��й�ʫ�ʴ�ᡷ�еķɻ����ڿ�νӡ��̡��֮��Ƶ�ʫ��Ϸ��кܶ࣬��˫��ࡢ�串�ȡ��Ĺ��Ϊͨ��Ѱ��֮��Ƶ�ʫ�䣬��ʫ�ʻ��Խ��ٵ��ͨ��˵��ʮ��ѵģ��ô��һ��񽻸��Σ��ֻ��WMD��ʫ��ľ��룬�Զ��ʫ��Ƴ̶ȡ�

��ȼ��ʫ��׵ľ��֮��ƽ�֡��ѻ��ݣ��¶��Ũ��Ⱥ��ɽͷ��̨��·ꡱ��3.2.5-1�г��ȥ��ԭʫ�Լ��ԭʫͨ�ٵ�ʫ��ƶ��ǰ�ĵ�ʫ�䡣

��3.2.5-1 ��ƽ�֡��Ƽ��TOP4

��ľ�ʫ��д��˵��Ũ�ҵģ��Ҷ��ˡ��򡰻��һ��⣬�롶��ƽ�֡��д��ݺ��㷢��д��ͬ��

��ּ��ġ��ӡ��î��¶�ʮ��ҹ��Ρ��Ϊ��ʫ��ʮ��ãã��˼��ǧ��·أ��޴��Լ��Ÿ��ġ��Ǹߡ��е��䡰�ޱ��ľ��£��ﱯ�ﳣ��ͣ��ಡ��̨��ֱ��ڱ�3.2.5-2��3.2.5-3��

��3.2.5-2 ��ӡ��Ƽ��TOP4

��3.2.5-3 ��Ǹߡ��Ƽ��TOP4

��ɱ��ֲ��ӡ��Ӧ��ʫ��֮�顣�ر��ǵڶ��Ͻ��ġ��Ԫ��ء��װ׾��׵ġ��̫��ͬ��þ��¡��ʫ��Ϊ��ʫ��ࡱ��ڤ��¡��ǡ��ԭʫ��Ϊ��ƣ��ּ��Ҳ��ԭʫһ�¡�

��Ǹߡ��Ӧ��ʫ��д֮��Ϊ����˿;��ʫ�˶Լ��˼��еڶ��Ϊ�޹��ġ��¾��ա��ԭʫ��Ǹߡ��ĸ��ȫ��ϡ�

3.2.6��з��

��ڡ�ȫ��ʫ��ϵ��ԣ�Ŀǰ��ġ�ȫ��ʫ��з��Ͽ⹩��ʹ�á�

Ϊ��ע��ݹ��ٵ��⣬��ͨ��˹��ϵķ�ʽ��Bosonnlp��л��˽��˹��飬Ϊ10%��˱�ע��ԡ�ȫ��ʫ��Ľ��ʫ��˵��ע��ݱ��ɹ�С��ܵ�Radford��˵��ġ�Learning to Generate Reviews and Discovering Sentiment��ͨ��Ǩ��ѧϰ�ķ�ʽ��԰�ල�ķ�ʽ��з��ģ�͵Ĺ��ȴLSTM��磬ʵ��Ԥ��һ�ַ��Ĺ��ܡ�֮�󣬽�ѵ��õ�ģ��Ǩ�Ƶ��ע��ϡ��ʹ��ģ�ͽ��Ԥ�⡣

��з��ͼ3.2.6-1��ʾ��

ͼ3.2.6-1 ��ռ��

��ʾ��ʫ��Ϊ��ռ��76%����ķ��ԭ��һ��ƴ��ҹ��Ŵ��÷�չ��Ϊ��ʢ��ʱ�ڣ��ڡ��ʢ��һ��£�ʫ��Ȼ�ᴴ��ʫ�䣬�硰��˻��ʱ��ֱ��Ʒ��ò׺��ռʫ��ص�д��ʫ��ɽˮ��԰ʫ��硰��ɼ��գ��Ȫʯ��Ǳ��Ϊ��д׳��֮��ʫ�䣬�硰��ˮ��ƽ��¹��ľ�Ϊ��С��ȫ��ʫ��ƪ��Ϊ��Ʒ��¡��ָ��֮��Ϊͳ�ν׼��ʫ��ж�Ϊ��棬��¡��ָ�ʫ��Ķ�Ϊ��ӡ��顢��ȣ��кܶಢ�޾��庬�壬��Ϊ��д��׳��Ͷ��Ĥ�ݣ��Ҳ��ж�Ϊ��С�

3.2.7ʫ��

��ȣ��ı��ݽ��Ԥ��ȥ��ַ��Լ��͹��̵�ʫ�䣬��ǰ׺�ͺ�׺��ͬʱ��ı��

ѵ��ʱ��Ľ�BatchsizeȡΪ128��EpochȡΪ50��⣬�ڴ��ʫ��ʱ��Ϊ��ֹÿ�ν��ͬ��ʫ�䣬��Ŷ��ȡ��Ԥ��Ըߵ��ַ�֮һ��Ϊ��һ��ַ��롣

��3.2.7-1��ʾΪ��Զ��ʫ��ʾ��ʫ��ҳʾ��¼��ӡ�

��3.2.7-1 �Զ�дʫʾ��

��Ȼ��ɵ�ʫ��Ȼ��岻�塢��̲��⣬��Ҳ��ƽ��ã�ֻ��ˡ��ȼѾ䣬�˾�ɽ��Ϊ��л��ƽ��ʢ��ֻԸ��֮��Կ��ţ��ϲ��ֲ��ͻ�֮�˲�Ҫ��š��˾��Ϊ�軨��һ��Ů�ӵ��Ҳ��Ϊ��д��֮�䡣

��½��ˣ��㿴��˶��٣��ӭ��ۣ��һ��ѧϰ~

��: 2019-02-052019-02-05 19:39:31
ԭ��https://kuaibao.qq.com/s/20190205G0KV8J00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��Ź��꣬�˹��ܴ��ʫ

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�������Ź����꣬�˹����ܴ������ʫ

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��Ź��꣬�˹��ܴ��ʫ

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�