��/��/��ţ

��

��ı��̸��Ͽ�

��Դ�� - FlyAI

��flyai.club��һ��˹��Ŀ

�� | �԰��

ԭ�� | http://www.cnblogs.com/kevinzhaozl/p/6625110.html

�ı��ϵͳ��python 3.5��

��Ե��ı��༼��̣��Ҫ��漸��裺

Ԥ��ȥ��ı��Ϣ��HTML��ǩ��ı��ʽת��ӱ߽�

��ķִʣ�ʹ��ķִ��Ϊ�ı��ִʣ��ȥ��ͣ�ô�

��ռ䣺ͳ��ı��Ƶ��ı��Ĵ��ռ�

Ȩ�ز��ԡ��TF-IDF��ʹ��TF-IDF��ʣ��ȡΪ��ӳ�ĵ��

��ʣ�ʹ��㷨ѵ��

��۷��

1. Ԥ��

a. ѡ��ı��ķ�Χ

b. ��ı��Ͽ�

ѵ��Ѿ��ֺ��ı��Դ

��Լ��ϴ��ı��ϣ��ʹѵ��һ��֣�Ҳ��ⲿ��Դ��ı��

c. �ı��ʽת��ʹ��Python��lxml��ȥ��html��ǩ

d. ��ӱ߽磺��Ǿ��ӵĽ��

2. ��ķִ�

�ִ��ǽ��а��һ��Ĺ淶��ϳɴ��еĹ��̣��ķִʼ��һ��У��ӣ��зֳ�һ��ĵ��ʣ��ķִʺܸ��ӣ��ĳ�̶ֳ��ϲ��ȫ��һ��㷨��⣬��ո��۽��⣬�㷨�ǻ��ڸ��ͼģ�͵��CRF��

�ִ��Ȼ��Դ��ײ��ģ�飬�ִʾ��ȶԺ��Ӧ��ģ��Ӱ��ܴ��ı��ӵĽṹ��ʾ��Դ��ĵ��Ŀǰ�ı��Ľṹ��ʾ��Ϊ�Ĵ��ࣺ��ռ䡢��ģ�͡��䷨��ʾ��RDF��ͼ��ʾ��

��ķִʵ�ʾ��룺

# -*- coding: utf-8 -*-

import os

import jieba

def savefile(savepath, content):

fp = open(savepath, "w",encoding='gb2312', errors='ignore')

fp.write(content)

fp.close()

def readfile(path):

fp = open(path, "r", encoding='gb2312', errors='ignore')

content = fp.read()

fp.close()

return content

# corpus_path = "train_small/" # δ�ִʷ��Ԥ�Ͽ�·��

# seg_path = "train_seg/" # �ִʺ��Ͽ�·��

corpus_path = "test_small/" # δ�ִʷ��Ԥ�Ͽ�·��

seg_path = "test_seg/" # �ִʺ��Ͽ�·��

catelist = os.listdir(corpus_path) # ��ȡ��Ŀ¼��Ŀ¼

for mydir in catelist:

class_path = corpus_path + mydir + "/" # ƴ��Ŀ¼��·��

seg_dir = seg_path + mydir + "/" # ƴ��ִʺ�Ԥ�Ϸ��Ŀ¼

if not os.path.exists(seg_dir): # �Ƿ��ڣ��򴴽�

os.makedirs(seg_dir)

file_list = os.listdir(class_path)

for file_path in file_list:

fullname = class_path + file_path

content = readfile(fullname).strip() # ��ȡ�ļ��

content = content.replace("\r\n", "").strip() # ɾ��кͶ��Ŀո�

content_seg = jieba.cut(content)

savefile(seg_dir + file_path, " ".join(content_seg))

print("�ִʽ��")

Ϊ�˺��ɴ��ռ�ģ�͵ķ��㣬��Щ�ִʺ��ı��Ϣ��Ҫת��ı��Ϣ��󻯣��Scikit-Learn��Bunch��ݽṹ��£�

import os

import pickle

from sklearn.datasets.base import Bunch

#Bunch ��ṩ��һ��key��value�Ķ��ʽ

#target_name ��з��༯��б�

#label ÿ��ļ��ķ��ǩ�б�

#filenames �ļ�·��

#contents �ִʺ��ļ��ʽ

def readfile(path):

fp = open(path, "r", encoding='gb2312', errors='ignore')

content = fp.read()

fp.close()

return content

bunch=Bunch(target_name=[],label=[],filenames=[],contents=[])

# wordbag_path="train_word_bag/train_set.dat"

# seg_path="train_seg/"

wordbag_path="test_word_bag/test_set.dat"

seg_path="test_seg/"

catelist=os.listdir(seg_path)

bunch.target_name.extend(catelist)#��Ϣ��浽Bunch��

for mydir in catelist:

class_path=seg_path+mydir+"/"

file_list=os.listdir(class_path)

for file_path in file_list:

fullname=class_path+file_path

bunch.label.append(mydir)#��浱ǰ�ļ��ķ��ǩ

bunch.filenames.append(fullname)#��浱ǰ�ļ��ļ�·��

bunch.contents.append(readfile(fullname).strip())#��ļ��

#Bunch��־û�

file_obj=open(wordbag_path,"wb")

pickle.dump(bunch,file_obj)

file_obj.close()

print("��ı��")

3. ��ռ�ģ��

��ı��ڴ��δ��ռ��ά�Ƚϸߣ�Ϊ��ʡ��ռ��Ч�ʣ��ı��֮ǰ��Զ��˵�ĳЩ�ִʣ��Щ�ֻ�ʱ��Ϊͣ�ôʣ�ͣ�ô˱��Ե��ء�

4. Ȩ�ز��ԣ�TF-IDF��

��ĳ��ʻ��һƪ��г��ֵ�Ƶ�ʸߣ��к��ٳ��֣��ô��Ϊ��ʻ��߶��кܺõ��ʺ��ࡣ

�ٸ��ⲿ�ִ��֮ǰ��Ƶ��ļ�Ƶ�ʵĸ��

��Ƶ��TF����ָ��ĳһ��Ĵ��ڸ��ļ��г��ֵ�Ƶ�ʡ��ǶԴ��Ĺ�һ��Է�ֹ��ƫ�򳤵��ļ��ĳһ��ض��ļ��Ĵ��˵��Ҫ�Կɱ�ʾΪ��Ǹô��ļ��г��ֵĴ��ĸ��ļ��ִʵĳ��ִ��֮��

��ļ�Ƶ�ʣ�IDF����һ��ձ��Ҫ�ԵĶ��ĳһ�ض��IDF��ļ��Ŀ��԰��ô��ļ��Ŀ��ٽ��õ��ȡ��|D|��Ͽ��е��ļ��j�ǰ��ļ��Ŀ��ô��ﲻ��Ͽ��У��ͻᵼ�·�ĸΪ�㣬��һ��·�ĸ��Ҫ��ټ��1֮��Ƶ��ļ�Ƶ�ʵĳ˻��ĳһ�ض��ļ��ڵĸߴ��Ƶ�ʣ��Լ��ô��ļ��еĵ��ļ�Ƶ�ʣ��Բ��Ȩ�ص�TF-IDF��TF-IDF��ڹ��˵��Ĵ����Ҫ�Ĵ����£�

import os

from sklearn.datasets.base import Bunch

import pickle#�־û��

from sklearn import feature_extraction

from sklearn.feature_extraction.text import TfidfTransformer#TF-IDF��ת��

from sklearn.feature_extraction.text import TfidfVectorizer#TF-IDF��

def readbunchobj(path):

file_obj=open(path,"rb")

bunch=pickle.load(file_obj)

file_obj.close()

return bunch

def writebunchobj(path,bunchobj):

file_obj=open(path,"wb")

pickle.dump(bunchobj,file_obj)

file_obj.close()

def readfile(path):

fp = open(path, "r", encoding='gb2312', errors='ignore')

content = fp.read()

fp.close()

return content

path="train_word_bag/train_set.dat"

bunch=readbunchobj(path)

#ͣ�ô�

stopword_path="train_word_bag/hlt_stop_words.txt"

stpwrdlst=readfile(stopword_path).splitlines()

#��TF-IDF��ռ��

tfidfspace=Bunch(target_name=bunch.target_name,label=bunch.label,

filenames=bunch.filenames,tdm=[],vocabulary={})

#ʹ��TfidVectorizer��ʼ��ռ�ģ��

vectorizer=TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5)

transfoemer=TfidfTransformer()#��ͳ��ÿ��TF-IDFȨֵ

#�ı�תΪ��Ƶ��󣬵��ֵ��ļ�

tfidfspace.tdm=vectorizer.fit_transform(bunch.contents)

tfidfspace.vocabulary=vectorizer.vocabulary_

#��ʴ��ĳ־û�

space_path="train_word_bag/tfidfspace.dat"

writebunchobj(space_path,tfidfspace)

5.ʹ��ر�Ҷ˹��ģ��

��õ��ı��෽��kNN��ڷ��ر�Ҷ˹�㷨��֧��㷨��һ��ԣ�

kNN�㷨ԭ��򵥣��ྫ��пɣ��ٶ��

��ر�Ҷ˹�㷨��ڶ��ı��Ч��ã��Ⱥܸ�

֧��㷨��֧��Բ��ɷֵ��ȡ��

��Ĵ��н��в��Ķ��ѵ��ݣ��ǲ��Լ��ȡ��ѵ��ѵ��ѵ��ͬ��Ƿִʣ�֮��ɴ��ļ��ֱ��ɴ��ģ�ͣ��ͬ��ǣ��ѵ��ģ��ʱ��Ҫ��ѵ��ʴ��Լ��Ĵ��ӳ�䵽ѵ��ʴ��Ĵʵ��У��ռ�ģ�ͣ��£�

import os

from sklearn.datasets.base import Bunch

import pickle#�־û��

from sklearn import feature_extraction

from sklearn.feature_extraction.text import TfidfTransformer#TF-IDF��ת��

from sklearn.feature_extraction.text import TfidfVectorizer#TF-IDF��

from TF_IDF import space_path

def readbunchobj(path):

file_obj=open(path,"rb")

bunch=pickle.load(file_obj)

file_obj.close()

return bunch

def writebunchobj(path,bunchobj):

file_obj=open(path,"wb")

pickle.dump(bunchobj,file_obj)

file_obj.close()

def readfile(path):

fp = open(path, "r", encoding='gb2312', errors='ignore')

content = fp.read()

fp.close()

return content

#��ִʺ�Ĵ��bunch��

path="test_word_bag/test_set.dat"

bunch=readbunchobj(path)

#ͣ�ô�

stopword_path="train_word_bag/hlt_stop_words.txt"

stpwrdlst=readfile(stopword_path).splitlines()

#��Լ�TF-IDF��ռ�

testspace=Bunch(target_name=bunch.target_name,label=bunch.label,

filenames=bunch.filenames,tdm=[],vocabulary={})

#��ѵ��Ĵʴ�

trainbunch=readbunchobj("train_word_bag/tfidfspace.dat")

#ʹ��TfidfVectorizer��ʼ��ռ�

vectorizer=TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,

max_df=0.5,vocabulary=trainbunch.vocabulary)

transformer=TfidfTransformer();

testspace.tdm=vectorizer.fit_transform(bunch.contents)

testspace.vocabulary=trainbunch.vocabulary

#��ʴ��ĳ־û�

space_path="test_word_bag/testspace.dat"

writebunchobj(space_path,testspace)

��ִ�ж��ʽ��Ҷ˹�㷨��в��ı��ಢ��ؾ��ȣ��£�

import pickle

from sklearn.naive_bayes import MultinomialNB # ��ʽ��Ҷ˹�㷨��

def readbunchobj(path):

file_obj = open(path, "rb")

bunch = pickle.load(file_obj)

file_obj.close()

return bunch

# ��ѵ��ռ�

trainpath = "train_word_bag/tfidfspace.dat"

train_set = readbunchobj(trainpath)

# d��Լ��ռ�

testpath = "test_word_bag/testspace.dat"

test_set = readbunchobj(testpath)

# Ӧ�ñ�Ҷ˹�㷨

# alpha:0.001 alpha ԽС��Խ�࣬��Խ��

clf = MultinomialNB(alpha=0.001).fit(train_set.tdm, train_set.label)

# Ԥ��

predicted = clf.predict(test_set.tdm)

total = len(predicted);rate = 0

for flabel, file_name, expct_cate in zip(test_set.label, test_set.filenames, predicted):

if flabel != expct_cate:

rate += 1

print(file_name, ": ʵ��", flabel, "-->Ԥ��ࣺ", expct_cate)

# ��

print("error_rate:", float(rate) * 100 / float(total), "%")

6.��

��ѧϰ��㷨��ָ�꣺

�ٻ��ʣ�recall rate,��ȫ�ʣ���Ǽ��ĵ��ĵ��ĵ��ı��ʣ��Ǽ��ϵͳ�Ĳ�ȫ��,�ٻ��=ϵͳ��ļ�/ϵͳ��ص��ļ��

׼ȷ�ʣ�Precision��ȣ���Ǽ��ĵ��ڼ��ĵ��ı��ʣ��Ǽ��ϵͳ�Ĳ�׼�ʣ�׼ȷ��=ϵͳ��ļ�/ϵͳ��еļ��ļ��

׼ȷ�ʺ��ٻ��໥Ӱ��ģ��Ƕ��߶��ߣ��һ��׼ȷ�ʸߣ��ٻ��ʾ͵ͣ��ٻ��ʸߣ�׼ȷ�ʾ͵�

import numpy as np

from sklearn import metrics

#��

def metrics_result(actual,predict):

print("��ȣ�".format(metrics.precision_score(actual,predict)))

print("�ٻأ�".format(metrics.recall_score(actual,predict)))

print("f1-score:".format(metrics.f1_score(actual,predict)))

metrics_result(test_set.label,predicted

�� End ��

��: 2018-04-302018-04-30 09:41:57
ԭ��http://kuaibao.qq.com/s/20180430A0DQKJ00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��ı��̸��Ͽ�

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

���������ı�������̸����Ͽ�

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��ı��̸��Ͽ�

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�