知否？知否？一文学会Jieba使用方法

文章来源：企鹅号 - AI小白入门

跟着博主的脚步，每天进步一点点

我始终觉得，入门学习一件事情最好的方式就是实践，加之现在python如此好用，有越来越多的不错nlp的python库，所以接下来的一段时间里，让我们一起来感受一下这些不错的工具。后面代码我均使用jupyter编辑。先来罗列一波：jieba、hanlp、snownlp、Stanfordcorenlp、spacy、pyltp、nltk、Textblob等等…今天从jieba开始吧，let's begin。

简介

“结巴”中文分词，做最好的 Python 中文分词组件。主要功能包括分词、词性标注、关键词抽取等。

Github地址:https://github.com/fxsjy/jieba

支持繁体分词、支持自定义词典、支持三种分词模式:

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

实战

1.分词

2.基于TF-IDF算法关键词抽取

3.基于TextRank 算法的关键词抽取

4.词性标注

5.分词（tokenize）

代码已上传：https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/JiebaDemo.ipynb

The End

发表于: 2019-04-292019-04-29 00:07:06
原文链接：https://kuaibao.qq.com/s/20190429A00AJE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

知否？知否？一文学会Jieba使用方法

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐