前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

原创
作者头像
拓端
发布2022-12-27 22:34:52
4060
发布2022-12-27 22:34:52
举报
文章被收录于专栏:拓端tecdat拓端tecdat

全文链接:http://tecdat.cn/?p=31048

原文出处:拓端数据部落公众号

2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"。微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据,数据样式如下图所示:

image.png
image.png

查看数据

image.png
image.png

文本预处理

代码语言:javascript
复制
res=pinglun1[pinglun1!=" "];  

剔除通用标题

代码语言:javascript
复制
res=gsub(pattern="NIKEiD"," ",res);   
res=gsub(pattern="http://t.cn/"," ",res); 
res=gsub(pattern="com"," ",res); 
res=gsub(pattern="耐克"," ",res); 
res=gsub(pattern="官网"," ",res); 
res=gsub(pattern="中国"," ",res); 

分词+频数统计

代码语言:javascript
复制
keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);  

绘制词汇图

代码语言:javascript
复制
library("wordcloud")

mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系:
wordcloud(d$word,d$freq
以chat为基地.png
以chat为基地.png
代码语言:javascript
复制
d2=data.frame(word=class2$word, freq=class2$freq);??

# 过滤掉1个字和词频小于100的记录
以chat为基地.png
以chat为基地.png

K均值聚类K-means

代码语言:javascript
复制
for(i in? 1:nrow(cldata)){

?? for(j in? unique(d$word) ){

??? if(j %in%? unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1

? }

}

?

cl=kmeans(cldata,3)

聚类数据可视化

代码语言:javascript
复制
#cluster 1

y1=cldata[cldata$cluster==1,]

?

#cluster 2

?

y2=cldata[cldata$cluster==2,]

?

?#cluster 3

?

y3=cldata[cldata$cluster==3,]

1类词频云图

代码语言:javascript
复制
words=unlist(keyword[cl$cluster==1]);
以chat为基地.png
以chat为基地.png

2类词频云图

代码语言:javascript
复制
words=unlist(keyword[cl$cluster==2]);
以chat为基地.png
以chat为基地.png

3类词频云图

以chat为基地.png
以chat为基地.png

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全文链接:http://tecdat.cn/?p=31048
  • 原文出处:拓端数据部落公众号
  • 查看数据
  • 文本预处理
  • 剔除通用标题
  • 分词+频数统计
  • 绘制词汇图
  • K均值聚类K-means
  • 聚类数据可视化
  • 1类词频云图
  • 2类词频云图
  • 3类词频云图
相关产品与服务
腾讯云图数据可视化
腾讯云图数据可视化(Tencent Cloud Visualization) 是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。精心预设多种行业模板,极致展示数据魅力。采用拖拽式自由布局,全图形化编辑,快速可视化制作。腾讯云图数据可视化支持多种数据来源配置,支持数据实时同步更新,同时基于 Web 页面渲染,可灵活投屏多种屏幕终端。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com