前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化

R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化

原创
作者头像
拓端
发布2022-12-20 21:39:57
3710
发布2022-12-20 21:39:57
举报
文章被收录于专栏:拓端tecdat拓端tecdat

全文链接:http://tecdat.cn/?p=30990

原文出处:拓端数据部落公众号

第一节 研究背景与目的

《精品购物指南》是中国本土经营规模最大、最具影响力的时尚媒体品牌,1999年《精品购物指南》即进入全国报业广告十强,2005~2007连续三年获得国家新闻出版总署颁布的“全国生活服务类报纸竞争力10强”,并蝉联第一。2013年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

在分析时,我们向客户演示了用R语言回归、anova方差分析、相关性分析可以提供的内容。

本研究使用对《精品购物指南》所做的一次调查结果作为本次案例分析的数据。试图分析目前阅读《精品购物指南》的群体特征,以及影响阅读《精品购物指南》的时间的因素,从而更好地对受众群体和市场做出分析。

第二节描述性统计

1. 数据预处理

image.png
image.png
代码语言:javascript
复制
##变量赋值
colnames(data)=c(
  "编号",
  "性别",
  "年龄",
  "婚姻状况",
  "受教育程度",
  "职业或身份",
  "个人月平均收入",
  "报摊购买",
  "个人订阅",
  "单位订阅",
  "赠阅",
  "借阅他人",
  "其他",
  "上班途中",
  "下班途中",
  "午休时间",
  "逛衔购物时",
  "不定时",
  "对《精品购物指南》的零购情况",
  "家人是否会提醒购买《精品》",
  "是第几选择",
  "家人是否阅读《精品》",
  "",
  "",
  "一直购买(或订阅)本报(习惯)",
  "豪华版内容吸引人",
  "普通版文章吸引人",
  "查找广告信息",
  "参加读者乐园版的活动",
  "逛商场购物需要",
  "价格便宜",
  "没有什么原因想起来就买",
  "其他",
  "住所",
  "工作场所",
  "车站或乘车路途",
  "娱乐场所",
  "其他场所",
  "多少人阅读同一份报纸",
  "阅读《精品》的时间",
  "每天读报时间",
  "对我消费有指导",
  "提高我的生活品位和档次",
  "信息实用性强",
  "关注社会新闻",
  "信息量大",
  "信息质量高",
  "报道领域全面",
  "内容贴近市场",
  "寻找有用的信息和广告",
  "放松自我",
  "通俗易懂",
  "广告信息丰富",
  "版面编排合理",
  "售价合理",
  "订阅或零购方便",
  "其他",
  "平均每月阅读几期《精品》",
  "首先欣赏豪华版",
  "先看标题,再拣有意思的看",
  "我只看自己喜欢的固定栏目",
  "看完喜欢的文章,再浏览其他内容",
  "只查找对自己有用的信息",
  "无目的地翻阅报纸",
  "如果未能看到某一期《精品》",
  "能够阅读完《精品》内容",
  "封面要闻",
  "百姓生活新闻",
  "北京都市新闻",
  "消费新闻",
  "读者乐园",
  "体坛新闻",
  "关注足球",
  "篮球时空",
  "绿茵评说",
  "精品回顾",
  "文化资讯",
  "影视介绍",
  "读书生活",
  "音乐欣赏",
  "外企专递",
  "留学必备",
  "充电课堂",
  "人才聚焦",
  "处世情感",
  "健康",
  "美食",
  "休闲旅游",
  "保险",
  "律师",
  "百货新品",
  "休闲宠物",
  "户外休闲",
  "美食",
  "家庭保健",
  "超市SHOPPER"
  ,"新品试验"
  ,"样品透视"
  ,"汽车时代"
  ,"电脑"
  ,"市场行情"
  ,"通讯网络"
  ,"楼市了望"
  ,"房产金融"
  ,"政策扫描"
  ,"家具世界"
  ,"家装热点"
  ,"选材指南"
  ,"饰品快递"
  ,"非常男人"
  ,"特别女人"
  ,"新新人类"
  ,"网络家庭"
  ,"扮美家居"
  ,"今日妈咪"
  ,"选题大众化"
  ,"信息实用性强"
  ,"可读性强"
  ,"帮助我消费选择"
  ,"趣味性强"
  ,"报道领域全面"
  ,"帮助我了解市场行情"
  ,"放松自我"
  ,"文字优美"
  ,"观点新颖"
  ,"版式活泼"
  ,"品位高雅"
  ,"风格突出"
  ,"广告内容丰富"
  ,"其他"
  ,"招商展览"
  ,"电脑"
  ,"通讯"
  ,"汽车"
  ,"房地产"
  ,"家电"
  ,"食品酒类"
  ,"旅游娱乐"
  ,"商场饭店"
  ,"服装服饰"
  ,"美容用品"
  ,"保健品"
  ,"医疗器械"
  ,"家居用品"
  ,"航空订票"
  ,"招生"
  ,"人才招聘"
  ,"公益广告"
  ,"文化用品"
  ,"房屋祖赁"
  ,"金融证券"
  ,"发行广告"
  ,"其他"
  ,"广告对于消费是否有帮助"
  ,"广告数量适中"
  ,"广告信息丰富"
  ,"广告信息及时"
  ,"广告设计新颖"
  ,"广告内容属实"
  ,"其他"
  ,"是否了解精品的订阅服务"
  ,"零购者"
  ,"订户"
  ," "
 ," v14"
)
image.png
image.png
image.png
image.png

删除缺失

代码语言:javascript
复制
data=complete.cases(data)

2.绘制不同变量之间的关系

代码语言:javascript
复制
  geom_point() + 
    geom_smooth(method=method, ...)
QQ截图20220627140736.png
QQ截图20220627140736.png

从每个变量的直方图可以看到变量的大概分布情况。绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。

image.png
image.png

第三节 回归,方差分析与模型比较

1.相关性分析

代码语言:javascript
复制
for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])

#数据归一化

data=scale(datacor)

查看性别和阅读《精品》的时间之间是否有相关关系

代码语言:javascript
复制
cor.test(datacor$"性别",  
???????? datacor$"阅读《精品》的时间")
##  
##? Pearson's product-moment correlation  
##  
## data:? datacor$性别 and datacor$"阅读《精品》的时间"  
## t = 0.63616, df = 1995, p-value = 0.5247  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##? -0.02964101? 0.05806894  
## sample estimates:  
##??????? cor  
## 0.01424136

检验的结果是,由于P =0.5247> 0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。

查看婚姻状况和阅读《精品》的时间之间是否具有相关关系

代码语言:javascript
复制
cor.test(datacor$"婚姻状况",  
???????? datacor$"阅读《精品》的时间")
##  
##? Pearson's product-moment correlation  
##  
## data:? datacor$婚姻状况 and datacor$"阅读《精品》的时间"  
## t = -1.7215, df = 1995, p-value = 0.08531  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##? -0.082238962? 0.005358859  
## sample estimates:  
##???????? cor  
## -0.03851404

检验的结果是,由于P =0.08531> 0.05,因此在0.05的显署性水平下,所以接受原假设,认为两者之间不具有相关关系

查看受教育程度和阅读《精品》的时间之间是否具有相关关系

代码语言:javascript
复制
cor.test(datacor$"受教育程度",  
???????? datacor$"阅读《精品》的时间")

##  
##? Pearson's product-moment correlation  
##  
## data:? datacor$受教育程度 and datacor$"阅读《精品》的时间"  
## t = -0.71111, df = 1995, p-value = 0.4771  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##? -0.05974084? 0.02796468  
## sample estimates:  
##??????? cor  
## -0.0159187

检验的结果是,由于P =0.4771>0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。

2.回归分析

查看共线性关系

代码语言:javascript
复制
which(abs(cormatrix)>0.6,arr.ind = T)

##????????????????????????????? row col  
## 编号?????????????????????????? 1?? 1  
## 性别?????????????????????????? 2?? 2  
## 年龄?????????????????????????? 3?? 3

从结果看,没有相关系数大于0.6的不同变量。因此,变量间不存在共线性问题。

回归分析

代码语言:javascript
复制
summary(model)
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

从回归模型的结果来看,可以看被调查者的职业或身份,家人是否阅读《精品》`,以及豪华版内容是否吸引人等因素对被调查对象否阅读《精品》的时间有比较大的影响,p值小于0.05,因此该变量对被调查者选择去看报纸有显著的影响 。

3.模型筛选与比较

无常数项模型拟合

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

回归模型校正

利用qqPlot()函数提供的正态假设检验方法,它画出了在n-p-1个自由度的t分布下的学生化残差图形,再配合Shapiro检验得出检测结果,而Shapiro样本量的大小范围 配合下图可以发现除了Providence,所有的点都离直线很近,都落在置信区间内,这表明与正态性假相符。

代码语言:javascript
复制
library(car)  
qqPlot(model2,labels = row.names(datacor))
image.png
image.png

方差齐性

利用残差绘制曲线图并配合Durbin-Watson检验,此检验方法能够检测误差的序列相关性,再配合下表检验结果显著性为0.7604表示接受原假设,因此误差项独立性检验通过。

代码语言:javascript
复制
dwtest(model2)

##  
##? Durbin-Watson test  
##  
## data:? model2  
## DW = 2.0242, p-value = 0.7604  
## alternative hypothesis: true autocorrelation is greater than 0

方差分析

image.png
image.png

所有变量的p值都小于0.05,说明在0.05的显著水平上,不同特征的被调查对象的阅读精品时间之间有明显差别

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全文链接:http://tecdat.cn/?p=30990
  • 原文出处:拓端数据部落公众号
  • 第一节 研究背景与目的
  • 第二节描述性统计
    • 1. 数据预处理
      • 删除缺失
    • 2.绘制不同变量之间的关系
    • 第三节 回归,方差分析与模型比较
      • 1.相关性分析
        • 查看性别和阅读《精品》的时间之间是否有相关关系
        • 查看婚姻状况和阅读《精品》的时间之间是否具有相关关系
        • 查看受教育程度和阅读《精品》的时间之间是否具有相关关系
      • 2.回归分析
        • 查看共线性关系
        • 回归分析
      • 3.模型筛选与比较
        • 无常数项模型拟合
        • 回归模型校正
        • 方差齐性
        • 方差分析
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
    http://www.vxiaotou.com