我们现在生活的每一秒都在产生着数据,比如你现在看这篇文章的时候。用的什么手机,型号,你所在地点,点开这篇文章的时间,花了多久看的文章……都是被收集的数据。
当同类的数据集合在一起,甚至于纵向的其他数据展开联系时,都可以成为大数据。取决于是谁用这些数据,以及使用目的,大数据没有严格意义上的类型界定。但是当你有了庞大的数据后,如何最直接的反应数据情况?如何以最快的速度发现需要进一步分析的数据?做了一系列分析得出结果后,如何如何简单快速的说服你的读者或者领导?
我们本身可能就是大数据的生产者。也会是使用者。
其实大数据是一个很空洞的概念,具体的意义针对不同的人有不同的含义。大数据的基本流程链包括:数据挖掘,数据清理,数据存储,数据分析,数据展示。
数据可视化就是这样一种,贯穿数据分析整个时期,在前期助数据分析人员通过迅速呈现整体数据,发现可能的问题点,后期通过可视化,后期将数据分析结果更快速的呈现在读者面前。数据可视化可以通过使用图形、图标、色彩变化等各种组合对数据进行解读,从而使人们快速理解一组或多组数据中的复杂关系。通过数据可视化,人们可以从中辨别出趋势,固定模式,发现特定问题,甚至可以为决策提供依据。
拿最近新冠的例子来说,你一定很熟悉下面的这些图了:
第一第二张图就是数据可视化的例子。折线图和地图很直观的将第三张图的新冠肺炎每日新增人数,以及分布,很直观的用图像表现出来,而省去读者对第三张图标具体数字的解读和处理。当读者需要进一步了解图形背后的具体数字时,读者可以去第三张图标进行研读。而这仅仅是最简单的例子。
通过上面的例子,如果说大数据可以帮助我们找到规律和趋势,那数据可视化是一种将数据直观呈现出来的方式。数据可视化贯穿数据清理,数据整合的一个步骤。比如说你是一名销售人员要向上一级汇报销售成果。你涉及的数据可能包括客户姓名,客户地址,购买产品,购买型号,购买数量,购买日期,购买单号,发货时间,发货方式,销售金额,折扣数目,利润率……你应该从何种角度下手处理你的数据,你得出需要加强某个产品的宣传的结论时,觉得你的领导是更愿意直观的了解到结果,还是愿意花15分钟一页一页研读你的分析?
美国民众对新冠病毒看法的变化,用图像的形式比用电子表格或者文字的形式,更加具体直接。(图源:538)
所以数据可视化可以简化人脑处理信息,并得到结论的一种有效手段。我们人脑更容易通过图像等视觉上的呈现来得出一定的结论。就算一些分析人员可以通过复杂的演算,模型设计得出某些结论,但这些结论远远没有比直接用图形来总结来的更直观。
拿个最简单的例子来说,北京上海的地铁公交图就可以称为一种数据可视化。纵横交错的轨道交通,不同的线路站点,相交的换乘点,如果通过文字或者表格来呈现远远不及轨交地图来的直观明了
既然连轨交地图都是数据可视化的一种,那你可以放开了联想,其实生活中很多方面,我们都涉及数据可视化。
数据可视化很容易和数据分析相混淆,诚然两者有相似之处——数据可视化和数据分析都是在可视界面中展示数据。
多组可视化合在一起时,可以展示更多的信息甚至可以讲述一个完整时间(图源:Center for Data Innovation)
是两者还有很多方面有不同。数据分析是一个探索性的过程。因为很多数据分析人员拿到数据后,通常有一个特定问题需要去发现,围绕着这个问题,要进行不同测试,需要足够的耐心才能发现使用某个手段,集中分析某些数据,才能体现出某些关系,并且回答最初的问题。而数据可视化是数据分析中的一部分,前期后期都可以通过数据可视化,做到更有效的数据分析,以及更清楚的呈现最终分析结果。大致概括如下:
使用目的不同。数据分析可以发现某些潜在的模型,或者趋势,可以帮助预测某些将来发生的事件。数据分析所使用的前期或后期的数据,可以作为数据可视化的数据源。而数据可视化能够更直观的呈现某一局部特征,更明确的展现出某个变量的影响,前期是帮助数据分析人员了解大体数据情况,发现异常值。后期通过可是后分析的数据,更好的展现分析结果。
两者之间关系不同。数据分析是将分析和可视化相结合,去找出某些结论。有时候,数据分析是数据可视化的前端,数据可视化呈现的就是数据分析的结果。
使用工具不同。数据分析一般通过规范分析(prescriptive analytics)和预测分析(predictive analytics),诊断分析(diagnostic analytics)。数据分析所使用的工具有Excel ,hive, Ploybase,SAP Business Intelligence,Presto, Trifacta,Clear Analytics,等等。而数据可视化可以是静态展示也可以是互动展示数据,所使用的工具有:Plotly,DataHero,Tableau,QlikView,ZingCHhart 等等
数据可视化有很多用途,每种类型的数据可视化可以有不同的用途。这里就说一下数据可视化的最常见的情况。
可视化图类型有多种多样,这里我列举了大多数市面上能见到的可视化类型图。
折线图 (Line chart)
面积图 (Area chart)
条形图(Bar chart)
直方图(Histogram)
值得注意的是条形图和直方图是有区别的。条形图的宽度表示类别且固定,长度表示频数。直方图用“面积”表示各组频数,举行高度表示每一组的频数,宽度表示组距,因此高度与宽度均有意义。直方图为X轴为连续数列,且连续排列。条形图X轴为分类数据,分开排列。
散点图(Scatterplot)
箱型图(Box Plot)
气泡图(bubble chart)
饼图(Pie chart)
量规图(gauge)
地图(Maps)
此处特别推荐哈佛大学地理分析中心(Center for Geographic Analysis - Harvard University)
以及哈佛大学做的非洲地图:
热图(Heat map)
这就有很多种了。这里就放一个我曾使用过的眼动仪(eye tracking)所产生的热图
框架图(Frame diagram)
瀑布图 (Waterfall chart)
漏斗图(Funnel chart)
雷达图或蜘蛛图(Radar or Spider Chart)
这些就是市面上你可以见到的数据可视化图形。当然还有其它形式的,以及图形与图形之间的叠加组合,比如折线图与直方图的组合等等,我就不一一列举了。
因此数据可视化并非那么神秘,我们常用的EXCEL就可以做出上述可视化图形中的好几种。除了Excel,Tableau可以创建其中绝大部分的数据可视化,而且通过使用其中的Dashboard可以创建互动式的数据可视化,story功能实现图组创建故事讲述功能。最最重要的是Tableau提供免费版本,使用Tableau的一切功能。免费版本和付费版本的区别在于保存,付费版本可以保存在本地,而免费版本可以上传到Tableau的公共资源网上,和别人分享你所创建的数据可视化,同时还能查看别人创建的各种出色的可视化。
本文转载自公众号读芯术(ID:AI_Discovery) 如果你即将要面临大型科技公司的技术...
开源 RPC 框架有哪些呢?一类是跟某种特定语言平台绑定的,另一类是与语言无关即...
一、背景 ? 我们大部分人的编程习惯都是线性编程,所谓线性编程就是一个请求涉及...
一、数据中台是真的热 在2018年之前可能只有一少部分人在谈中台,从2018年下半年...
游戏市场的热度已经不言而喻,随着民众生活水平的提升,大家对于精神娱乐生活的...
与普通的IDC机房或服务器厂商相比,阿里云提供的云服务器ECS具有高可用性、安全...
来源 | 阿里飞天CIO学堂微信公众号 金融数字化转型过程中,市场的细微变化,客户...
为了使伸缩组自动加入的实例自动部署应用,您需要创建私有镜像,确保该镜像上有...
最近,在为 Coco 优化分层架构之时,我陷入了各种决策困难之中。所以我通过不断...
计算的下一步发展是什么,将如何影响组织的战略?专家预测了边缘计算在2021年的发...