如今,企业开始意识到分析算法只与其所针对的数据一样好。以下是一些改进数据质量的方法来获得***的洞察力。
在凯西奥尼尔的著作《数学毁灭的武器》中,解释了如果大数据算法的运行质量不高,那么大数据算法会产生不正确的结果。
奥尼尔以一个学区为列,这个学区运行了一种算法来识别其200名表现最差的教师,。其中一位被选出的教师实际上是表现最出色的,但是她的班级中有许多学生都是来自表现不佳的学校。结果,老师所教的学生在测试中表现不佳,因此对这位老师评价不高。
奥尼尔认为,其他形式的输入,例如来自管理员、学生和同伴的老师的精彩评论,应该被纳入与算法相关的数据运算中,也许可以防止这种事件的发生。这是对每一位大数据从业者的给了一个提醒,即分析算法只与其运行的数据一样好。
企业如何确保数据的质量将优化算法的性能,并最终确保从中获得见解?
关键在于数据准备和匹配企业想要应用算法的业务用例。
以下是开发质量数据和算法的六个***实践:
1.“真实”的算法
企业必须认真构建算法适合自己的商业案例。如果是医疗保健提供者,并且想要确定服务区域中存在心脏问题高风险人群,则可能需要构建一个算法,询问“65岁以上的人是否已经有心脏手术?”而不仅仅是“谁超过了65岁?
2.使数据实现标准化
为避免获取重复数据并可能会影响分析结果,重复的记录应该标准化为单一数据事件。
3.修复损坏的数据
在某些情况下,人们需要参与人工纠正损坏的数据,然后才能通过算法检查数据。破碎的数据可能包含拼写错误(例如,缅因州居民的MN代替ME),或者可能是某人的姓氏拼写错误,从而产生不应包含在数据集中的额外记录。数据准确性越好,分析结果就越准确。
4.消除无关的数据
企业可以越多地将数据范围缩小到其正在检查的特定用例的边界,其算法能够更快地处理数据,算法将提供企业所寻求的见解的可能性越大。
5.获得用户的一致意见
不要在没有首先与用户核对的情况下就将企业要排除的数据做出单方面决定,因为他们可能知道企业不知道的内容。
6.检查结果
大数据算法和查询的趋势是根据需要修改并重新运行它们,但不一定要记录结果。相反,应该始终设置结果基准并对其进行测量。例如,如果企业的***个数据算法只会使产品的潜在购买者获得3%的响应率(最终购买1%的产品),那么需要知道是否修改后的查询是否优于这个。
CIO们在准备为全球新冠疫情肆虐的去年做总结时,许多人对未来仍然抱着非常乐观的...
1.曾以为你是我的太阳,没想到却是我握不住的光。 2.以前QQ等级有一个太阳就觉...
根据调研机构Gartner公司的估计,在企业的数据迁移项目中,83%项目遭遇失败或超...
金融服务业对数据分析并不陌生,但是在某些领域,主观的、基于直觉的决策仍然属...
图片来源:视觉中国 曾几何时,电商模式席卷中国消费市场,但唯独撼动不了汽车流...
2019年11月14日,北京今日,第五届联想创新科技大会(Lenovo Tech World 2019)在...
谁能料到,才诞生不满三年的新零售竟然正在褪去旧貌,换上新颜,迎来2.0时代。 ...
IT管理者在组织的业务运营中发挥了重要作用。随着冠状病毒疫情导致很多组织的员...
秒杀系统的架构设计。 那么,何为秒杀系统呢?就是典型的、短时间的、大量的、突...
EdgeBoard是基于FPGA打造的嵌入式AI解决方案,能够提供强大的算力,并支持定制化...