当前位置：主页 > 查看内容

如何使用机器学习自动执行数据清理

发布时间：2021-04-16 00:00| 有位朋友查看

简介：根据调研机构Gartner公司日前发布的一份调查报告，由于数据质量不良的问题，40%的企业无法实现其业务目标。许多数据科学家已经意识到了利用高质量数据进行数据分析的重要性，因此，他们将大约80%的时间用于数据清理和准备。这意味着他们将更多的时间花在数据……

根据调研机构Gartner公司日前发布的一份调查报告，由于数据质量不良的问题，40%的企业无法实现其业务目标。许多数据科学家已经意识到了利用高质量数据进行数据分析的重要性，因此，他们将大约80%的时间用于数据清理和准备。这意味着他们将更多的时间花在数据分析之前的过程上，而不是专注于提取有意义的见解。

尽管有必要在进入数据分析过程之前获得更好的数据，但必须有一种更好的方法来解决数据集中存在的数据质量问题，而不是人工地纠正每个错误。

使用基于代码的方法

像Python和R这样的编程语言使编写基本数据清理工作流变得更加容易，例如：

删除对分析过程无用的列。
更改数据类型。
突出显示丢失的数据。
从列值中删除分隔线和空格。
以数字方式排列数据，而不是分类排列数据，
将字符串更改为日期时间格式等。

使用编程脚本清理数据非常有效，但是必须具备大量的编程专业知识。此外，编程脚本倾向于专门用于特定数据集及其列值。这意味着，当数据值包含相似的基础模式时，编程函数可以更好地工作。否则，将最终将特定方案硬编程到代码中，以达到数据清理的目的，而不是实现可满足多种方案的更通用的方法。

机器学习及其在数据清理中的作用

要清理数据，首先，必须能够分析和识别不良数据。然后执行纠正措施以获取干净且格式标准化的数据集。数据清理过程中有多个阶段，采用机器学习和人工智能技术不仅可以使工作流实现自动化，而且可以获得更准确的结果。

(1)分析数据并检测错误

机器学习在数据清理中起到重要作用的第一步是对数据进行概要分析，并突出显示异常值。生成直方图并针对经过训练的机器学习模型运行列值将突出显示哪些值是异常值，并且与该列的其他值不匹配。可以在标准字典上训练模型，也可以提供专门用于数据的自定义数据集。

(2)对数据的清理和标准化提出智能化建议

除了检测列值中的错误之外，机器学习解决方案还可以提出明智的建议，并突出显示解决数据质量问题的可能措施。这些建议基于同一数据集中遇到的数据的性质。例如，如果两个记录的地址完全相同，但邮政编码不同，则机器学习算法可以将其标记为需要修复的可能错误。这是通过在数据集上设置相关性约束来实现的，如果地址相同，则邮政编码也必须相同。

(3)通过集群突出显示可能的重复项

记录重复数据删除是数据清理工作流程中最重要的步骤之一。机器学习解决方案可以通过基于记录的相似性对记录进行集群来帮助用户执行记录链接。这是通过在非重复数据集上训练机器学习模型来实现的，该数据集包含匹配项和不匹配项的标签。一旦训练完成，机器学习模型便会智能地标记新数据集并创建集群，以突出显示可能引用同一实体的数据记录。

(4)影响合并/清除决策以实现单一真相来源

在创建集群的过程中，机器学习算法对记录属于该集群的可能性进行评分。这有助于数据科学家做出相应的合并或清除数据记录的决定。还可以调整机器学习算法中使用的变量，以在产生的假阳性和阴性数量之间设置可接受的阈值。

基于机器学习的数据清理

上面的工作流程显示了基于机器学习的数据清理软件如何自动执行清理活动，而且还通过建议智能建议简化了决策过程。这种利用人工智能强大功能的高级流程对于数据科学家在数据清理和准备方面节省大量的时间至关重要。

本文转载自网络，原文链接：http://www.d1net.com/ai/industry/569432.html
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Gartner：2025年将有75%的风险投资将使用AI做决策 下一篇：新型 AI 可以 “潜入人类大脑”，洞察什么容貌最吸引你

随机推荐

超详细！iOS 11~14.3全系列越狱工具及傻

iOS 11~iOS 14.3的越狱工具发布了un0ver6.0.0版本支持iOS11-iOS 14.3系统设备进...
最甜蜜幸福的说说：你负责美丽妖艳，我负

1．总有一天，我们会过上我一翻身就可以偷亲你的日子。 2．即使一贫如洗，我会是...
高空抛物悲剧频出，AI 监控系统：让我来

近年来，因高空抛物、坠物造成的伤害事件屡上报端。水瓶、西瓜皮、易拉罐，甚至...
谁在窥视我们的身份？被滥用的人脸识别

人脸解锁扫脸支付随着人脸识别技术的不断发展，如今借助一个小小的摄像头就能让...
大力加强个人信息保护

逛个动物园要指纹打卡，连回家进小区也要刷脸验明正身会议期间，记者在浙江代表...
海量人脸信息已被搜集：315 晚会曝光人脸

3月15日消息一年一度的央视财经 3.15 晚会正在进行中，从前言来看主要曝光问题...
带图片的情感说说：我的微笑可以给任何人

1．终有那么一个人，可以随时改变着你的心情。 2．有的东西你再喜欢也不会属於你...
你用上5G了吗？6G争夺战已开始，它可能是

5G网络建设加快，超前布局6G 截止目前，我国累计建成的5G基站数量超过71.8万座，...
为什么智能建筑需要智能清洁

整个欧洲向智能建筑迈进的步伐正在加快。随着各行各业的组织在客户和员工体验方...
ABI Research：5G切片将带来200亿美元的

5G切片是新商业模式的关键推动者，也是增强5G潜力的关键概念。通信服务提供商可...

如何使用机器学习自动执行数据清理

推荐图文

为什么智能建筑需要智能清洁

苹果专利暗示Apple VR头显或可提供IPD瞳距调整机制

“中关村智用人工智能伙伴计划”报名已开放

新冠疫苗可预约免费打！教你用微信预约新冠疫苗

人工智能火热发展的今天渗透到了哪些商业领域？电销

Android 12 新增对话小部件：类似聊天小窗口

随机推荐

超详细！iOS 11~14.3全系列越狱工具及傻

最甜蜜幸福的说说：你负责美丽妖艳，我负

高空抛物悲剧频出，AI 监控系统：让我来

谁在窥视我们的身份？被滥用的人脸识别

大力加强个人信息保护

海量人脸信息已被搜集：315 晚会曝光人脸

带图片的情感说说：我的微笑可以给任何人

你用上5G了吗？6G争夺战已开始，它可能是

为什么智能建筑需要智能清洁

ABI Research：5G切片将带来200亿美元的

关于我们