当前位置：主页 > 查看内容

机器学习中的标签泄漏介绍及其如何影响模型性能

发布时间：2021-08-08 00:00| 有位朋友查看

简介：您是否对优秀或接近优秀的模型表现不知所措? 你的快乐被出卖了吗? 简而言之，当您要预测的信息直接或间接出现在训练数据集中时，就会发生标签泄漏或目标泄漏。它会导致模型夸大其泛化误差，并极大地提高了模型的性能，但模型对于任何实际应用都毫无用处。……

您是否对优秀或接近优秀的模型表现不知所措? 你的快乐被出卖了吗?

简而言之，当您要预测的信息直接或间接出现在训练数据集中时，就会发生标签泄漏或目标泄漏。它会导致模型夸大其泛化误差，并极大地提高了模型的性能，但模型对于任何实际应用都毫无用处。

数据泄漏如何发生

最简单的示例是使用标签本身训练模型。在实践中，在数据收集和准备过程中无意中引入了目标变量的间接表示。触发结果的特征和目标变量的直接结果是在数据挖掘过程中收集的，因此在进行探索性数据分析时应手动识别它们。

数据泄漏的主要指标是"太好了，不能成为现实"模型。由于该模型不是优秀模型，因此在预测期间最有可能表现不佳。

数据泄漏不仅可以通过训练特征作为标签的间接表示来实现。也可能是因为来自验证或测试数据的某些信息保留在训练数据中，或者使用了来自将来的历史记录。

标签泄漏问题的示例

通过此人关联银行账号的特征来预测是否会开设银行帐户

在客户流失预测问题中，事实证明，无论客户是否流失，称为"采访者"的功能都是最好的指示。模型表现不佳的原因是此"采访者"是仅在客户确认他们打算流失之后才分配调查人员。

如何应对标签泄漏

1、删除它们或添加噪音以引入可以平滑的随机性

2、使用交叉验证或确保使用验证集在看不见的实例上测试模型。

3、使用管道处理而不是缩放或变换整个数据集。当基于提供的整个数据集按比例缩小特征时，例如使用最小-最大缩放器，然后应用训练和测试分割，缩放的测试集还包含来自缩放的训练特征的信息，因为最小值和最小值使用了整个数据集的最大值。因此，始终建议使用管道来防止标签泄漏。

4、根据保留数据测试模型并评估性能。就基础架构，时间和资源而言，这是最昂贵的方式，因为必须使用正确的方法再次执行整个过程。

总结

数据泄漏是最常见的一种错误和可能发生的特性工程,使用时间序列,数据集标签,并巧妙地通过验证信息训练集。重要的是机器学习模型仅仅是接触信息可用时的预测。因此，明智的做法是仔细挑选特性，在应用转换之前分割数据，避免在验证集上拟合转换，并使用管道处理。

本文转载自网络，原文链接：https://www.toutiao.com/a6876218022483198475/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：你的AI模型有哪些安全问题，在这份AI攻防“词典”里都能查到 下一篇：没有了

随机推荐

机器学习系统的弱点：需要保护它们的5个

我们每日辛勤工作的最终目标就是能让生活更轻松方便，人类历史就是这样发展的。...
一位6年老Android面经总结

前言准备面试其实已经准备了挺久了,当时打算面试准备了差不多以后,跟公司谈谈涨...
陕西鲲鹏生态创新中心积极探索人才培养，

【51CTO.com原创稿件】2020年11月28日，上百位开发者第二次走进西安市雁塔区的西...
从HTTP到HTTPS，原来这么简单

【51CTO.com原创稿件】一、HTTP Begin 1、什么是 HTTP HTTP 是基于文本传输的协...
再增加60万基站，你计划升级到5G套餐吗？

众所周知，我国运营商在布局5G方面的力度是非常积极的，尤其是去年在疫情得到有...
COVID-19大流行正推动面部识别技术应用

2019冠状病毒病如何影响面部识别技术的应用? 在全球范围内，人工智能和各种监控...
微信转身，比大象还难

微信之父张小龙再次站上了微信之夜的舞台，这一次，他比原定时间迟到了23分钟。...
联想手机负责人常程离职这对联想手机意

12月31日，联想集团副总裁、手机业务负责人常程宣布离职。此前，有消息爆料了这...
了解3GPP 5G版本及每个版本功能

多年来，蜂窝技术主要针对消费者用例，而第三代合作伙伴计划(3GPP)的5G版本将重...
刷脸支付崛起，为何微信要慢支付宝很多？

NFC支付、二维码支付以后，刷脸支付正在快速进入我们的生活。与前几种支付相比，...

机器学习中的标签泄漏介绍及其如何影响模型性能

推荐图文

你的孤独都被AI看透了：准确率高达94％

Microsoft Office iOS 版本现已上架 App Store

分享4个小众却良心的APP：每款都是百里挑一请低调使

手机密码忘记了怎么解锁？不用花钱去刷机，按2个键1

利用AI，驯服有史以来震幅最大的资产类别

4G手机的旧制度 5G手机的大革命

随机推荐

机器学习系统的弱点：需要保护它们的5个

一位6年老Android面经总结

陕西鲲鹏生态创新中心积极探索人才培养，

从HTTP到HTTPS，原来这么简单

再增加60万基站，你计划升级到5G套餐吗？

COVID-19大流行正推动面部识别技术应用

微信转身，比大象还难

联想手机负责人常程离职这对联想手机意

了解3GPP 5G版本及每个版本功能

刷脸支付崛起，为何微信要慢支付宝很多？

关于我们