当前位置：主页 > 查看内容

注意这个数据科学错误，避免30多个小时的无用功……

发布时间：2021-04-07 00:00| 有位朋友查看

简介：本文转载自公众号读芯术(ID：AI_Discovery) 下面这个模型在一项图像识别竞赛中经过了数天训练。这是个相对比较简单的模型，其AUC最初是0.9，符合比赛将AUC控制在0到1之间的要求，除此之外我对比赛也没有太高的期望。也正因如此，当我照例评估重量模型，对模……

本文转载自公众号“读芯术”(ID：AI_Discovery)

下面这个模型在一项图像识别竞赛中经过了数天训练。这是个相对比较简单的模型，其AUC最初是0.9，符合比赛将AUC控制在0到1之间的要求，除此之外我对比赛也没有太高的期望。也正因如此，当我照例评估重量模型，对模型进行训练时，看到如下结果大吃一惊：

在当时比赛的实时排行榜中，排名首位的AUC值为0.965，而我当时的有效AUC值达到了0.9968，离获胜拿奖仅有一步之遥，在一百多个队伍中遥遥领先，让我难以置信。深度学习之神好像是在这天点化了我，让我在权重初始化上取得了这样傲人的成绩，简直像有了优化超能力一样厉害。

这个结果好的让人难以置信。虽然我很想相信模型给出的数据，但我仍持有一丝怀疑。我一次又一次地对模型预测进行评估，起初测试了部分数据，然后测试了全部数据。结果是肯定的：验证分数接近完美。

因此我确信自己找到了获胜的捷径，准备拿下第一名，带着激动的心情，我赶忙将模型对测试数据的预测提交了。奖金唾手可得。

而比赛分数令人震惊。

0.5分。即便是随便提交一个预测，或者是什么都不做仅仅是把比赛提供的样本文件提交都能拿到0.5分。我当时获得的魔法般的顿悟也就比瞎猜强了一点。

结果出来之后，我花了30多个小时，复盘数据，试图找出哪里出了问题，整个人精疲力竭。预测中肯定那儿除了问题，可能是文件传错了。

然而，这30个小时也不过是白费功夫。我花了九牛二虎之力更正结果，但预测结果值仍然很低。

到底是哪里出问题了?

答案是：数据泄露。数据泄露是个很简单的概念，但我就直直地走进了它的陷阱。在模型训练中，我的编程没有任何问题，模型也正确依照测试数据进行了训练，问题出现在了不易发现的地方。

简而言之，当模型遇到不该遇到的情况时，就会发生数据泄漏。在比赛中，我已经在多个会话中训练了模型，也就是说，我将从上一个会话中加载模型权重，训练模型并保存最佳性能的权重。由于计算时间限制，训练在多个会话中进行。

但是，在每个会话中，我都会重新运行整个代码，包括将数据随机分为训练和验证集的代码，因此每次培训的训练集并不相同。为避免这种情况，可以设置一个种子来划分训练/验证组，而这是我(非常)没有提前采取的措施。

尽管每次的训练数据都不同，但模型的权重(它所了解的信息)却被传递了下来。因此，经过足够的培训后，该模型已被暴露给整个数据集。

由于机器学习模型本身具有惰性，所以该模型会放弃学习，转而对数据进行记忆，这对没有感情的网络来说非常简单，也就导致这种现象发生过很多次。因此，面对从未见过的数据时，这个模型就无能为力了。

由于该模型已经在之前的训练中见过验证数据，所以才能得到近乎完美的0.9968，让我误以为这就是模型本身的能力。如果回忆一下模型早期的性能，想一想为什么验证分数会高于训练分数，就会明白这其实是一个相当奇怪且罕见的现象。

所以，大家在接下来的每一个实践中都要牢记这重要的一课：如果结果太过完美，让人不敢相信，那十有八九这个结果有问题。(这个方法在鉴别数据泄露中尤其重要。)

这是一种数据泄露，其他类型的泄露包括：

预处理。如果在拆分之前处理数据，那可能会导致信息泄漏。例如，如果你在整个数据集中使用均值之类的方法，则训练集将包含有关验证集的数据，反之亦然。
时间。如果在预测问题涉及到了时间，那简单的随机训练/验证拆分无效。也就是说，如果要基于A和B预测C，则应在[A，B]→C上训练模型，而不要像[C，A]→B那样训练。这是因为知道了之后的数据点C的值，模型就可以预测之前的数据点B。

在事情太过完美的时候三思是个好习惯，但也要注意其中微妙的细节。比如说，分数增加的幅度很大，但不一定是很奇怪的现象;而当模型对测试数据进行预测时，其性能又很差劲。

实际上，最好的办法是注意以任何方式分割数据的目的，以便将它们分为训练/验证/测试集，并尽早进行。此外，设置种子是强有力的保障。

从更开放的角度上讲，数据泄漏可能是有益的。如果模型看到了不应该看到的数据，但是看到的数据有助于提升其概括能力，帮助学习，那么数据泄漏是有好处的。

例如，Kaggle的排名系统。该系统由一个公共排行榜和一个私人排行榜组成。在比赛结束之前，用户可以访问所有训练内容和部分测试内容(在该系统中可访问25%的内容，用于确定公共排行榜上的位置)。但是，比赛结束后，测试内容的另75%将用于评估模型，以确定最终私人排行榜的排位。

不过，如果我们能利用这25%的测试内容来提高私人排行榜上分数，这就算是数据泄露。

在Kaggle竞赛中，相对常见的做法是在了解其他25%测试数据的情况下对75%测试数据进行某种预处理。比如，可以采用PCA来降低尺寸。这通常都会提升模型性能，因为数据一般都是越多越好。

我们在寻找提高数据连接性方法的道路上应永不停歇;一般来说，永远不要将任何复杂的事件标记为纯粹的坏(或好)事件。

总而言之，数据科学家应致力于为模型提供更多的数据，但要把不同用处的数据区分开。此外，为了不让希望破灭，你应该消极地编程。毕竟，只有预期了最差的结果，面对问题才能淡定处理，面对成功也能欣喜若狂。

本文转载自网络，原文链接：https://www.toutiao.com/i6942664445906780676/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Java和大数据应该如何选？选对让你薪资翻番 下一篇：大数据存储未来，节能技术开发成为刚需

随机推荐

腾讯2020年财报：腾讯云自研战略提速，星

3月24日，腾讯发布2020年Q4及全年财报，其中金融科技及企业服务第四季收入385亿...
有意思的句子：考试真是so esay，哪里不

1．在报名的路上，我看见远处的学校，轰！的一声没了。希望如此。 2．男：我一直...
自从用了这个神器，我再也不想写代码了..

背景有时候我会碰到快速搭建测试服务的需求，比如像这样：搭建一个 HTTP Servi...
校园搞笑说说：老师你不用费心给我换同桌

1．百度是个大骗子，我抄了十几年的满分作文却从未得过满分。 2．学神在刷难题，...
深度 | 跨平台Web Canvas渲染引擎架构的

作者 | 楚奕来源 | 阿里技术公众号这篇文章主要从技术视角介绍下跨平台WebCanv...
财税行业 | 电子税务局

基于阿里巴巴的互联网架构、大数据技术，利用混合云架构打造全新的云化电子税务...
爆笑QQ说说：据说，试卷发下来一定要先吻

1．某女生寝室门口贴着一个告示男生与饭盒不得入内，问何解？答曰两者都会搞大女...
天津智慧物联赛道明星班再集结丨深度链接

创业与投资的本质，都是追寻一种能够穿越时空，抵达未来的高效方式。德勤管理咨...
C#多线程处理多个队列数据的方法

本文转载自微信公众号「后端Q」，作者conan。转载本文请联系后端Q公众号。概述 ...
微服务流控防护场景与应对措施

前言微服务成了互联网架构的标配模式，对微服务之间的调用的流量治理和管控就尤...

注意这个数据科学错误，避免30多个小时的无用功……

到底是哪里出问题了?

推荐图文

死磕36个JS手写题，搞懂后提升真的大

SpringMVC 源码分析之 FrameworkServlet

大数据平台架构及主流技术栈

用JavaScript实现队列

业界 | 数据库大数据一体化加速企业数智化创新

如何面对繁杂的数据需求？

随机推荐

腾讯2020年财报：腾讯云自研战略提速，星

有意思的句子：考试真是so esay，哪里不

自从用了这个神器，我再也不想写代码了..

校园搞笑说说：老师你不用费心给我换同桌

深度 | 跨平台Web Canvas渲染引擎架构的

财税行业 | 电子税务局

爆笑QQ说说：据说，试卷发下来一定要先吻

天津智慧物联赛道明星班再集结丨深度链接

C#多线程处理多个队列数据的方法

微服务流控防护场景与应对措施

关于我们