当前位置：主页 > 查看内容

机器学习中的数学意义

发布时间：2021-08-01 00:00| 有位朋友查看

简介：机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识，因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提，这是我的科学老师从中学开始就灌输给我的：科学报告的一般规则是，您……

机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识，因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提，这是我的科学老师从中学开始就灌输给我的：

科学报告的一般规则是，您写下的每个数字都应为“ 真”的，因为“ 真”的定义是什么。
让我们来研究一下这对测试性能等统计量意味着什么。当你在科学出版物中写下以下陈述时：
测试准确率为52.34%。你所表达的是，据你所知，你的模型在从测试分布中提取的未见数据上成功的概率在0.52335和0.52345之间。

这是一个非常强有力的声明。

考虑你的测试集是从正确的测试分布中抽取的N个样本IID组成的。成功率可以表示为一个二项式变量，其平均概率p由样本平均值估计：p ≅ s / N

其标准差为：σ=√p(1-p)。
其中当p=0.5时，其上限为0.5。
在正态近似下，估计量的标准差为：δ=σ/√N。

这个精度估计上的误差δ 是这样的，在最坏的情况下，有约50%的精度：

换句话说，为了保证上述报告中例子52.34%的准确率，你的测试集的大小至少应该在30M样本的数量级上!这种粗略的分析很容易转化为除了准确率以外的任何可计算的数量，尽管不能转化为像似然率或困惑度这样的连续数字。

下面是一些常见的机器学习数据集的说明。

在ImageNet上可以合理地报告多少位数的精度?准确率在80%左右，测试集是15万张图片：

√(0.8*0.2/150000) = 0.103%

这意味着你几乎可以报告XX.X%的数字，而实际上每个人都是这样做的。

MNIST呢，准确率在99%：

√(0.99*0.01/10000) = 0.099%

噗，也报个XX.X%就OK了!

然而，最值得注意的是，在大多数情况下，性能数据并不是单独呈现的，而是用来比较同一测试集上的多种方法。在这种情况下，实验之间的抽样方差会被抵消，即使在样本量较小的情况下，它们之间的准确度差异也可能在统计学上很显著。估计图方差的一个简单方法是执行bootstrap重采样。更严格、通常更严格的检验包括进行配对差异检验或更普遍的方差分析。

报告超出其内在精度的数字可能很具有极大的吸引力，因为在与基线进行比较的情况下，或者当人们认为测试集是一成不变的情况下，同时也不是从测试分布中抽取的样本时，性能数字往往更加重要。当在生产中部署模型时，这种做法会让人感到惊讶，并且固定的测试集假设突然消失了，还有一些无关紧要的改进。更普遍的是，这种做法会直接导致对测试集进行过拟合。

那么，在我们的领域中数字为“真”意味着什么?好吧，这确实很复杂。对于工程师而言，很容易辩称不应该报告的尺寸超出公差。或者对于物理学家来说，物理量不应超过测量误差。对于机器学习从业者，我们不仅要应对测试集的采样不确定性，而且还要应对独立训练运行，训练数据的不同初始化和改组下的模型不确定性。

按照这个标准，在机器学习中很难确定哪些数字是 "真 "的。解决办法当然是尽可能地报告其置信区间。置信区间是一种更精细的报告不确定性的方式，可以考虑到所有随机性的来源，以及除简单方差之外的显着性检验。它们的存在也向你的读者发出信号，表明你已经考虑过你所报告的内容的意义，而不仅仅是你的代码所得到的数字。用置信区间表示的数字可能会被报告得超出其名义上的精度，不过要注意的是，你现在必须考虑用多少位数来报告不确定性，正如这篇博文所解释的那样。一路走来都是乌龟。

数字少了，杂乱无章的东西就少了，科学性就强了。

避免报告超出统计学意义的数字结果，除非你为它们提供一个明确的置信区间。这理所当然地被认为是科学上的不良行为，尤其是在没有进行配对显著性测试的情况下，用来论证一个数字比另一个数字好的时候。仅凭这一点就经常有论文被拒绝。一个良好的习惯是对报告中带有大量数字的准确率数字始终持怀疑态度。还记得3000万、30万和30万的经验法则对最坏情况下作为“嗅觉测试”的统计显著性所需样本数量的限制吗?它会让你避免追逐统计上的“幽灵”。

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

本文转载自网络，原文链接：https://www.leiphone.com/news/202010/VePdvAgHlzEVMdyd.html
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：关于自动驾驶，我们是否在刻意回避这三大关键问题？ 下一篇：没有了

随机推荐

机器狗走梅花桩？自行车能自平衡？腾讯 R

11月20日，腾讯公布了其在移动机器人研究方面的新进展：四足移动机器人 Jamoca ...
刘烈宏对5G建设提出四点建议

9月27日，2020中国网络媒体论坛在上海召开，主题为变局中开新局：中国网络媒体的...
5G toB：下一场运营商与OTT之争？

5G时代，运营商与OTT之争会不会继续上演? 不可避免擦枪走火为了实现从toC向toB...
2021年改造数据中心未来的热门技能

不断发展的数据动态将如何刺激对新的数据中心技能的需求? 先进技术的引进和关键...
网民逼近10亿，中国互联网发展迎来新机遇

近日，中国互联网络信息中心(CNNIC)发布的第47次《中国互联网络发展状况统计报告...
按需部署：中国电信计划2021年开通32万座

今日，中国电信公布2020年全年业绩，报告期内实现经营收入为人民币3936亿元，同...
为什么PUE只说明了数据中心能效的一部分

电源使用效率（PUE）是最重要的关键性能指标之一，它可以显示数据中心的能源使用...
注意到没？微信新表情戒烟了

经常用微信的你，注意到表情包的新变化了吗? 腾讯公司在官微俏皮指出，连微信新...
智慧城市——5G的应用领域

智慧城市，是5G三大应用场景之一。5G作为建设新型智慧城市的技术利器，将是支持...
加强人工智能基础教育面向未来智能社会

加强人工智能基础教育，是未雨绸缪应对未来社会发展的必然选择和要求。在促进教...

机器学习中的数学意义

推荐图文

智能的本质：人类智能与人工智能

2021年国内5G发展前瞻（二）：挑战

1.8M超轻量目标检测模型NanoDet，比YOLO跑得快

50000000部！面对手机库存危机，厂商该如何应对？

盘点2020之5G终端：智能手机市场迎大变局，更多形态

用它清理微信，分分钟省下10G空间

随机推荐

机器狗走梅花桩？自行车能自平衡？腾讯 R

刘烈宏对5G建设提出四点建议

5G toB：下一场运营商与OTT之争？

2021年改造数据中心未来的热门技能

网民逼近10亿，中国互联网发展迎来新机遇

按需部署：中国电信计划2021年开通32万座

为什么PUE只说明了数据中心能效的一部分

注意到没？微信新表情戒烟了

智慧城市——5G的应用领域

加强人工智能基础教育面向未来智能社会

关于我们