【论文阅读】- 怎么快速阅读ML论文？

原创

百川AI

修改于 2022-10-08 16:05:58

5250

修改于 2022-10-08 16:05:58

文章被收录于专栏：我还不懂对话我还不懂对话

主题框架翻译于Eric Jang的博客https://blog.evjang.com/2021/01/understanding-ml.html，加了一些个人观点。

机器学习的论文很多，怎么从Arxiv上泛滥的文章中选择论文阅读，那么我们就需要快速地了解论文内容概要，从而决定是否精读。那么怎么快速阅读呢，作者提出只需要阅读过程中只需要回答出以下5个简单问题即可：

1. 文章的模型（函数）的输入是什么？

例如，一些图像问题，输出是224x224x3的RGB图像；对于文本分类，一般输入是一个文本token序列。

2. 文章的模型（函数）的输出是什么？

例如，1000个向量（1000分类问题）

了解了模型的输入输出之后，你大致就能脱离模型，想到其他类似的方法来对比，或者考虑其他领域是否有一些算法也可以应用于此处。作者发现这种方法在Meta-Learning papers 领域非常有用。

通过输入和期望的输出来思考ML问题，你能够判断该输出对于预测输出是否足够。这是一个前提，如果输入不足以预测输出，那么任何fancy的算法，可能都是徒劳。

3. 损失函数是什么，它为什么可以带给模型监督信号？这个损失的目标有什么前提假设？

ML模型是去拟合偏差和数据。有时候数据中偏差很大，有时候很小，为了确保模型泛化很好（拟合数据而非偏差）需要更多的偏差和数据，最好是无偏数据。

例如：很多优化算法都假设数据是平稳的，即马尔科夫决策过程（MDP）。在MDP中，“state（状态）”和“action（动作）”通过环境的过渡，动态确定地映射到“下一个状态、奖励以及episode是否结束”。这个结构，虽然非常普遍，但可以用来表述一个损失，允许学习Q值遵循贝尔曼方程（Bellman Equation）。

4. 训练完成后模型是否对未见数据具有泛化性？

个人认为是训练数据是否和真实世界数据分布一致？

模型在训练过程中从数据中捕获信息，ML一般都能泛化到未见数据，现在基本只要不是跨领域，泛化能力都不错，甚至随着大数据&大模型的普及，模型逐渐在多个领域达到很强泛化（甚至很强的zero-shot能力，例如gpt-3）。

5. 论文里面的说法是否可靠？

个人理解，是说论文里面指标是否靠谱，方法是否实用等。凭我自己的经验，一般可以从以下几点来看：

论文方法是否过于trick，是否非常复杂（奥卡姆剃刀原理）。一般很好的论文思想都很简单，反而是一些水文花里胡哨，指标提升像极了随机波动。
是否开源代码。这个很重要，开源也分很多级别：
- 第一档：被开源框架集成，那么这种算法基本没啥问题，方法也是被业界其他人认可。
- 第二档：整理很好，训练预测脚本都很清楚。
- 第三档：乱七八糟，甚至只给一个readme，这种相当于没有开源。
是否公开了模型，这也很重要，因为他的指标靠不靠谱，一预测就知道了。