极限学习机
有人认为,极限学习机是有史以来最聪明的神经网络发明之一,以至于甚至召开了专门讨论ELM神经网络体系结构的会议。ELM的支持者认为,它可以以指数级的更快的训练时间执行标准任务,而很少有训练实例。另一方面,除了它在机器学习社区中并不大的事实之外,它还受到深度学习专家的广泛批评,其中包括Yann LeCun,他们认为它的宣传和信誉远远超出其应有的程度。
通常,人们似乎认为这是一个有趣的概念。
ELM体系结构由两层组成:第一个是随机初始化和固定的,而第二个是可训练的。本质上,网络将数据随机投影到新空间中并执行多元回归(当然,然后将其传递给输出激活函数)。随机投影需要一种降维(或放大)方法,该方法将随机矩阵乘以输入-尽管这个想法听起来很奇怪,但从战略分布中随机抽取实际上可以很好地工作(我们将在以后的直观类比中看到)。它会施加某种随机失真,这种失真会以良好的方式(如果正确完成的话)会产生噪声,并使网络的其余部分能够适应,从而为学习机会打开了新的大门。
实际上,正是由于这种随机性,Extreme Learning Machines才被证明具有隐藏层中具有相对较小节点的通用近似定理幂。
实际上,在1980年代和1990年代,以神经网络发展领域的名字就已经探索了随机投影的想法,这就是对ELM并不是什么新鲜事物的一种批评。只是旧研究以新名称打包。许多其他体系结构(例如回声状态机和液体状态机)也利用随机跳过连接和其他随机性来源。
但是,ELM与其他神经网络架构之间的最大区别可能是它不使用反向传播。取而代之的是,由于网络的可训练部分只是简单的多元回归,因此以大致相同的方式在回归中拟合系数来训练参数。这代表了人们认为神经网络训练方式的根本转变。
自从基本人工神经网络出现以来,几乎所有开发出的神经网络都通过在整个网络中前后反射信息信号,使用迭代更新(或根据需要将其称为"调整")进行了优化。由于这种方法已经存在了很长时间,因此必须假定已经尝试并测试了该方法为最佳方法,但是研究人员承认,标准反向传播存在许多问题,例如训练起来很慢或陷入极小的局部极小值现象。
另一方面,ELM使用数学上涉及更多的公式来设置权重,而无需太深入地研究数学,可以想到使用随机层来补偿更多计算上昂贵的细节,否则它将被替换。从技术上讲,如果有帮助,那么非常成功的Dropout层就是一种随机投影。
因为ELM同时使用随机性和无反向传播算法,所以它们的训练速度比标准神经网络快得多。
另一方面,他们是否表现更好是另一个问题。
有人可能会提出这样一种观点,即ELM比标准神经网络(尽管两者都相距甚远)更能反映人类的学习方式,因为它仅需几个示例就可以非常快速地解决更简单的任务,但是迭代神经网络需要贯穿其中至少,成千上万的样本可以泛化并表现良好。与机器相比,人类可能有其弱点,但是他们在示例学习比率(示例是他们所接受的培训示例的数量)方面的巨大优势才使我们真正变得聪明。
极限学习机的概念非常简单-如此简单,以至于有人会称其为愚蠢的。伟大的计算机科学家和深度学习先驱Yann LeCun宣称,"随机连接第一层几乎是您可以做的最愚蠢的事情",在此论点之后,他列举了更多的开发方法来非线性地变换向量的维数,例如作为SVM中使用的内核方法,通过使用反向传播进行定位进一步得到了加强。
LeCun说,从本质上讲,ELM本质上是一个SVM,具有更差的转换内核。使用SVM可以更好地建模ELM能够解决的有限范围的问题。唯一的反驳是使用"随机内核"而不是专用内核的计算效率,因为SVM是众所周知的高功率模型。ELM可能带来的性能降低是否值得,这是另一个讨论。
> One way to compare ELMs and SVMs.
然而,无论是否像ELM一样,根据经验,在简单的神经网络中使用随机投影或过滤器以及其他模型都已证明在MNIST等各种(现在被认为是"简单")标准训练任务中表现出色。尽管这些性能不是一流的,但经过如此严格审查并且其概念几乎被认为是荒唐可笑的体系结构,可以通过最新的神经网络在排行榜上独占edge头–此外,它具有更轻量级的体系结构和较小的计算量–至少是令人感兴趣的。
为什么使用固定的随机连接有效?
这是一百万美元的问题:很明显,如果ELM的性能与普通的反向传播神经网络一样好(甚至更好),那么ELM中具有随机连接的某些功能就可以正常工作。虽然它的数学是不直观的,但原始的《极限学习机器》论文的作者光斌煌,举例说明了这个概念(针对语言,简洁性和深度学习的相似性进行了编辑):
您要用石头填满一个湖,直到用石头而不是水填满一个水平表面,然后您才能看到空湖的底部,这是一条曲线(代表数据的函数)。工程师仔细计算了湖泊的大小,填满湖泊的石头的大小,以及在优化任务中起作用的众多其他小因素。(优化适合该功能的许多参数。)
> A bad but acceptable job of filling stones into the lake.
另一方面,农村农民炸毁附近的山,开始扔掉或推下掉进湖里的岩石。当农村农民捡起一块石头(隐藏层节点)时,他不需要知道湖的大小或石头的大小,他只是随意地扔石头并将石头散布开来。如果某个区域的岩石开始堆积在地表上方,则农夫会用锤子将其砸碎(β参数-各种规则化处理),以平整地表。
尽管工程师仍在计算岩石的高度和体积以及湖泊的形状,但农夫已经填满了湖泊。对于农夫来说,扔多少块石头都没关系:他可以更快地完成工作。
尽管这种类比在不同场景的直接应用中存在一些问题,但这是对ELM的本质以及随机性在模型中扮演的角色的直观解释。ELM的本质在于,天真并不总是一件坏事:简单的解决方案可能能够更好地解决不太复杂的问题。
关键点
您对ELM有何看法?
1.醉过才知酒浓,爱过才知情重。你不能做我的诗,正如我不能做你的梦。 2.我深...
谷歌上周发布了 Android 12 的第一个开发人员预览版,之后 XDA 开发者论坛开始忙...
本文转载自公众号读芯术(ID:AI_Discovery) 笔者去初创公司工作主要是为了做项目...
我想要解决的问题是:在一辆车里有一个摄像头,我想知道车开得有多快。你显然不...
对于金融机构来说,从冠状病毒疫情中恢复将会结束他们采用人工智能(AI)和机器学...
对科技圈来说,新冠疫情带来的麻烦已经够多了。供应链停工、研发工作延误、活动...
想知道数字化转型的最佳方法吗?虽然不能透露整体技术,但可以说出制作混合物的主...
现在移动电信联通三家为了竞争,商业上打的难解难分。但如果追寻历史的话,就会...
一、飞速发展的十年 1、论文发表情况 人工智能过去十年发展快速,从学术研究走向...
【51CTO.com快译】随着越来越多的企业采用人工智能和机器学习技术,企业对于机器...