首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是机器学习?

什么是机器学习

机器学习就是让计算机具有像人一样的学习能力的技术,是从大数据中寻找出有用知识的数据挖掘技术。

通过运用机器学习技术,从视频数据库中寻找出自己喜欢的视频,或者根据购买记录向用户推荐其他相关产品成为了现实。

1.学习的种类

机器学习根据所处理的数据种类不同,可以分为监督学习,无监督学习,和强化学习等几种类型。

监督学习,是指计算机从周围的环境中获取知识、信息,环境提供对错指示,告知最终结果的学习过程。计算机根据在学习过程中所获得的经验、技能,对没有学习过的问题也可以做出正确解答。

监督学习的在手写文字识别,声音处理,图像处理等各个方面都有广泛的应用。

这一类机器学习的典型任务包括:预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。

无监督学习,是指在计算机自动收集信息,并从中获取有用信息。

无监督学习在视频分析,社交网站解析、声音信号解析等方面有很大的用途。

无监督学习的典型任务有聚类、异常检测等。

强化学习,计算机在学习过程中自己对预测结果进行评估的方法,通过自我评估,不断进行学习。

强化学习在机器人自动控制、计算机游戏中的人工智能、市场战略的最优化等方面有广泛应用。

在强化学习中经常会用到回归、分类、聚类和降维等机器学习算法。

2.机器学习的典型任务

回归,指把实函数在样本点附近加以近似的有监督的函数近似问题。即对一个或多个自变量和因变量之间的关系进行建模、求解的一种统计方法。

比如一个输入x和一个输出y,关于函数y=f(x)的学习问题。在监督学习里,函数关系未知,但是作为训练集的输入输出样本是已知的。

只不过一般情况下输出的真实值包含有噪声,使机器知道输入输出样本所对应的真实的函数关系就是监督学习的最终目标。

机器通过学习获得的函数,对没有学习过的问题也可以做出正确解答的泛化能力的大小,就可以通过比较新的函数与已知函数的相似性来进行分析。

分类,指对于指定的模式进行识别的有监督的模型识别问题。

所有的输入样本可以被划分为不同类别的问题来进行说明,同样训练集的输入输出样本是已知的,但是分类问题中的输出样本不是具体的值而是代表类别。

分类问题只是单纯的对样本应该属于哪一个类别进行预测,并根据预测准确与否来衡量泛化误差。而且分类问题中并不存在类别1比类别3更接近于类别2这样的说法。

异常检测,是指寻找输入样本中所包含的异常数据的问题,在已知正常数据与异常数据的例子的情况下,其与有监督分类问题是相同的。

但是一般在异常检测任务中,对于什么样的数据是异常的,什么样的数据是正常的,在事先是未知的,在这样的无监督的异常检测问题中,一般采用密度估计的方法,把靠近密度中心的数据作为正常的数据,把偏离密度中心的数据作为异常的数据。

聚类,与分类问题相同,也是模式识别的问题,但是属于无监督学习的一种。即只给出输入样本,然后判断各个样本分别属于哪个簇,聚类中用簇代替类别的说法。

隶属于相同簇的样本之间具有相似的性质,不同簇的样本之间具有不同的性质,在聚类问题中,如何准确的计算样本之间的相似度是很重要的问题。

降维,是指从高纬度数据中提取关键信息,将其转换为易于计算的低纬度的问题进而进行求解的方法。降维,根据数据种类的不同,可以分为监督学习和无监督学习两种。

作为训练集的输入输出样本是已知的时候,属于无监督学习,可以把样本转化为较低维度的样本,从而获得较高的泛化能力。

如果只有输入样本是已知的,就属于无监督学习,在转换为较低维度的样本之后,应该保持原始输入样本的数据分布性质,以及数据间的近邻关系不发生变化。

3.机器学习的方法

机器学习有多种流派,如产生式分类,判别式分类,以及频率派和贝叶斯派。

产生式分类和判别式分类

判别式分类:寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。

产生式分类:对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。

假定输入x,类别标签y,判别式估计的是条件概率分布:p(y|x);产生式估计的是联合概率分布:p(y|x)。

产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

频率派和贝叶斯派

两派最大的差别在对于参数空间的认知上,所谓的参数空间,就是你所关心的那个参数可能的取值范围。

频率学派并不关心参数的所有细节,目的是找出最有可能的真实值,所以提出最大似然以及置信区间的说法。

贝叶斯派关心空间中的每一个值,他们认为参数空间里的每一个值都有可能是真实模型使用的值,区别只是概率不同而已。于是有了先验分布和后验分布这样的概念。

一个说明他们差别的例子就是如果后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

附:关于概率的一个例子

假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少?

假设事件A是看到女生,事件B是看到一个穿裤子的学生。

P(A)是忽略其它因素,看到女生的概率,在这里是40%。

P(A')是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60%。

P(B|A)是女生穿裤子的概率,在这里是50%。

P(B|A')是男生穿裤子的概率,在这里是100%。

P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A')P(A'),在这里是0.5×0.4 + 1×0.6 = 0.8。

根据贝叶斯定理,我们计算出后验概率P(A|B)=P(B|A)*P(A)/P(B)=0.25。

可见,后验概率实际上就是条件概率。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180425G08MWL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com