当前位置：主页 > 查看内容

2021年，送给码农的免费Python机器学习课程

发布时间：2021-08-03 00:00| 有位朋友查看

简介：2021年来了，越过了充满艰辛的2020，希望大家在新的一年里，手里能多一件对抗未知的武器，刚哥送给大家免费的Python机器学习课程。线性回归最基本的机器学习算法必须是具有单个变量的线性回归算法。如今，可用的高级机器学习算法，库和技术如此之多，以至……

2021年来了，越过了充满艰辛的2020，希望大家在新的一年里，手里能多一件对抗未知的武器，刚哥送给大家免费的Python机器学习课程。

线性回归

最基本的机器学习算法必须是具有单个变量的线性回归算法。如今，可用的高级机器学习算法，库和技术如此之多，以至于线性回归似乎并不重要。但是，学习基础知识总是一个好主意。这样，您将非常清楚地理解这些概念。在本文中，我将逐步解释线性回归算法。

多元线性回归

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。因此多元线性回归比一元线性回归的实用意义更大

多项式回归

在统计学中，多项式回归是回归分析的一种形式，其中自变量 x 和因变量 y 之间的关系被建模为关于 x 的 n 次多项式。多项式回归拟合x的值与 y 的相应条件均值之间的非线性关系，表示为 E(y|x)，并且已被用于描述非线性现象，例如组织的生长速率[1]、湖中碳同位素的分布[2]以及沉积物和流行病的发展[3]。虽然多项式回归是拟合数据的非线性模型，但作为统计估计问题，它是线性的。在某种意义上，回归函数 E(y|x) 在从数据估计到的未知参数中是线性的。因此，多项式回归被认为是多元线性回归的特例。

逻辑回归

自上世纪以来，逻辑回归是一种流行的方法。它建立了分类变量和一个或多个自变量之间的关系。在机器学习中使用此关系来预测分类变量的结果。它被广泛用于许多不同的领域，例如医疗领域，贸易和商业，技术等等。

多类分类逻辑回归

普通的逻辑回归只能针对二分类问题，要想实现多个类别的分类，我们必须要改进逻辑回归，让其适应多分类问题。

关于这种改进，有两种方式可以做到。

第一种方式是直接根据每个类别，都建立一个二分类器，带有这个类别的样本标记为1，带有其他类别的样本标记为0。假如我们有k个类别，最后我们就得到了k个针对不同标记的普通的逻辑二分类器。

第二种方式是修改逻辑回归的损失函数，让其适应多分类问题。这个损失函数不再笼统地只考虑二分类非1就0的损失，而是具体考虑每个样本标记的损失。这种方法叫做softmax回归，即逻辑回归的多分类版本。

神经网络算法

神经网络已被开发来模仿人类的大脑。神经网络在机器学习中非常有效。它在1980年代和1990年代很流行。最近，它变得越来越流行。可能是因为计算机足够快，可以在合理的时间内运行大型神经网络。

如何应对算法效果不佳

我们花了很多时间来开发机器学习算法。但是在部署后，如果该算法性能不佳，那将令人沮丧。问题是，如果算法无法按预期工作，下一步应该怎么做。什么地方出了错?训练数据的数量是否足够?我们使用了正确的功能吗?我们是否应该继续收集更多数据?我们可以，但是那是非常耗时且昂贵的。我们应该添加更多功能吗?那也可能很昂贵。

往哪个方向走?

如果您的机器学习算法无法正常工作，下一步该怎么做?有几种选择：

获取更多的训练数据非常耗时。甚至可能需要数月的时间才能获得更多的研究数据。
获得更多的训练特征。也可能需要很多时间。但是，如果添加一些多项式特征可以工作，那就太酷了。
选择较小的一组训练特征。
增加正则项
减少正则项。

那么，接下来您应该尝试哪一个呢?开始尝试任何操作都不是一个好主意。因为您可能最终会花太多时间在无用的事情上。您需要先发现问题，然后采取相应措施。学习曲线有助于轻松检测问题，从而节省大量时间。

学习曲线对于确定如何提高算法性能非常有用。确定算法是否遭受偏差或拟合不足，方差或拟合过度，或两者兼而有之，这很有用。

精确度，召回率

如何处理机器学习中偏斜的数据集

用偏斜的数据集开发有效的机器学习算法可能很棘手。例如，数据集涉及银行中的欺诈活动或癌症检测。发生的情况是，您将在数据集中看到99%的时间没有欺诈活动或没有癌症。您可以很容易地作弊，并且始终可以仅预测0(如果癌症则预测1，如果没有癌症则预测0)，从而获得99%的准确性。如果这样做，我们将拥有99%的准确机器学习算法，但我们将永远不会检测到癌症。如果某人患有癌症，他/他将永远得不到治疗。在银行中，不会采取任何针对欺诈活动的措施。因此，仅靠准确性就无法确定偏斜的数据集，就像算法是否有效运行一样。

有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。

要了精确度和召回率，您需要了解下表及其所有术语。考虑二进制分类。它将返回0或1。对于给定的训练数据，如果实际类别为1，而预测类别也为1，则称为真实肯定。如果实际类别为0，而预测类别为1，则为假阳性。如果实际类别为1，但预测类别为0，则称为假阴性。如果实际类别和预测类别均为0，则为真阴性。

使用所有这些，我们将计算精度和召回率。

K均值聚类

K均值聚类是最流行和广泛使用的无监督学习模型。它也称为群集，因为它通过群集数据来工作。与监督学习模型不同，非监督模型不使用标记数据。

该算法的目的不是预测任何标签。而是更好地了解数据集并对其进行标记。

在k均值聚类中，我们将数据集聚类为不同的组。

异常检测

异常检测可以作为离群分析的统计任务来对待。但是，如果我们开发一个机器学习模型，它可以自动化，并且像往常一样可以节省大量时间。有很多异常检测用例。信用卡欺诈检测，故障机器检测或基于其异常功能的硬件系统检测，基于病历的疾病检测都是很好的例子。还有更多的用例。而且异常检测的使用只会越来越多。

单变量和多元高斯分布

高斯分布是统计中最重要的概率分布，在机器学习中也很重要。因为许多自然现象，例如人口高度，血压，鞋子的尺码，诸如考试成绩之类的教育手段以及自然界中许多其他重要方面，都倾向于遵循高斯分布。

我敢肯定，您听说过这个词，并且在某种程度上也知道。如果没有，请不要担心。本文将对其进行清晰的解释。我在吴哥伦教授在Coursera的机器学习课程中发现了一些惊人的视觉效果。他知道如何将主题分解成小块，使其变得更容易并进行详细说明。

他使用了一些视觉效果，可以很容易地理解高斯分布及其与相关参数(例如均值，标准偏差和方差)的关系。

在本文中，我从他的课程中切出了一些视觉效果，并在这里用它来详细解释了高斯分布。

推荐系统

如今，我们到处都能看到推荐系统。当您在诸如Amazon，eBay或其他任何地方的在线市场上购买商品时，他们会推荐类似的产品。在Netflix或youtube上，您会在首页上看到与以前的活动或搜索类似的建议。他们是如何做到的?他们都遵循这一想法。也就是说，他们从您之前的活动中获取数据并进行相似性分析。根据该分析，他们会建议您喜欢的更多产品或视频或电影。

希望这些课程能够帮助你学习机器学习的基本知识，在新的一年里，解决更为复杂的问题。

本文转载自网络，原文链接：https://www.toutiao.com/a6912563695226814987/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：程序员开发抢茅台脚本，两天刷榜 GitHub 后谢幕 下一篇：如何正确认识C语言在当今编程领域的地位

随机推荐

华瑞银行金融一朵云安全建设实践，智慧银

中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
JavaScript之深入理解this

定义 this是函数运行时自动生成的内部对象，即调用函数的那个对象。（不一定很准...
阿里云发布工业大脑3.0，满足一站式开发

9月17日，2020云栖大会上，阿里云正式发布工业大脑3.0。阿里云智能资深产品专家...
在DevOps中整合“安全即代码”文化

最近，DevOps的采用导致了企业计算的重大转变。除无服务器计算，动态配置和即付...
关于现代包管理器的深度思考-为什么现在

很长时间没有更新原创文章了，但是还一直在思考和沉淀当中，后面公众号会更频繁...
Nacos或者Config是怎么实现配置热刷新的

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
VPS主机和租用服务器优势分析

在TOP云（zuntop.com）科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
RDS PostgreSQL 安全最佳实践

一、PostgreSQL行业位置一行业位置首先我们看一看RDS PostgreSQL在整个行业当...
云计算市场在2020年取得突破性增长

2020年对于云计算行业来说是突破性的一年，因为公共云供应商增加了收入，而疫情...
MySQL Case-索引key对select count(*)的

查看表结构，sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...

2021年，送给码农的免费Python机器学习课程

推荐图文

P2P鼻祖收购四字母域名LCAM.com！梦工厂、百事均有

2021年值得关注的8种边缘计算趋势

新零售行业优质解决方案分享【智能语音点餐机解决方

租用云服务器一年大概的费用

服务器托管节省开支节省费用

尽管获三千万融资，该域名也换得了吧！

随机推荐

华瑞银行金融一朵云安全建设实践，智慧银

JavaScript之深入理解this

阿里云发布工业大脑3.0，满足一站式开发

在DevOps中整合“安全即代码”文化

关于现代包管理器的深度思考-为什么现在

Nacos或者Config是怎么实现配置热刷新的

VPS主机和租用服务器优势分析

RDS PostgreSQL 安全最佳实践

云计算市场在2020年取得突破性增长

MySQL Case-索引key对select count(*)的

关于我们