语境
数据科学的发展日新月异,机器学习的角色正从数据科学的混合角色过渡到更多的工程或面向分析的角色,通常称为A型和B型数据科学家。
一些变化正在促成这些变化:
换模
这种变化的环境导致数据科学家使用的工具发生了变化。 这种发展促使数据科学家朝着利用云,自动化,可解释性和可重复过程的方向发展。
基于云的ML
向云和Kubernetes的迁移已逐渐发生,从而推动了机器学习工程师对更多DevOps或数据操作功能的需求。
人们对深度学习的兴趣日益浓厚,特别是Keras帮助使该学科民主化,这一举动更加突出了这一点。 深度学习可能特别需要资源。 它的利用率随工作负载的变化而变化,这迫使Tensorflow执行器在K8S上运行,从而支持对更弹性和可扩展的基础架构的需求
> SageMarker's web interface
促成此举的另一个因素是ML在生产中的重要性日益提高。 反过来,这种转变又增加了原型栈与生产之间紧密结合的需求,并借助各种Saas云产品(例如AWs sageMaker / Google Cloud ML Engine)……这些工具提供了诸如模型部署和API配置之类的功能,从而简化了流程 将模型推向生产的过程。
AutoML和机器学习工作流程
具有生产型机器学习系统的重要性的提高反过来加速了从培训到部署的整个机器学习价值链对自动化的需求。 自动化允许更快地迭代和改进模型。
AutoML提供了围绕模型训练过程的自动化层,可处理其某些重复性任务。 它可以处理诸如超参数优化,功能和模型选择之类的任务。 Tpot或AutoKeras等库以及大多数云提供商的ML产品现在都将AutoML作为其解决方案的一部分。
对自动化的需求也增加了对工具进行编排的不同部分的需求。 诸如Airflow,Kubeflow,MLFlow和MetaFlow之类的工作流工具是用于帮助实现这一目标的一些关键工具。 他们负责将整个机器学习过程作为一条流水线来处理,帮助协调从数据采集到模型服务的端到端流程。
可解释且可重现的ML
GDPR和其他法规已经影响了我们构建机器学习模型的方式。 他们推动了可解释和可复制的模型。
在可解释的方面,已经出现了一系列工具,可以帮助数据科学家更好地利用其模型。 这些工具评估不同的方案,分析变量如何互操作,并提供仪表板以帮助解释模型预测。 Whatiftool,Lime,SHAP和Manifold是为应对这一挑战而引入的一些工具。
除了提供可靠的方法来调试模型的优点外,可重复性是受法规影响的另一个方面。 总有可能使用工作流工具创建可重现的机器学习管道。 尽管如此,仍出现了一些特定的工具来简化该过程。
> Screenshot of Weight & Biases interface
DVC,Dolt,Weight and Biases(WANDB)和Dags Hub是一些专用工具,这些工具以可重现的方式使构建模型更简单。 DVC负责模型和数据集的版本控制,而Dolt严格限于数据集本身。 WANDB和Dags Hub则专注于跟踪模型构建/训练的权重和结果。
摘要
机器学习工具已经从仅仅能够利用一些预测库和Jupyter笔记本发生了很大的变化。 如今,进行数据科学需要掌握更广泛的工具集,其中包括云库,工作流工具,解释和版本控制工具。 这种增加的工具应有助于数据科学从其某些研究形象转移到更多的工程或业务功能上。
我提供的有关Hacking Analytics的更多信息:
据路透社消息,英国数字化、文化、媒体和体育大臣道登宣布,英国已决定停止在5G...
5G解锁医疗行业全新解决方案 随着新技术不断提升医疗质量,连接已然成为行业为用...
3月11日晚间消息,有媒体发现,腾讯QQ在微信上的小程序因违规被暂停服务。未使用...
本文转载自微信公众号「网优雇佣军」,作者通信 。转载本文请联系网优雇佣军公众...
手机里的文件和手机下载了app之后,即使卸载,也很容易有垃圾残留,而且占用的空...
在这个世界上,凡是和 AI 聊天机器人打过交道的人,总有那么一刻,会亲口击碎作...
市场研究公司Dell'Oro Group副总裁及分析师Stefan Pongratz在最近的一篇博客文章...
机器算法深度学习在商业领域带来了许多变化。根据定义,它被视为人工智能的子领...
自动驾驶汽车的主要目标,至少是该技术支持者所推崇的目标,并不是为了方便驾驶...
近日,被5G事件沸沸扬扬。在众多用户抱怨运营商为了推广5G套餐,悄然将低价的4G...