现在企业都拥有海量数据。就在十年前,千兆字节的数据似乎还很庞大。而如今,有些大型企业已经在管理泽字节数据。为了让你了解这种数据规模,我们打个比方,如果你的笔记本电脑或台式机装有1 TB硬盘驱动器,则泽字节相当于10亿个这样的硬盘驱动器。
企业如何从如此多的数据中挖掘商业价值呢?他们需要能够分析这些数据,这就像在大海捞针。而这正是数据科学、机器学习和AI发挥作用的地方,但你并不需要泽字节规模的数据来使这三项技术具有相关性。
对于各种行业中各种类型和规模的企业,这三项技术都是关键技术主题。但是,对于数据科学、机器学习、人工智能以及它们各自涉及的内容,人们仍然经常感到困惑。你需要了解这些变革性概念的性质和目的,以帮助你学习如何最好地利用它们以满足紧迫的业务需求。
下面让我们看看这些技术,了解它们之间的差异以及如何让它们协同工作。
数据科学
虽然从数据出现以来,数据就是计算的核心,但在数据出现的几十年后,才出现专门处理数据分析的单独领域。数据科学专注于统计方法、科学方法和高级分析技术–而不是数据管理的技术方面,这些技术将数据视为离散资源,而不管其存储或操作方式如何。
在其核心,数据科学旨在从数据中提取有用的见解,基于企业高管和其他潜在用户的特定要求。客户想要购买什么?企业的特定产品或在某个地理区域的情况如何?COVID-19疫情是否正在缩减或增加资源?这些是可以通过数据科学回答的问题,其中利用数学、统计和数据分析。
传统上来看,企业依靠商业智能系统从不断增长的数据池中获得见解。但是,BI系统部分依靠人类来发现电子表格、仪表板、图表或图形中的趋势。他们也受到大数据4个属性的挑战:数量、速度、多样性和准确性。随着企业存储越来越多的数据,以更快的速度从各种各样的数据源中收集数据,以不同的格式和不同的数据质量级别,BI的常规数据仓库和业务分析方法已经不够用。
相比之下,亚马逊、谷歌、Netflix和Spotify等领先公司的经验表明,应用数据科学的基本方面可以帮助发现更深刻的见解,从而提供比商业竞争对手更大的竞争优势。他们和其他组织(银行和保险公司、零售商、制造商等)都在利用数据科学来发现数据集的模式、识别潜在的异常交易、发现错失客户的机会,并创建未来行为和事件的预测模型。
同样,医疗保健提供者依靠数据科学来帮助诊断医疗状况,并改善患者护理,而政府机构则将其用于提早通知可能危及生命的情况,以及确保关键系统和基础设施的安全性等。
数据科学工作主要由数据科学家完成。尽管对其工作描述尚未达成共识,但下面是有效的数据科学家必须具备的最低技能:
作为数据科学团队的一部分,数据科学家经常与数据工程师合作,以从多个源系统中收集和整理数据;数据科学家还需要与业务分析师合作,以了解不断发展的业务需求,以及数据分析师,以了解不断变化的数据集特性,还有开发人员–他们可以帮助将由数据科学应用程序生成的分析模型投入生产环境。
现在企业越来越多地要求这些模型做更多的事情,而不仅仅是提供对当前数据状态的见解的快照。数据科学家可以训练算法来学习样本数据的模式、相关性和其他特征,然后分析他们从未见过的完整数据集。通过这种方式,数据科学推动人工智能的发展,特别是通过使用机器学习来支持AI的目标。
机器学习
智能的标志之一是从经验中学习的能力。如果机器可以识别数据中的模式,则它们可以使用这些模式来对新数据生成见解或预测。这是机器学习背后的基本概念。
机器学习依赖于算法,这些算法可以将从良好数据示例中学习编码为模型。这些模型可用于广泛的应用程序,例如将数据分类(“此图像是猫吗?”),根据给定的先前识别模式预测某些数据的值(“此交易是欺诈的概率是多少? ?”),以及标识数据集中的组(“我还可以向购买该产品的人推荐其他哪些产品?”)。
机器学习的核心概念体现在分类、回归和聚类中。现在已经创建各种各样的机器学习算法,可跨不同的数据集执行任务。可用的算法包括决策树、支持向量机、K均值聚类、K最近邻、朴素贝叶斯分类器、随机森林、高斯混合模型、线性回归、逻辑回归、主成分分析等。数据科学家通常会构建和运行算法;现在,有些数据科学团队还包括机器学习工程师,他们可以帮助编码和部署结果模型。
机器学习过程涉及不同类型的学习,其中数据科学家和分析师的指导水平各不相同。主要的替代方法是:
现在没有哪种算法方法能像人工神经网络那样让人感到兴奋和充满希望。就像生物系统一样,神经网络包含神经元,这些神经元可以获取输入数据,对输入施加权重和偏差调整,然后将结果输出馈送到其他神经元。通过这些神经元之间一系列复杂的互连和相互作用,随着时间的推移,神经网络可以学习如何调整权重和偏差,以提供所需结果。
在1950年代还是感知器算法中的单层神经元,现在已经发展成为一种更为复杂的方法,称为深度学习,该方法使用多层来产生细微而复杂的结果。这些多层神经网络已经显示出强大功能,可从大型数据集中学习并支持面部识别、多语言对话系统、自动驾驶汽车和高级预测分析等。
在数据密集型公司(例如Google、Netflix、亚马逊、微软和IBM)的大力推动下,曾经看起来像是一种假设的研究迅速成为可能现实,并在2000年代初开始发展。大数据的可用性、数据科学的能力和机器学习的力量,不仅为面临挑战的当今企业提供了答案,而且还可以帮助克服长期挑战,使AI照进现实。
人工智能
人工智能是比计算本身更古老的想法:是否有可能创造出具有人类认知能力的机器?人工智能的想法最早出现在在20世纪中叶,长期以来,这个想法激励着学者、研究人员和科幻小说作家。在1950年,计算机先驱和著名的代码破解者Alan Turing提出机器智能的基本测试,该测试被称为图灵测试。人工智能一词是在1956年在达特茅斯举行的AI会议上提出。
AI仍然是一个梦想,几十年前很多人所设想人工智能仍然没有实现。具有完全认知和智力能力的机器的概念被称为人工智能(AGI)或通用AI。目前还没有人建立这样的系统,如果可行的话,AGI的开发可能还需要数十年的时间。
但是,我们已经能够解决弱AI任务。我的研究公司Cognilytica已经定义七种AI模式,这些模式专注于感知、预测或规划的特定需求。
例如,它们包括训练机器:
这些用例都提供重要功能和价值,尽管没有解决AGI的总体目标。机器学习的发展直接带来这些弱AI应用程序的发展。而且由于数据科学使机器学习变得切实可行,因此它也使机器学习成为现实。
数据科学、机器学习和AI之间的差异
尽管数据科学、机器学习和AI很相似,并可在分析应用程序和其他用例中互相支持,但它们的概念、目标和方法却有很大不同。为了进一步区分它们,请考虑下列关键属性。
数据科学:
机器学习:
人工智能:
数据科学、机器学习和AI如何结合
数据科学本身的力量很巨大,当与机器学习相结合,可提供更大的潜在价值,从不断增长的数据池中获得洞察力。当这二者结合使用时,还可以驱动各种弱AI应用程序,并最终可能解决通用AI的挑战。
更具体地说,下面是企业如何结合数据科学、机器学习和AI以产生有效效果的示例:
数据科学、机器学习和AI是独立的概念,它们各自提供强大的功能,而这三者相结合正在改变我们管理企业和业务运营的方式-以及我们如何生活、工作以及与周围世界交互。
Topic Topic是一类消息的集合,是一种逻辑上的分区。为什么说是逻辑分区呢?因为...
转载自 https://github.com/maemual/raft-zh_cn/blob/master/raft-zh_cn.md 1 介...
本文转载自微信公众号「HelloGitHub」,作者HelloGitHub。转载本文请联系HelloGi...
XSS 攻击 xxs 攻击英文全称是 Croess SiteScripting ,意思就是跨站脚本攻击。是...
1.考历史的时候,我莫名的有一种沉重感,因为我就要改变历史了。 2.女人是书,...
云服务器是否有图形界面? CentOS 6系列弹性云服务器如何安装图形化界面? CentO...
TOP云 (west.cn)3月2日消息,昨天早上sedo平台经纪人Frank Tillmanns在脸书上...
本文转载自微信公众号「五分钟学大数据」,作者园陌 。转载本文请联系五分钟学大...
分布式应用运行时Dapr目前已经发布了1.1.0版本,阿里云也在积极地为Dapr贡献代码...
本文转载自微信公众号「菜鸟飞呀飞」,作者刘进坤。转载本文请联系菜鸟飞呀飞公...