数据湖不仅用于“大数据”,而且组织比以往拥有更多的机会将它们纳入数据堆栈。
行业专家最近写了一篇文章,揭露了关于数据湖架构、数据湖定义和数据湖分析的常见误区。其文章名为“什么是数据湖?需要来避免最大的迷思。”在那篇文章中,构建了有关数据湖及其在企业数据策略中的适用范围的当前对话。对于那些希望从数据湖中获取价值的人来说,由于顾问和供应商的建议相互矛盾,这个主题历来是令人困惑和不透明的。
一个可能特别令人困惑的领域是人们认为数据湖仅用于“大数据”。如果花时间阅读湖泊上的资料,就会认为只有一种类型。人们将数据湖描述为庞大的、无所不包的实体,旨在容纳所有知识。好消息是,湖泊不仅仅用于“大数据”,而且比以往任何时候都有更多的机会将其纳入数据堆栈。
不同类型的数据湖
就像大自然一样,湖泊具有各种不同的形状和大小。每个都有自然状态,通常反映数据生态系统,就像自然界中反映鱼类,鸟类或其他生物的生态系统一样。
不幸的是,“大数据”角度给人们的印象是湖泊仅用于“里海”规模的数据工作。这无疑使使用数据湖变得令人生畏。因此,以如此大的角度来描述事物使得那些可以从中受益的人们无法接近湖泊的概念。这里有一些数据湖的例子。
最近,与客户合作创建了“域”型湖泊。该湖会将Adobe事件数据保存到AWS,以支持企业Oracle Cloud环境。为什么选择AWS to Oracle?对于客户的OracleBI环境,这是一种高效且具有成本效益的数据消耗模式,尤其是考虑到使用AWS Lake和Athena作为湖内容的按需查询服务的敏捷性和经济性。
通过设计,所有类型的湖泊都应采用抽象技术,以最大程度地降低风险并为您提供更大的灵活性。而且,它们的结构应易于使用,而与大小无关。这确保了数据科学家,业务用户或分析师所使用的湖泊都具有易于数据使用的结构化环境。
数据湖入门
成为成功的早期采用者意味着采取业务价值方法而不是技术方法。当组织考虑如何入门时,这里有一些提示:
关注业务价值而不是技术,可以为组织提供一个在整体数据和分析策略的框架内进行工作的机会。这样可以提高速度,并帮助组织实现数据湖目标并衡量业务绩效的进度。这也导致了完善的共享术语、最佳实践以及对建立更好平台的投资。
文章已收录Github精选,欢迎Star: https://github.com/yehongzhi/learningSumma...
3月8日消息,据外媒报道,物联网研究机构IoTAnalytics称,三分之一的制造商正计...
1.现在赶作业是一种时尚,所以我很赶得上潮流。 2.我房间里堆满了情人节卡片,...
如果当前云服务器系统盘容量不能满足您的存储需要,您可以在购买了云服务器之后...
A公司在华为云中购买了多种资源,公司中有多个职能团队,这些职能团队需要使用一...
域名 过期多少天可以注册?域名过期大概60天以后会被注册局删除,删除之后就可以...
1.话费没了,流量没了,短信没了,寒假没了,作业还有。 2.别紧张,我又不是什么...
目标 在仿真理论中,生成随机变量是最重要的构建块之一,而这些随机变量大多是由...
2020年注定是个不平凡的一年,新冠肺炎疫情全球蔓延,对全球经济发展、科技进步...
公司网站 域名 空间多少钱?公司搭 建网站 缺少不了域名和空间,具体需要多少钱...