当前位置：主页 > 查看内容

数据湖大数据处理之Lambda架构

发布时间：2021-05-17 00:00| 有位朋友查看

简介：一、简介一 DataStax公司 DataStax?公司长久以来被人们认为是Apache Cassandra的商业公司在C*项目的早期 DataStax公司贡献了85%以上的代码 DataStax也是近年代码的主要贡献者占比在40-50%左右。最近几年 DataStax专注于把 Cassandra数据库做成云原生的数……

一、简介

一 DataStax公司

DataStax?公司长久以来被人们认为是Apache Cassandra的商业公司在C*项目的早期 DataStax公司贡献了85%以上的代码 DataStax也是近年代码的主要贡献者占比在40-50%左右。

最近几年 DataStax专注于把 Cassandra数据库做成云原生的数据服务平台简称C*-as-a-service。DataStax还推出了很多产品来帮助 Cassandra社区程序员开发如开源的数据API网关。

二、大数据数据湖和Lambda架构简介

一大数据

图片 1.png

如上所示近年来大数据的特性主要可以总结为5V 5V特性如下。

l?5V定义/特性

1 体量/规模(volume)

Zetabyte (1021) era

2 速度(velocity)

物联网移动程序社交软件流处理。

3 多样性(variety)

结构化半结构化无结构

4 准确性(veracity)

5 价值(value)

近些年来一个比较通用的对大数据特性的一个定位体现在5个v上这代表是5个英文单词的首字母都是V字母v比如说体量和规模是volume velocity variety veracity value。

二数据湖

l??所有企业数据的集合

1 数据源和格式的多样性

数据的原始格式

2 海量数据

量大生成速度快

l??企业数据湖架构

1 大数据获取、处理、存储和使用的框架

2 大数据技术水平扩展和高弹性

数据湖可以从两个层面去理解。第一个是较静态的含义指一个企业所有数据的集合它反映了大数据的每个方面数据来源的多样性数据格式的多样性巨大的数据体量以及数据快速生成等这些都是大数据的典型特性。

更重要的一点是它指一个比较动态的从端到端的数据处理框架从原始数据开始然后到基本的数据处理然后把它存储到企业的中心的数据库里面接着做进一步的分析处理产生商业决策的信息进而让下游系统利用数据可视化的商业智能数据科学人工智能等。

所以从整个数据的生成到最后数据被系统利用起来整个数据处理环节可以认为是一个企业数据库很关键的组成部分。

l??快数据

1 大数据不仅仅“大” 而且“快”

2 GB/秒或TB/秒

3 “新鲜”数据挖掘

批处理模式没法满足要求

近年来当人们讨论大数据的时候经常把重点放在“快”。这个“快”不仅意味着数据是以很快的速度生成更多意义着整个数据的处理、分析、提取然后最后到生成数据决策信息整个过程是近乎实时的。

三 Lambda架构

l??批处理层

1 主数据管理 Single source of Truth

原始数据 raw data

不可更改的 immutable

追加更新 append only

数据准确 externally true

2 批处理视图预处理

预处理策略

l??速处理层

1 处理新添加的数据

2 弥补批处理视图和新加数据之间的差距

l??服务层

低延迟数据查询

高容错性硬件问题人为失误

低延迟读和写 OLTP and OLAP

线性拓展

易延展性

Lambda架构是较为通用且结构较好的架构它主要有三层。

第一个是批处理层它和传统数据仓库的批处理概念基本一致。

第二个是速处理层许多平台所面临的问题是对实时数据的处理分析和挖掘它的缺点是无法像批处理层一样处理大量历史数据所以它更侧重于分析利用传统批处理层的方式去处理历史数据。

第三个是服务层它包括了很多不同的数据视图这些数据视图可以从批处理层来也可以从实时处理层来。这些这些数据视图主要是能帮助我们在企业的数据库的分布式企业数据库、环境里面解决高容错性问题解决低延迟读写的问题以及帮助企业数据库架构进行线性扩展。而且当有新的技术或服务出现时可以很容易融入到现有的Lambda架构中。

三、Apach Cassandra Spark and Pulsar的Lambda实现

一 Apach Cassandra

l?分布式非主从结构、宽列开源NoSQL数据库

l?无缝多数据中心数据复制

l?线性扩展

l?强容错、零宕机

l?可调数据一致性控制高性能读写

l?云原生混合云多云

Cassandra数据库是分布式非主从结构的宽列NoSQL数据库因为它没有主从结构扩展性非常好基本上是线性的扩展而且每个数据会有多个副本。这意味着即便是有一个服务器宕机了还有别的数据副本来满足用户的查询要求容错率高。

二 Apach Spark

Apache Spark是用于大规模数据处理的统一分析引擎它有以下特性

1 高性能

100X Hadoop MapReduce

2 易用丰富的API和程序库

结构化半结构化无结构化数据

3 统一的多用途数据分析处理引擎

流数据处理

机器学习

图数据库

SQL

三 Apach Kafka or Pulsar

l??大规模、分布式消息/流数据处理平台

l??分开的计算层和数据存储层

更好的系统扩展和负载均衡

l??无缝跨数据中心数据复制

l??灵活的消息处理模式

发布/订阅

消息队列

混合模式

l??内置多租客系统支持

l??高性能低延迟

目前最流行的流数据平台是Kafka 最近几年Pulsar也受到越来越多的关注。从流消息处理角度来看 Kafka和Pulsar非常相似都是大规模分布式消息处理流数据平台 Pulsar的优点在于它的计算层和存储层是分开的 Kafka这两个是在一起的。

分开计算层和存储带来的优点显而易见首先是系统的扩容性比较好可以分开的扩容计算层和存储层。其次是计算是无状态的所以说当扩容计算层的时候它对系统的影响非常小而且扩容速度极快。

四 Lambda架构-Apach Cassandra Spark and Pulsar

上图是用Apach Cassandra Spark and Pulsar三种技术实现Lambda的架构图。

首先在批处理层我们用 Cassandra数据库作为原始数据的主数据库然后在速处理层我们用Pulsar来实时接受原数据的原数据流在批处理层我们有定时的Spark Job 然后Spark Job从原始数据数据库里面读取数据进行分析和处理接着把生成的数据放到服务层的数据库中。那么生成的服务层数据库就代表批处理数据视图根据不同的需求可以生成不同的批处理视图用同样的Spark Job来实现。

五 Lambda架构技术栈和实现平台

l??技术栈全部开源

1 Apache Cassandra

-??数据建模和CQL

-??客户端编程接口

-??编程语言 Java

2 Apache Spark

-??DataStax Spark-Cassandra连接器

-??SparkSQL

-??DataFrame

-??编程语言 Scala

3 Apache Pulsar

-??生产者和消费者客户端编程接口

-??Pulsar函数

-??DataStax Pulsar-Cassandra联结器

4 其他

-??DataStax dsbulk数据加载器

l??实现平台

1 DataStax Enterprise DSE

-??单集群双数据中心部署模式

1 DSE Core/Cassandra

1 DSE Analytics/Spark

2 Apache Pulsar

-??单集群部署模式

3 DataStax Studio

-??CQL SparkSQL笔记本

六演示程序-应用场景示例

l??极简化的石油钻头探测器时序数据模拟

1 每个钻探地点有多个钻探头

2 每个钻探头有两种传感器温度和速度

3 每个传感器每隔一段时间 1秒/1分钟采集一次数据

l??需要回答的商业问题示例

1)??监控每个钻头的健康状况防止过热/过速

2)??批处理视图

-??记录每个钻头每日的平均温度和转速

-??每天一次批处理

3)??速处理视图

-??记录一天之内出现钻头过热和过速的情况

-??实时处理

这个事例程序的应用场景是一个非常简单的石油钻头的探测器时序的数据模拟上图是实际数据中包含的一些数据内容包括钻头的ID 传感器的ID 传感器的类型以及传感器的读取时间和传感器的读取值等。

在这个场景每个钻探地点可能会有多个站头每个钻头有两种传感器一种监测温度一种监测速度每隔一段时间传感器就会收集一次数据然后把它发送到Lambda平台。从而监控每个钻头健康状况防止过热和过速。

从批处理视图来看需要记录每个钻头每日的平均温度和转速每日处理一次。从速处理视图来看记录最近一天之内出现的钻头过热和过速的情况是实时处理的。

??演示示例子部件

负载生成器负责生成这些生成一个大量的模拟数据的

负载加载器把这些生成的原始数据加载到原始数据库里面

这里主要有三个空间第一个是对应于原始数据的主数据库表Master 然后还有一个对应批数据视图数据库表的Batchview 速处理层对应是Realtimeview。

数据处理流程情况

l??第一步预处理

1 创建C*键空间和表 C* CQL

2 生成模拟的工作负载文件负载生成器

l??第二步数据加载

1 批处理层将源数据加载到原始数据主数据库中负载加载器

2 速处理层将源数据以消息的方式实施发送到Pulsar主题中 Pulsar消息发布器

l??第三步数据处理视图数据生成

1 批处理层每日源数据批处理写入批处理视图每日Spark汇总程序

2 速处理层当日源数据实时处理写入速处理视图 Pulsar函数 Pulsar C*连接器

l??第四步数据分析

Spark SQL

四、演示

DataStax Studio

Cassandra数据库的信息第一步先确保这些键空间删掉了以后这里并没有需要的键空间然后创建一些新的键空间和表。

生成一个模拟数据 CSV文件文件生成好了以后让负载加载器将数据加载进来。

速处理层视图里面只能看到一些最近的数据旧的数据已经被Function函数自动过滤掉了。

第二部分云Cassandra ?云DLA Spark构建轻量化数据湖解决方案演示

第一个需要开通对象存储oss 这是因为DLA Spark的jar包需要存储在oss上。

第二步需要有一个自己的云数据库Cassandra实例。

第三步获取你Cassandra的私网连接点 CQL端口、数据库、用户名、数据库、密码这些信息会被用到来连接Cassandra实例。

实例信息查找

进入控制台查看

第四步需要创建一个数据表并且插入一些数据待会用来验证Spark可以正确地连接到这张数据表里面读取数据。

最后一步需要为DLA准备访问Cassandra实例所需要的安全组ID和交换机ID 主要是作用于DLA spark的这些Cassandra实例这些实例它需要挂载虚拟网卡才可以访问Cassandra。

交换机ID 可使用VSwith ID。

安全组ID 可使用VPC ID进入专有网络ID 查询已有安全组出方向

主要依赖是Cassandra connector 2.4.2版本

代码需要刚才准备好的那些连接Cassandra实例的信息私网连接点 CQL端口用户名密码以及表所在的表名。

总结

第一步:开通oss存储把jar包上传到oss上

第二步:要拥有一个Cassandra实例

第三步:从 Cassandra的控制台去获取连接Cassandra所需要的信息比如它的用户名密码以及它连接的一些信息

第四步:准备一张测试的表用于DLA Spark连接Cassandra的测试

第五步:网络打通所需要的两个关键点准备一个安全组ID和交换机ID用于创建Spark的虚拟网卡。

本文转自网络，原文链接：https://developer.aliyun.com/article/784097
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：面向应用的反范式化建模 下一篇：发生了这种情况，数据还有救吗？

随机推荐

懂了数据结构框架思维，一切算法不过是纸

一、数据结构的存储方式数据结构的存储方式只有两种：数组(顺序存储)和链表(链...
Linux服务器登录方式概述_裸金属服务器 B

根据裸金属服务器的网络设置，以及您本地设备的操作系统，您可以选择合适的方法...
如何设置裸金属服务器的静态主机名？_裸

问题描述 Linux裸金属服务器的静态主机名来源于创建裸金属服务器时，通过控制台...
隐藏的OAuth攻击向量

基本介绍过去十年来，OAuth2授权协议备受争议，您可能已经听说过很多return_uri...
还在用Excel+ppt做数据分析报告？用这个

无论是专业的数据分析师还是销售、人力等基本的业务岗位，在汇报时总是免不了要...
2021年值得关注的8种边缘计算趋势

边缘计算的下一步是什么，它将如何影响您的战略?专家权衡边缘趋势并讨论工作负载...
阿里巴巴食堂给程序员准备的年夜饭，看完

阿里巴巴程序员的速度论技术水平没得说论干饭能力也是惊人阿里人1年吃掉495...
云岫行业研究-基于云原生时代的身份安全

云岫资本企服组 2021 年 3 月【前言】随着业务上云、生态协作、多云混合等场景...
品相极佳的“929.gg”被竞拍者以1.3万拿

TOP云 1月11日讯，纵观上周西数平台的交易纪录，在一口价前三和竞拍价前三的榜单...
jmeter压测过程中，TIME_WAIT很多导致请

背景介绍 ? ? ? ? 为了摸底项目的性能，需要进行性能测试。经过一番调研之后，决...

数据湖大数据处理之Lambda架构

推荐图文

加密货币如何从大数据分析中受益

2021年的7个企业云战略趋势

重磅！15个大数据、人工智能和区块链重大项目在静安

支持列表和使用限制_裸金属服务器 BMS_产品介绍

为什么需要集成数据生命周期解决方案

科普 | 说说大数据是什么，及其特点与应用

随机推荐

懂了数据结构框架思维，一切算法不过是纸

Linux服务器登录方式概述_裸金属服务器 B

如何设置裸金属服务器的静态主机名？_裸

隐藏的OAuth攻击向量

还在用Excel+ppt做数据分析报告？用这个

2021年值得关注的8种边缘计算趋势

阿里巴巴食堂给程序员准备的年夜饭，看完

云岫行业研究-基于云原生时代的身份安全

品相极佳的“929.gg”被竞拍者以1.3万拿

jmeter压测过程中，TIME_WAIT很多导致请

关于我们