当前位置：主页 > 查看内容

CDP企业数据云产品详情

发布时间：2021-07-23 00:00| 有位朋友查看

简介：1.1.???????????产品亮点 1)??? 阿里云支持使得用户在阿里云上使用CDP 获取CDP的功能和性能同时实现最大的选择和灵活性。 2)??? 多功能分析解决最苛刻的业务用例 –跨数据分析生命周期集成大数据管理和分析为大规模地应用实时流处理、数据仓库、数据科学……

1.1.???????????产品亮点

1)??? 阿里云支持使得用户在阿里云上使用CDP 获取CDP的功能和性能同时实现最大的选择和灵活性。

2)??? 多功能分析解决最苛刻的业务用例 –跨数据分析生命周期集成大数据管理和分析为大规模地应用实时流处理、数据仓库、数据科学和迭代机器学习提供跨数据共享可以随时随地的访问数据。

3)??? 安全性和治理通过通用的安全模型来控制任何云公有云、私有云和混合云上的数据简化了各种企业数据的数据隐私和合规性在所有环境中提供安全性、合规性、数据迁移和元数据管理。

4)??? 开放促进开源社区的创新、提供开放存储和计算架构的选择性以及促进广泛的生态系统的信心和灵活性提供开放集成可扩展架构以及对多个数据存储和计算架构开放。?

1.2.???????????产品说明

CDP平台不但提供企业级的安全性和治理能力还同时提供多种分析功能用于数据分析具备在内部和外部部署相同功能的能力支持主要的公有云和私有云环境、使得用户获得弹性的云体验并不再存在数据孤岛和单一供应商锁定的威胁。

CDP不但可以灵活地运行各种企业工作负载例如实时摄取和分析、数据工程、交互式SQL、企业搜索、高级分析和机器学习还满足企业的要求与企业现有的系统进行集成同时提供强大的安全性、数据治理、数据保护和管理能力。CDP是企业数据管理的新兴中心。

CDP是Cloudera公司的最新产品该新产品结合了Cloudera Enterprise Data Hub和Hortonworks Data Platform Enterprise的优点并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可自定义的平台您可以在其中安全地运行多种类型的工作负载。

除了需要企业数据云外企业还希望将这种强大的数据管理基础架构迁移或添加到云中以提高运营效率、降低成本、提供计算和容量灵活性以及速度和敏捷性。

随着组织在云环境中采用基于Hadoop的大数据部署他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是CDP平台的一部分下图展示了CDP平台的功能地图。

CDP支持各种混合解决方案其中计算任务与数据存储分离并且可以从远程集群访问数据。这种混合方法通过管理存储、表Schema、身份验证、授权和治理并为容器化应用程序提供了基础。

CDP包括各种组件例如Apache HDFS、Apache Hive 3、Apache HBase和Apache Impala 以及许多其他用于特殊工作负载的组件。您可以选择这些服务的任意组合来创建满足您的业务需求和工作负载的集群。几个预配置的服务包也可用于常见的工作负载。

Cloudera Manager是用于管理、配置和监控CDP集群和Cloudera Runtime服务的应用程序。

Cloudera Manager服务器在CDP部署中的主机上运行并使用在集群中每个主机上运行的Cloudera Manager代理来管理一个或多个集群。

Cloudera Manager是用于管理集群的端到端应用程序。借助Cloudera Manager 您可以轻松地部署和集中操作完整的Cloudera Runtime堆栈和其他托管服务。该应用程序可自动执行安装和升级过程并为您提供主机和正在运行的服务的整个群集的实时视图。Cloudera Manager管理控制台提供了一个中央控制台您可以在其中对整个集群进行配置更改并结合了各种报告和诊断工具来帮助您优化性能和利用率。Cloudera Manager还管理安全性和加密功能。使用Cloudera Manager管理控制台您可以启动和停止集群以及单个服务、配置和添加新服务、管理安全性以及升级集群。您还可以使用Cloudera Manager API以编程方式执行管理任务。

Cloudera Manager的单个实例可以管理多个集群包括较旧版本的Cloudera Runtime和CDH。

CDP还包括以下工具来管理和保护您的部署

·?????????Cloudera Manager允许您使用Cloudera Manager管理控制台的Web应用程序或Cloudera Manager API管理、监控和配置集群和服务。

·?????????Apache Atlas提供了一组元数据管理和治理服务使您能够管理CDP集群资产。

·?????????Apache Ranger通过用户界面管理访问控制以确保CDP集群中一致的策略管理。

Cloudera Runtime是CDP Private Cloud Base中的核心开源软件发行版。Cloudera Runtime包括大约50个开源项目这些项目构成CDP中数据管理工具的核心分发。

1.2.1.??????CDH用户获得的新功能

1.2.2.??????HDP用户获得的新功能

1.2.3.??????CDP节点类型

Cloudera建议在生产环境中部署CDP多达四种机器类型

·主节点-主要运行Hadoop主守护程序例如NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是Zookeeper和JournalNodes的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers也应该部署在主节点上。生产集群建议打开高可用HA 生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用在后续使用过程中开启高可用功能。Master节点主要用来存储HDFS元数据和组件Log文件属于计算密集型对磁盘IO要求不高。HDFS元数据存储在内存中建议根据文件数量选择32 GB以上内存空间。

·工作节点-主要用来存储数据和执行计算运行HDFS DataNode,、YARN NodeManager、HBase RegionServer、Impala impalad、Search worker daemons 和Kudu Tablet Servers。推荐使用SSD云盘存储数据。

·工具节点-运行Cloudera Manager和Cloudera Management Services。它还可以运行托管的MariaDB 或其他受支持的数据库实例 Cloudera Manager、Hive、Ranger和其他与Hadoop相关的项目将使用该数据库实例。

·边缘节点-包含所有面向客户端的配置和服务包括HDFS、YARN、Impala、Hive和HBase的网关配置。Hue、 Oozie、 HiveServer2和Impala?HAProxy、 HiveServer2 和Impala? HAProxy? server充当通往外部应用程序如商务智能(BI)工具的网关也部署在边缘节点上。边缘节点也称为网关节点。

注意在较小的集群中边缘和工具节点可以合并在一起。

阿里云上的CDP存储目前支持ESSD云盘。底层存储目前支持HDFS和Kudu。HDFS的数据可用性由云盘或本地盘存储的可靠性来保证。

1.2.4.???CDP集群角色分布

没有启用HA的3-10个工作节点角色分配

主节点

工具节点

网关节点

工作节点

主节点1:

NameNode

YARN ResourceManager

JobHistory Server

ZooKeeper

Kudu master

Spark History Server

单一主机用于所有的工具和网关角色:

Secondary NameNode

Cloudera Manager

Cloudera Manager Management Service

Hive Metastore

HiveServer2

Impala Catalog Server

Impala StateStore

Hue

Oozie

Flume

Gateway configuration

HBase backup master

Ranger Admin, Tagsync, Usersync servers

Atlas server

Solr server

Streams Messaging Manager

Streams Replication Manager Service

ZooKeeper

3 - 10 工作节点:

DataNode

NodeManager

Impalad

Kudu tablet server

启用HA的3-20个工作节点角色分配

主节点

工具节点

网关节点

工作节点

主节点1:

NameNode

JournalNode

FailoverController

YARN ResourceManager

ZooKeeper

JobHistory Server

Kudu master

HBase master

Schema Registry

主节点2:

NameNode

JournalNode

FailoverController

YARN ResourceManager

ZooKeeper

Kudu master

HBase master

Schema Registry

主节点3:

Kudu master (Kudu 需要奇数节点来做HA.)

Spark History Server

JournalNode (需要专用磁盘)

ZooKeeper

工具节点1:

Cloudera Manager

Cloudera Manager Management Service

Cruise Control

Hive Metastore

Impala Catalog Server

Impala StateStore

Oozie

Ranger Admin, Tagsync, Usersync servers

Atlas server

Solr server

Streams Messaging Manager

Streams Replication Manager Service

工具节点2:

Ranger Admin server

Atlas server

Solr server

一个或者多个网关节点:

Hue

HiveServer2

Gateway configuration

3 - 20 工作节点:

DataNode

NodeManager

Impalad

Kudu tablet server

Kafka Broker (推荐最少3个brokers)

Kafka Connect

HBase RegionServer

Solr server (对于Cloudera Search, 推荐至少3?台服务器)

Streams Replication Manager Driver

1.3.???????????设置对基于阿里云部署的CDP的访问权限

在阿里云或者内外网环境中 Cloudera的平台产品CDP需要访问很多Web UI 但系统网络可能仅支持SSH访问(22端口)。要访问Cloudera Manager 7180端口或者其他服务可以通过下列两种方式

·?????? 在客户端计算机上设置SOCKS 套接字安全协议代理。Cloudera建议您使用此选项。

·?????? 将CDP/CDP部署到阿里云之后将入站规则添加到阿里云实例中的网络安全组。

1.3.1.?????? 配置SOCKS代理

SOCKS5协议是作为客户端和服务器进程实现的它可以遍历IP网络防火墙。配置SOCKS代理后浏览器使用公有云网络通过代理服务器解析DNS查找并允许您使用内部FQDN或专用IP地址连接到服务。

使用这种方法您可以完成以下任务

设置到网络上主机之一的单个SSH隧道并在主机上创建SOCKS代理。更改浏览器配置以通过SOCKS代理主机执行所有查找。1.3.1.1.???????网络先决条件

在使用SOCKS代理连接到集群之前请验证以下先决条件

您必须能够从公共Internet或您要从其连接的网络中访问要代理的主机。您要代理的主机必须与您要连接的Cloudera服务位于同一网络上。例如如果您使用的是Cloudera CDP产品请通过SSH隧道连接到Cloudera Manager主机。1.3.2.?????? 启动SOCKS代理1.3.2.1.?????????????Linux

要通过SSH启动SOCKS代理请运行以下命令

ssh -i your-key-file.pem -CND 1080

the_username_you_specified publicIP_of_VM

该命令使用以下参数

-i your-key-file.pem指定SSH到Cloudera CDP/EDH服务器所需的私钥的路径。如果使用SSH密码则省略。C 设置压缩。N 建立后禁止执行任何命令。D 在端口上设置SOCKS代理。1080 用于在本地设置SOCKS代理的端口。1.3.2.2.?????????????Windows

按照Microsoft网站上的说明进行操作。

1.3.3.?????? 配置Google Chrome浏览器以使用代理

默认情况下 Chrome浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动Chrome 请通过命令行打开Chrome并指定以下内容

SOCKS代理端口。该端口必须与启动代理时使用的端口相同。配置文件。下面的示例创建了一个新的配置文件。

使用以下命令之一创建配置文件并启动与当前任何正在运行的Chrome实例不冲突的Chrome的新实例。

1.3.3.1.?????????????Linux

/usr/bin/google-chrome \

--user-data-dir $HOME/chrome-with-proxy \

--proxy-server socks5://localhost:1080

1.3.3.2.?????????????Mac OS X

/Applications/Google Chrome.app/Contents/MacOS/Google Chrome \

--user-data-dir $HOME/chrome-with-proxy \

--proxy-server socks5://localhost:1080

1.3.3.3.?????????????微软Windows

C:\Program Files (x86)\Google\Chrome\Application\chrome.exe ^

--user-data-dir %USERPROFILE%\chrome-with-proxy ^

--proxy-server socks5://localhost:1080

在此Chrome会话中您可以使用私有IP地址或内部FQDN连接到Cloudera CDP可访问的任何主机。

这样就可以通过内网访问Cloudera Manager和其他Web UI了

也可以通过CM中的web UI跳转直接跳转过去。

1.3.4.??? 网络安全组

警告除概念验证以外不建议将此方法用于任何其他目的。如果没有仔细锁定数据那么黑客和恶意实体将可以访问这些数据。

1.4.???????????用例场景

CDP提供全球首个企业数据云的愿景和战略使我们的客户能够管理从Edge到AI的整个数据生命周期。

通过对用户的数据分析使用场景进行分析发现所有的数据分析都可以归纳为这样六个步骤六个步骤为

1)?????????数据收集–边缘端的数据摄取和监控边缘端可能是工业传感器也可能是实体零售店中的人员或者终端服务器等

2)?????????数据丰富–能实现处理、聚合和管理的数据管道准备数据以进行进一步完善

3)?????????报告–提供企业的业务见解例如销售分析和预测、市场研究、预算编制

4)?????????服务–控制和运行基本的业务操作例如 ATM交易、零售结帐或生产监控

5)?????????预测分析–基于AI和机器学习的预测分析例如欺诈检测、预测性维护、基于需求的库存优化为例

6)?????????安全与治理–在整个数据生命周期中的一组集成的安全、管理和治理技术

通过这六个步骤能够管理从Edge到AI的整个数据生命周期使得企业能够在同一个平台上进行整个数据生命周期的分析避免产生各种数据孤岛减少了数据在不同平台之间的移动时间从而加速用户的业务实现。

企业里面有各种各样的数据包括实时数据和非实时交易数据包括结构化数据、半结构化数据和非结构化数据、以及外部数据等等这些数据通过企业数据云提供的完整的数据分析生命周期能力进行数据收集、数据加工、然后提供各种各样数据的使用包括分析报表、数据服务和机器学习通过企业数据云的支持企业就可以在上面去构建各种各样的用例在制造业中例如预测性维护、供应链优化、全面优化等在金融业有客户画像、风控等在零售业有交叉营销、客户推荐等用例。

1.4.1.??????现代数据仓库

构建现代化数据仓库来替代传统数据仓库以解决企业对数据来源、数据量及数据服务时效的需求使得现代化数据仓库可以使用强大的自助服务工具来为数千名BI分析用户提供支持同时系统提供快速和大规模的向导和自动化管理工具并且存储所有的数据包括各种类型和数据量的数据。

1.4.2.?????? 流式消息处理

Apache Kafka是一个高性能、高可用性的冗余流消息平台可以替代更传统的消息代理。消息代理的使用有多种原因将数据生成和处理分离缓冲未处理的消息等。与大多数消息传递系统相比 Kafka具有更好的吞吐量、内置分区、复制和容错功能这使其成为大规模消息处理应用程序的理想解决方案。

在CDP中提供了Kafka及其周边的小伙伴来使得Kafka更易用更好用。

该图是一种简化的动态数据参考架构在边缘端显示为Apache MiNiFi 它从移动资产中提取了机器生成的数据。Apache NiFi收集数据并转换、解析和过滤到Kafka的主题以便Apache Flink/Spark Streaming等流处理引擎和其他应用程序可以快速构建和运行分析。

1)?????????使用CDP7.1 您将获得最新的Kafka服务。

2)?????????Kafka Connect支持可用于增强与HDFS、S3和Kafka Streams的连接。可以直接将Kafka的数据写入到对应的存储中。

3)?????????Schema Registry将在整个Kafka集群中存储和访问您的Schema。它与Apache Ranger集成来支持对Schema Registry的访问控制。

4)?????????Stream Replication Manager可实现业务连续性该业务连续性支持您的Kafka群集的复制以实现灾难恢复和高可用性需求。

5)?????????Cruise Control支持提供基于API的工具以监视和协助Kafka集群和主题的重新平衡和扩展。

6)?????????Streams Messaging Manager用于监控和管理发布者、代理、使用者和主题。

1.4.3.??????运营数据库

Cloudera运营数据库提供了实时的、始终可用的、可扩展的运营数据库该数据库在统一的运营和仓储平台中为传统结构化数据和非结构化数据提供服务。运营数据库由Apache HBase和Apache Phoenix提供支持。

1.4.4.??????准实时分析

准实时分析需要对变化中的数据提供快速分析能力包括结合历史数据和实时流数据进行汇总分析、预测和明细查询。

准实时分析的典型场景需要同时支持顺序和随机读写的应用场景包括

·?????????在线交互式BI分析/决策辅助

o 场景举例:? 贷后风险实时监测实时资产偏好视图历史风险偏好趋势市场监测

o 应用类型: 需要准实时的同步插入/修改同时汇总分析和单条查询

·?????????时间序列数据

o 场景举例:? 股市行情数据; 欺诈检测和预防; 风险监控线上实时反欺诈

o 应用类型:需要实时捕获流数据同时结合已有的T 1数据进行汇总、分析和计算

·?????????机器日志数据分析

o 场景举例: 台机监控、故障预警

o 应用类型:需要过滤大量流数据同时结合已有的T 1数据进行汇总、分析和计算

在CDP平台上通过使用Kudu Impala的架构来提供准实时数据分析这里只使用一套系统不再需要后台定时的批处理任务来同步数据可以轻松应对数据延迟和数据修复工作新数据可以立即用于分析和业务运营。

1.4.5.??????多租户和虚拟专用集群

虚拟专用集群使用Cloudera共享数据体验 SDX 来简化内部部署和基于云的应用程序的部署并使在不同集群中运行的工作负载能够安全灵活地共享数据。

借助虚拟专用集群和SDX框架 Cloudera Manager中提供了一种称为计算集群的新型集群。?Compute集群运行诸如Hive Execution Service、Spark或YARN之类的计算服务但是您可以配置这些服务以访问托管在另一个称为Base集群的常规群集中的数据。使用此体系结构您可以通过多种方式分离计算和存储资源以灵活地最大化资源。

本文转自网络，原文链接：https://developer.aliyun.com/article/785699
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：案例酷 | 鲁商集团携手阿里云实现新零售数字化转型 下一篇：数智洞察 | 数字新基建推动消费升级和产业升级

随机推荐

Docker生成新镜像版本的两种方式

Docker生成新镜像版本的两种方式 There are two ways Docker can generate new m...
步骤一：基础配置_弹性云服务器 ECS_快速

前提条件请您在购买前确保已完成注册和充值。详细操作请参见如何注册公有云管...
就凭这3点，可以完全理解Python的类方法

在Python语言中有如下3种方法：成员方法类方法(classmethod) 静态方法(staticm...
数据为先，“1+N”模式推动智慧教育创新

信息化2.0时代提出开展智慧教育创新发展行动。2019年2月，中共中央、国务院印发...
高并发服务遇redis瓶颈引发time-wait事故

摘要元旦期间订单业务线告知推送系统无法正常收发消息，作为推送系统维护者...
建站什么虚拟主机够用

建站什么虚拟主机够用？这要看搭建的是什么类型的网站。比如个人博客类型的网...
用于数据可视化的9款主流分析工具！

【51CTO.com快译】数据可视化工具不断发展，提供更强大的功能，同时改善可访问...
关于 Node.js 中的异步迭代器

从 10.0.0 版开始，异步迭代器就出现在 Node 中了，在本文中，我们将讨论异步迭...
实时数仓入门训练营：Hologres 数据导入/

本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接: https:/...
星环科技TDS 为数据全生命周期管理提供一

2021年3月24日，主题为《数据的世界，世界的数据》的星环科技2021春季新品发布会...

CDP企业数据云产品详情

推荐图文

阿里云CDN/DCDN加速安全助力企业出海，原生防护延伸

数据科学50年，数据科学家是否依然是21世纪最性感的

详解LongAdder实现原理

新疆喀什疫情｜疫情之下：大数据的洞察力

2021 的 Node.js 开发人员路线图

达摩院重要科技突破！空天数据库引擎Ganos解读

随机推荐

Docker生成新镜像版本的两种方式

步骤一：基础配置_弹性云服务器 ECS_快速

就凭这3点，可以完全理解Python的类方法

数据为先，“1+N”模式推动智慧教育创新

高并发服务遇redis瓶颈引发time-wait事故

建站什么虚拟主机够用

用于数据可视化的9款主流分析工具！

关于 Node.js 中的异步迭代器

实时数仓入门训练营：Hologres 数据导入/

星环科技TDS 为数据全生命周期管理提供一

关于我们