前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云大数据技术介绍-实时并行处理数据

腾讯云大数据技术介绍-实时并行处理数据

原创
作者头像
jerryteng
发布2021-10-11 17:43:33
6.4K1
发布2021-10-11 17:43:33
举报
文章被收录于专栏:jerryteng的专栏jerryteng的专栏

大数据实时并行处理

上面我们讲了 大数据的数据查询方法 ,使用Hive或者 Impala,但是这些只能查询固定历史的数据,如果要实时计算可能就不是那么合适了。

那如何进行实时并行处理数据呢?

这就是我们今天要说的技术点:

Step 5:有了计算能力之后,如何进行高并发的实时计算?

? ? ? 我们现在有了强大的以mapReduce为基础的海量数据计算能力,但是spark这种计算引擎通常都是适用于计算某天某月的批量数据,那每分每秒都需要计算的数据怎么办呢?也就是如何在高实时性要求的场景下如何进行计算呢?这个时候流式计算的概念就出来了,我们把实时数据看成数据流(stream),并按照一定的时间维度对数据流进行分割,并对每一部分的数据进行MapReduce的计算。例如现在某电视剧在多个平台上线,需要统计该电视剧实时的播放量,因此需要聚合多个来源的数据。

? ? ? 这个时候就可以用到例如Flink,Spark Streaming这种流式计算引擎,你可以设置一秒钟为一个分割维度,每次用MapReduce统计这一秒钟的数据,并存储起来或者直接发到前端图表去展示。流式计算引擎擅长的就是这个,你当然也可以用Hadoop,Spark去做这件事情,但是你需要自己设置分割维度,并在资源分配等问题上做设计,而这些问题Flink都帮你解决了。

1. Flink

1)简介

Apache?Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。

Flink能够分布式运行在上千个节点上,将一个大型计算任务的流程拆解成小的计算过程,然后将tesk分布到并行节点上进行处理,在执行任务过程中,能够自动发现事件处理过程中的错误而导致数据不一致的问题。

最后附一张大数据图谱:

大数据图谱
大数据图谱

讲到这里大数据的介绍部分也基本说清楚了。

腾讯云这里也有一个大杀器:

腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。您可以借助 TBDS 在公有云、私有云、非云化环境,根据不同数据处理需求选择合适的大数据分析引擎和相应的实时数据开发、离线数据开发以及算法开发服务,来构建您的数据仓库、用户画像、精准推荐、风险管控等大数据应用服务。

腾讯大数据处理套件 ,现在也是在试用阶段,大家可以申请使用了。

还有大数据开发平台:

数据开发平台 WeData

数据开发平台 WeData(以下简称 WeData)是位于云端的一站式数据协作开发平台,提供了即席分析、工作流协同编排、数据资产管理和数据治理等全链路数据加工能力,帮助数据工程师高效构建企业级数据中台架构, 助力企业用数据驱动业务增长。

链接: /product/wedata

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大数据实时并行处理
    • Step 5:有了计算能力之后,如何进行高并发的实时计算?
      • 1. Flink
        • 1)简介
      • 数据开发平台 WeData
      相关产品与服务
      流计算 Oceanus
      流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
      http://www.vxiaotou.com