随着近两年通信流量业务开展得如火如荼,更多的用户上网行为的数据分析需求猛增,而处理这类数据需要大量的写入处理,而且字段不固定,传统的关系型数据库已无法满足需求,急需多节点的分布式大数据集群来解决数据处理及存储问题。
本研究构建了一套大数据采集、存储体系,将系统分为采集层、ODS、DW、DM等四层,分别完成海量数据的采集、汇总、处理、生成价值数据过程中的不同环节。其中,采集层负责原始数据的采集,ODS层负责统一不同系统间的业务内容,对部分海量数据的非结构化数据进行转换。DW层是以空间换时间的一层,要形成大量的基础Cube,基础常用业务粒度的数据。实现统一的KPI过程,是ODS层指标转换的基础。DM层主要是面向业务的组合,面向分析的Cube变换,面向挖掘的数据变换。
数据分类存储
在数据存储过程中,按照数据价值和生命周期管理原则(热数据对存储性能要求高,随着数据生命周期的变化,数据价值降低,逐渐向一般性能存储迁移,其中数据价值的参考项包括时效性、访问频率、价值密度、业务意义等),可以将不同数据分类存储,制定不同的存储方式及存储周期。
对于采集层的原始数据,将采集层的数据加载到基础数据缓存,为数据整合提供缓存,其中大数据1~3天,传统数据7天。对于ODS层数据,通过内存库关联与整合,ETL为ODM提供完整、准确的数据。该层存储周期:大数据3个月,传统数据1年。对于DW层数据,通过基于数据模型的并行计算域数据库计算,提供多用途的轻度汇总,该层数据类型主要为按维度、事实组织的数据,存储周期为3年。
数据处理及存储过程采用了分布式架构,其中有两项关键技术—HDFS和MapReduce,应用这两项技术能给系统带来如下技术优势。
Hadoop分布式文件系统适合运行在通用硬件(x86服务器)上的分布式文件系统,HDFS对外开放文件命名空间并允许用户数据以文件形式存储;MapReduce能自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制。
具体应用案例
通过该系统的推进落地,吉林省完成了省内大数据处理平台—数据共享平台的建设,该系统日均处理数据超过10T左右,并为吉林省内多个上层应用提供了数据支撑,比如互联网端到端系统能以四大类关键业务(网页浏览类、视频类、即时通信类、应用下载类)进行端到端质量分析,通过五元五阶分析定位方法,能够定位质差业务SP、质差小区、质差核心网网元、质差终端等,并找出业务问题原因;CSFB业务质量分析系统能实现全流程质量概况分析、全流程质差网元问题定位分析;客户满意度画像从覆盖质量、网络感知等网络指标判断用户满意度,做到在被投诉之前发现问题。
这些应用在吉林省内日常的网络问题分析、优化,业务预测、发展支撑等方面发挥着有力的数据支撑作用。
发布会传送门 : https://yqh.aliyun.com/live/aiotfa 近日,阿里云AIoT春季产品...
在过去的一年中,云计算已经成为组织应对冠状病毒疫情对其业务不利影响的关键技...
1、智能语音点餐机解决方案方案架构 架构特点 基于达摩院特有的多模态交互技术 ...
2020年7月9日,2020年世界人工智能大会(the World Artificial Intelligence Con...
3月Techo Youth高校公开课Demo实操演练 【活动已结束】 3月Techo Youth高校公开...
怎么防御udp攻击?UDP Flood是日渐猖厥的流量型 ddos 攻击。常见的情况是利用大...
中台有机衔接稳定的后台系统和灵活多变的前端业务场景 通过抽取后台系统的数据 ...
最大传输单元(Maximum Transmission Unit,MTU)是指一种通信协议的某一层上所...
客户简介 深圳盒子信息科技有限公司成立于2011年,是国家高新技术企业、深圳市高...
MongoDB是一个基于分布式文件存储的数据库。 由C++语言编写。旨在为WEB应用提供...