首页
学习
活动
专区
工具
TVP
发布

大数据&分布式

大数据框架、数据平台构建、分布式理论
专栏作者
12
文章
3730
阅读量
18
订阅数
统一元数据:数据血缘
数据血缘(Data Lineage):是数据治理中元数据管理领域下的一个子范畴,是数据的溯源过程,获得数据产生链路,发现数据的关联关系,目的是解决"数据的哲学三问":我是谁,我从哪里来,我到哪里去。
Yiwenwu
2024-05-10
3910
统一元数据:元模型定义、元数据采集
元数据管理可分为如下5个流程步骤:元模型定义、元数据采集、元数据加工、元数据存储、元数据应用。其中,元模型定义是整个元数据管理的前提和规范,用于定义可管理的元数据范式。元数据采集是元数据来源的重要途径,提供可管理的元数据原料,而如何进行可扩展且高效的元数据采集也是元数据管理的难点之一。本文将主要针对元模型定义、元数据采集两个模块进行详细说明。
Yiwenwu
2024-05-08
3980
统一元数据:业界方案设计概览
针对元数据管理系统,各类开源方案在业界层出不穷,本文将列举和对比几个业内比较流行的元数据管理组件:
Yiwenwu
2024-05-06
2830
大数据平台:统一元数据管理
元数据管理包括元数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但元数据管理实践过程中通常会面临元数据来源众多且分散在不同系统中、元数据类型多样以及元数据频繁变更等问题。因此构建一个基于统一标准规范实现的通用、可扩展的元数据管理体系至关重要。
Yiwenwu
2024-05-05
5102
数据资产管理体系与标准
数据资产管理(DAM,Data Asset Management)是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。《数据资产管理实践白皮书》
Yiwenwu
2024-05-04
3990
大数据平台:计算资源优化技术&作业诊断
大数据平台的资源管理组件主要针对存储资源与计算资源进行分析优化。前文《大数据平台:资源管理及存储优化技术》主要介绍了存储资源优化,本文主要介绍大数据平台构建过程中,计算资源相关的优化技术。
Yiwenwu
2024-05-03
2760
SSM(HDFS智能存储管理) 系统剖析
Smart Storage Management (SSM) 项目是Intel开源的HDFS存储管理系统,致力于提供HDFS数据的智能管理方案。SSM有如下几个重要的功能:
Yiwenwu
2024-05-02
1610
大数据平台:资源管理及存储优化技术
大数据平台的资源管理组件主要涉及存储资源和计算资源管理两部分,属于大数据平台运维管理系统。基于资源管理系统,大数据平台的开发运维人员能够清晰掌控平台的资源使用情况和资源在不同时间段下的变化趋势,能对资源使用异常进行及时发现并定位处理,避免造成更严重的影响,如磁盘空间撑爆,计算资源无空余,任务长时间等待不运行等造成业务阻塞。
Yiwenwu
2024-05-01
3700
大数据平台:Ambari集群管理
Ambari是Hortonworks主导发行的开源管理平台,作为Apache顶级项目,Ambari也是最早且最成熟的大数据集群管理开源组件,可类比于Cloudera研发的CDH Manager。在容器化未盛行的时候,是商用(toB/toC)大数据平台构建的不二选择,用于简化Apache Hadoop集群的配置和管理。除了Hadoop集群,基于可扩展配置文件,用户可扩展自定义组件的部署和运行管理。Ambari 提供了一个易于使用的Web UI和API,使得系统管理员可以对集群进行监控、配置和管理。
Yiwenwu
2024-04-30
2710
Presto CBO统计元数据
Presto:2012年秋季Facebook内部开始研发,2013年正式对外开源。Presto是Facebook用于补充和替代Hive的产品,主要用于实时场景的交互式数据分析。相比于Hive的SQL on Hadoop,Presto不与Hadoop(MapReduce计算/HDFS存储)的框架模型绑定,其设计目标是SQL on Everything。
Yiwenwu
2024-04-28
1960
Spark CBO统计元数据
Statistics 统计信息,参考:org.apache.spark.sql.catalyst.plans.logical.Statistics
Yiwenwu
2024-04-27
2031
Hive CBO优化剖析
Hive是较早的SQL on Hadoop系统,对大数据SQL执行有广泛和深远的影响。它最初由Facebook开发,后来成为Apache软件基金会的一个开源项目。用户可以通过SQL来读取、写入和管理存储在分布式存储系统中的大规模数据集。
Yiwenwu
2024-04-26
2720
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com