前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据入门:Impala框架基础简介

大数据入门:Impala框架基础简介

作者头像
成都加米谷大数据
修改2020-11-25 18:16:50
7850
修改2020-11-25 18:16:50
举报
文章被收录于专栏:大数据开发大数据开发

在大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就是一个不可忽视的重要选择。今天的大数据入门分享,我们就来讲讲Impala框架入门的一些基础知识。

Impala背景

Impala的出现,追溯其源头,是来自于Google的“新三篇论文”(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)之一的交互式分析工具Dremel。

根据实验环境下的测试,Impala进行数据查询,可以实现比Hive快10-100倍,其中SQL查询性能也超过了SparkSQL,号称是大数据领域当前最快的SQL查询工具。

在实际场景下,Impala提供的针对于HDFS、Hbase数据的高性能、低延迟的交互式SQL查询,基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点,也确实性能优良,因此得到企业级用户的青睐。

Impala与Hive的关系

Impala基于Hive进行大数据分析查询,直接使用Hive的元数据库metadata,意味着Impala元数据都存储在Hive的metastore当中,并且Impala兼容Hive的绝大多数SQL语法。

在实际应用当中,要保证Impala的正常使用,需要先安装Hive,保证Hive安装成功,并且还需要启动Hive的metastore服务才行。

Impala对比Hive所使用的优化策略

Impala把整个查询分成一执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。

使用LLVM产生运行代码,针对特定查询生成特定代码,同时使用Inline的方式减少函数调用的开销,加快执行效率。

充分利用可用的硬件指令(SSE4.2)。

更好的IO调度,Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势,同时Impala支持直接数据块读取和本地代码计算checksum。

通过选择合适的数据存储格式可以得到最好的性能(Impala支持多种存储格式)。

最大使用内存,中间结果不写磁盘,及时通过网络以stream的方式传递。

Impala的优点

1、Impala比较快,非常快,特别快,因为所有的计算都可以放入内存当中进行完成,只要你内存足够大;

2、摈弃了MR的计算,改用C++来实现,有针对性的硬件优化;

3、具有数据仓库的特性,对Hive的原有数据做数据分析;

4、支持ODBC,JDBC远程访问。

Impala的缺点

1、基于内存计算,对内存依赖性较大;

2、改用C++编写,意味着维护难度增大;

3、基于Hive,与Hive共存亡,紧耦合;

4、稳定性不如Hive,不存在数据丢失的情况。

关于大数据入门,Impala框架基础,以上就为大家做了一个简单的介绍了。Impala这个框架,现如今也同样是Hadoop生态当中的得力干将,学习当中应该予以相应的重视。

本文系转载,前往查看

如有侵权,请联系?cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系?cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Impala背景
  • Impala与Hive的关系
  • Impala对比Hive所使用的优化策略
  • Impala的优点
  • Impala的缺点
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com