当前位置：主页 > 查看内容

Hive任务执行很慢，但是导入数据非常的快？

发布时间：2021-06-12 00:00| 有位朋友查看

简介：读时模式和写时模式 Hive使用Hadoop来执行查询，其查询执行速度是很慢的，但是使用load data向Hive中导入数据却非常快，这是因为Hive采取的是读时模式(Schema On Read)。读时模式：读取数据的时候，对数据的类型、格式做检查; 写时模式：写入数据的时候，对……

读时模式和写时模式

Hive使用Hadoop来执行查询，其查询执行速度是很慢的，但是使用load data向Hive中导入数据却非常快，这是因为Hive采取的是读时模式(Schema On Read)。

读时模式：读取数据的时候，对数据的类型、格式做检查;
写时模式：写入数据的时候，对数据的类型、格式等规范做检查;

将数据存到Hive的数据表时，Hive采用的是“读时模式”，意思是针对写操作不会做任何校验，只是简单的将文件复制到Hive的表对应的HDFS目录。跟“读时模式”相对应的是“写时模式”，RDBMS一般采用“写时模式”，在将数据写入到数据表的时候会检查每一条记录是否合法，如果检查不通过会直接返回失败信息。

由于向Hive中存入数据的只是简单的文件复制和粘贴，所以导入数据速度非常的快。当读取、查询的时候，才会根据表模式来解释数据，这个时候如果遇到了不符合模式的数据，Hive会直接将数据解析成NULL。

读时模式的好处

Hive采用读时模式带来了以下几个好处：

向Hive表中新增数据非常的快，通常情况下对于外来数据，采用的方法是直接用Hadoop命令将文件上传到一个HDFS目录，Hive直接读这个目录;
一份数据可以被解析成多种模式，存储在Hive表中的数据跟Hive本身没有关系，数据也可以被其他工具比如Pig来处理;

导入数据

hive> load data local inpath '/root/usr.data' into table usr;

本文转载自网络，原文链接：https://www.toutiao.com/a6816106673199907331/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：基于工业互联网的智慧物流建设探讨 下一篇：进阶必备！写给设计师的数据分析基础指南

随机推荐

技术扫盲：关于低代码编程的可持续性交付

本文转载自微信公众号「bugstack虫洞栈」，作者小傅哥。转载本文请联系bugstack...
互联网创业第一步，从他花3500美元买了个

近几年，互联网行业蓬勃发展，在互联网浪潮的冲击下，互联网创业已成为一种比较...
TIOBE 3月榜单：新功能将加入，C语言仍高

TIOBE 公布了 2021 年 3 月的编程语言排行榜。本月 TIOBE 指数没有什么有趣的变...
没有数据的数据科学？请尽早聘用数据工程

本文转载自公众号读芯术(ID：AI_Discovery)。这一刻你正在应对什么挑战?这位前...
Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
一日一技：巧用or关键字实现多重条件判断

在Python开发过程中，我们难免会遇到多重条件判断的情况的情况，此时除了用很多...
为何Spark在编程界越来越吃香？Spark将成

前言统计科学家使用交互式的统计工具(比如R)来回答数据中的问题，获得全景的认...
鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
溢价域名的续费价格如何

溢价域名的续费价格如何？通常来说，因为溢价域名的价值高于普通域名，所以溢...
NVIDIA GPU Operator分析一：NVIDIA驱动

背景我们知道如果在Kubernetes中支持GPU设备调度需要做如下的工作节点上安装...

Hive任务执行很慢，但是导入数据非常的快？

推荐图文

大数据时代，必须做好这3大布局：才能抢占新的造富

C4D 学习笔记

云服务器调整实例配置询价 - API 文档

云安全的现代方法

国内首款基于.NET Core平台的大数据可视化分析工具

智能数据构建与管理平台Dataphin的前世今生：缘起

随机推荐

技术扫盲：关于低代码编程的可持续性交付

互联网创业第一步，从他花3500美元买了个

TIOBE 3月榜单：新功能将加入，C语言仍高

没有数据的数据科学？请尽早聘用数据工程

Java编程内功-数据结构与算法「赫夫曼树

一日一技：巧用or关键字实现多重条件判断

为何Spark在编程界越来越吃香？Spark将成

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

溢价域名的续费价格如何

NVIDIA GPU Operator分析一：NVIDIA驱动

关于我们