当前位置：主页 > 查看内容

Spark SQL DataFrame创建一文详解运用与方法

发布时间：2021-07-21 00:00| 有位朋友查看

简介：? 前言配置的虚拟机为Centos6.7系统hadoop版本为2.6.0版本先前已经完成搭建 CentOS部署Hbase 、 CentOS6.7搭建Zookeeper 和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了 Hive详解以及CentOS下部署Hive和Mysql 和 Spark框架在CentO……

前言

配置的虚拟机为Centos6.7系统，hadoop版本为2.6.0版本，先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署：Spark SQL CLI部署CentOS分布式集群Hadoop上方法。

配置JDK1.8、Scala11.12

本文将介绍DataFrame基础操作以及实例运用

一、DataFrame

Spark SQL提供了一个名为DataFrame的抽象编程模型，是由SchemaRDD发展而来。不同于SchemaRDD直接继承RDD，DataFrame自己实现了RDD的绝大多数功能。可以把Spark SQL DataFrame理解为一个分布式的Row对象的数据集合。

Spark SQL已经集成在spark-shell中，因此只要启动spark-shell就可以使用Spark SQL的Shell交互接口。如果在spark-shell中执行SQL语句，需要使用SQLContext对象来调用sql（）方法。Spark SQL对数据的查询分成了两个分支：SQLContext和HiveContext，其中HiveContext继承了SQLContext，因此HiveContext除了拥有SQLContext的特性之外还拥有自身的特性。

二、创建DataFrame对象

DataFrame可以通过结构化数据文件、Hive中的表、外部数据库、Spark计算过程中生成的RDD进行创建。不同的数据源转换成DataFrame的方式也不同。

创建sqlContext对象：

val sqlContext=new org.apache.spark.sql.SQLContext(sc)

通过这种方式创建的SQLContext只能执行SQL语句，不能执行HQL的语句。

创建HiveContext对象：

?val hiveContext=new org.apache.spark.sql.hive.HiveContext(sc)

HiveContext不仅支持HiveQL语法解析器，同时也支持SQL语法解析器。

1.结构化数据文件创建DataFrane

一般情况下，把结构化数据文件存储在HDFS。Spark SQL最常见的结构化数据文件格式是Parquet文件或JSON文件。Spark SQL可以通过load（）方法将HDFS上的格式化文件转换为DataFrame，load默认导入的文件格式是Parquet。

JSON文件转换DataFrame有两种方法，一种使用format（）方法：

val dfPeople=sqlContext.read.format（“json”）.load（“/user/SparkSql/”test2.json"）

也可以直接用json（）方法：

2.外部数据库创建DataFrame

SparkSQL还可以从外部数据库中创建DataFrame，使用这种方式创建DataFrame需要通过JDBC连接或者ODBC连接的方式访问数据库。

这个应该是常用方法通过数据库导入，本人虚拟机MYsql并没有导入文件这里不作演示，代码：

val jdbcDF=sqlContext.read.format("jdbc").options(

|Map("url"->url,

|"user"->"root",

|"passwword"->"root",

|"dbtable"->"people")).load()

3.RDD创建DataFrame

RDD数据转为DataFrame有两种方式：

第一种方式利用反射机制推断RDD模式，需要定义一个case class类:

第二种方式是当无法提前定义case class时，可以采用编程指定Schema的方式将RDD转换成DataFrame。通过编程指定Schame需要3步：

（1）从原来的RDD创建一个元组或列表的RDD。

（2）用StructType创建一个和步骤（1）在创建的RDD中元组或列表的结构相匹配的Schema。

（3）通过SQLContext提供的createDataFrame方法将Schema应用到RDD上。

4.Hive中的表创建DataFrame

从Hive表中的表创建DataFrame，可以声明一个HiveContext对象：

；原文链接：https://blog.csdn.net/master_hunter/article/details/115756012
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：偷偷地告诉学弟学妹们一个高效学习编程的秘密！大学四年悄悄惊艳 下一篇：天下没有难学的技术，带你手撕RocketMQ

随机推荐

水杯的测试用例

从功能测试、性能测试、界面测试、安全性测试、易用性、兼容性测试、震动测试七...
Window十二问（快扶我起来，我还能问）

前言关于Window，你了解多少呢?看看下面这些问题你都能答上来吗。如果你遇到这...
获近亿元战略融资，觉非科技领跑车路协同

今日国内领先的智能数据服务运营商觉非科技完成近亿元A轮融资。本轮融资由和高资...
程序员误区，缓存一定能提升程序效率么？

大家好，今天我们来简单的聊一聊缓存问题。什么是缓存呢?它在系统设计中是在一个...
微软泄露Windows10新UI！Windows10任务栏

我们知道微软将会在今年给Windows10更换全新设计的UI，让Windows10的界面更加整...
MVC、MVP和MVVM分别是什么_动力节点Java

一、MVC MVC模式的意思是，软件可以分成三个部分。视图（View）：用户界面。控...
jsp中page指令用法详解

本文实例讲述了jsp中page指令用法。分享给大家供大家参考。具体如下：一、JSP ...
Git 常用命令清单(整理且详细)

git工作区，暂存区，版本库之间的关系：我们建立的项目文件夹就是工作区，在初...
【算法】扑克发牌算法实现

首先给扑克牌中每张牌设定一个编号，下面算法实现的编号规则如下： u 红桃按照从...
【图像计数】基于matlab硬币计数【含Matl

一、简介本设计为硬币图像识别统计装置通过数码相机获取平铺无重叠堆积的硬币的...

Spark SQL DataFrame创建一文详解运用与方法

前言

一、DataFrame

二、创建DataFrame对象

1.结构化数据文件创建DataFrane

2.外部数据库创建DataFrame

3.RDD创建DataFrame

4.Hive中的表创建DataFrame

推荐图文

ajax jquery校验用户是否已经注册演示代码

asp 过滤非法字符函数

高效管理http连接的方法

第一个项目：D触发器，DFRB1C。

解决安装Pycharm后在C盘下生成大文件的问题

原生js实现表格循环滚动

随机推荐

水杯的测试用例

Window十二问（快扶我起来，我还能问）

获近亿元战略融资，觉非科技领跑车路协同

程序员误区，缓存一定能提升程序效率么？

微软泄露Windows10新UI！Windows10任务栏

MVC、MVP和MVVM分别是什么_动力节点Java

jsp中page指令用法详解

Git 常用命令清单(整理且详细)

【算法】扑克发牌算法实现

【图像计数】基于matlab硬币计数【含Matl

关于我们