当前位置：主页 > 查看内容

Spark RDD编程初级实践

发布时间：2021-07-29 00:00| 有位朋友查看

简介：Spark RDD编程初级实践湖工大永远滴神茂林提交异常问题解决第一关数据去重第二个整合排序第三关求平均值湖工大永远滴神茂林 RDD(Resilient Distributed Datasets, 弹性分布式数据集)是Spark最为核心的概念它是一个只读的、可分区的分布式数据集这……

Spark RDD编程初级实践

湖工大永远滴神茂林！！！

湖工大永远滴神茂林！！！

RDD(Resilient Distributed Datasets, 弹性分布式数据集)是Spark最为核心的概念，它是一个只读的、可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，可在多次计算间重用。Spark用Scala语言实现了RDD的API，程序员可以通过调用API实现对RDD的各种操作，从而实现各种复杂的应用。

RDD编程都是从创建RDD开始的，可以通过多种方式创建得到RDD。例如，从本地文件或者分布式文件系统HDFS中读取数据创建RDD，或者使用parallelize()方法从一个集合中创建得到RDD。

创建得到RDD以后，就可以对RDD执行各种操作，包括转换操作和行动操作。RDD编程主要是对RDD各种操作API的使用，无论多复杂的Spark应用程序，最终都是借助于这些RDD操作来实现的。另外，通过持久化，可以把RDD保存在内存或者磁盘中，避免多次重复计算。通过对RDD进行分区，不仅可以增加程序并行度，而且在一些应用场景中可以降低网络通信开销。

键值对RDD(Pair RDD)是指每个RDD元素都是(key, value)键值对类型，是一种常见的RDD类型，在Spark编程中经常被使用。常用的键值对转换操作包括reduceByKey(func)、groupByKey()、sortByKey()、sortBy()、mapValues(func)、join()、combineByKey()等。

提交异常问题解决

点击右上角的重置代码仓库图标，再重新提交

第一关数据去重

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner

object RemDup {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("RemDup").setMaster("local")
    val sc = new SparkContext(conf)
    //输入文件fileA.txt和fileB.txt已保存在本地文件系统/root/step1_files目录中
    val dataFile = "file:///root/step1_files"
    val data = sc.textFile(dataFile, 2)
    /********** Begin **********/
    //第一步：执行过滤操作，把空行丢弃。
    val rdd1 = data.filter(_.trim().length > 0)
    
    //第二步：执行map操作，取出RDD中每个元素，去除尾部空格并生成一个(key, value)键值对。
    val rdd2 = rdd1.map(line => (line.trim, ""))
    
    //第三步：执行groupByKey操作，把所有key相同的value都组织成一个value-list。
    val rdd3 = rdd2.groupByKey()
    
    //第四步：对RDD进行重新分区，变成一个分区，
    //在分布式环境下只有把所有分区合并成一个分区，才能让所有元素排序后总体有序。
    val rdd4 = rdd3.partitionBy(new HashPartitioner(1))
    
    //第五步：执行sortByKey操作，对RDD中所有元素都按照key的升序排序。
    val rdd5 = rdd4.sortByKey()
    
    //第六步：执行keys操作，将键值对RDD中所有元素的key返回，形成一个新的RDD。
    val rdd6 = rdd5.keys
    
    //第七步：执行collect操作，以数组的形式返回RDD中所有元素。
    val rdd7 = rdd6.collect()
    
    //第八步：执行foreach操作，并使用println打印出数组中每个元素的值。
    println("") //注意：此行不要修改，否则会影响测试结果，在此行之后继续完成第八步的代码。
    
    rdd7.foreach(println)
    /********** End **********/
  }
}

第二个整合排序

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner

object FileSort {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("FileSort").setMaster("local")
    val sc = new SparkContext(conf)
    //输入文件file1.txt、file2.txt和file3.txt已保存在本地文件系统/root/step2_files目录中
    val dataFile = "file:///root/step2_files"
    val data = sc.textFile(dataFile, 3)
    /********** Begin **********/
    //第一步：执行过滤操作，把空行丢弃。
    val rdd1 = data.filter(_.trim().length > 0)
    
    //第二步：执行map操作，取出RDD中每个元素，去除尾部空格并转换成整数，生成一个(key, value)键值对。
    val rdd2 = rdd1.map(line => (line.trim.toInt, ""))
    
    //第三步：对RDD进行重新分区，变成一个分区，
    //在分布式环境下只有把所有分区合并成一个分区，才能让所有元素排序后总体有序。
    val rdd3 = rdd2.partitionBy(new HashPartitioner(1))
    
    //第四步：执行sortByKey操作，对RDD中所有元素都按照key的升序排序。
    val rdd4 = rdd3.sortByKey()
    
    //第五步：执行keys操作，将键值对RDD中所有元素的key返回，形成一个新的RDD。
    val rdd5 = rdd4.keys
    
    //第六步：执行map操作，取出RDD中每个元素，生成一个(key, value)键值对，
    //其中key是整数的排序位次，value是原待排序的整数。
    var index = 0
    val rdd6 = rdd5.map(t => {
      index = index + 1
      (index, t)
    })
    
    //第七步：执行collect操作，以数组的形式返回RDD中所有元素。
    val rdd7 = rdd6.collect()
    
    //第八步：执行foreach操作，依次遍历数组中每个元素，分别取出(key, value)键值对中key和value，
    //按如下格式输出：key value
    println("") //注意：此行不要修改，否则会影响测试结果，在此行之后继续完成第八步的代码。
    
    rdd7.foreach(t => println(t._1 + " " + t._2))
    /********** End **********/
  }
}

第三关求平均值

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf


object AvgScore {
  def main(args: Array[String]): Unit = {
  
    val conf = new SparkConf().setAppName("FileSort").setMaster("local")
    val sc = new SparkContext(conf)
    
    //输入文件AlgorithmScore.txt、DataBaseScore.txt和PythonScore.txt已保存在本地文件系统/root/step3_files目录中
    val dataFile = "file:///root/step3_files"
    val data = sc.textFile(dataFile)
    
    /********** Begin **********/
    //第一步：执行过滤操作，把空行丢弃。
    val rdd1 = data.filter(_.trim().length > 0)
    
    //第二步：执行map操作，取出RDD中每个元素(即一行文本)，以空格作为分隔符将一行文本拆分成两个字符串，
    //拆分后得到的字符串封装在一个数组对象中，成为新的RDD中一个元素。
    var rdd2 = rdd1.map(line => line.split(" "))
    
    //第三步：执行map操作，取出RDD中每个元素(即字符串数组)，取字符串数组中第一个元素去除尾部空格，
    //取字符串数组中第二个元素去除尾部空格并转换成整数，并由这两部分构建一个(key, value)键值对。
    val rdd3 = rdd2.map(t => (t(0).trim, t(1).trim.toInt))
    
    //第四步：执行mapValues操作，取出键值对RDD中每个元素的value，使用x=>(x,1)这个匿名函数进行转换。
    val rdd4 = rdd3.mapValues(x => (x, 1))
    
    //第五步：执行reduceByKey操作，计算出每个学生所有课程的总分数和总课程门数。
    val rdd5 = rdd4.reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))
    
    //第六步：执行mapValues操作，计算出每个学生的平均成绩。
    val rdd6 = rdd5.mapValues(x => (x._1.toDouble / x._2))
    
    //第七步：执行collect操作，以数组的形式返回RDD中所有元素。
    val rdd7 = rdd6.collect()
    
    //第八步：执行foreach操作，按如下格式打印出每个学生的平均成绩：姓名 成绩，其中成绩要求保留两位小数。
    println("") //注意：此行不要修改，否则会影响测试结果，在此行之后继续完成第八步的代码。
    
    rdd7.foreach(t => {
      val x = t._2
      println(t._1 + " " + f"$x%1.2f")
    })
    /********** End **********/
  }
}

；原文链接：https://blog.csdn.net/m0_49972043/article/details/115797050
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Docker——使用Git来实现Jenkins发布、测试项目 下一篇：没有了

随机推荐

由此逐步打造刷脸消费生态实现全城刷脸

刷脸支付让人们生活更便捷公交卡、零钱、手机统统不用带在广州坐地铁只要刷脸就...
IE8 Fckedit2.6.X不兼容

经过抓包测试，Fckediter对象根本没有提交任何数据经过多浏览器(IE7,IE6,Mathon...
重磅亮相丨CROSS正式版今日上线，全面开

?CROSS作为全球首个去中心化NFT发行拍卖平台也是行业内NFT种类最丰富的平台NFTs...
vue 插槽简介及使用示例

Vue的插槽，是一种内容分发机制，但是我感觉它更加像组件的一种占位符的概念，通...
一个接口查询关联了十几张表，响应速度太

本文转载自网络，原文链接：https://www.toutiao.com/a6792885863006077444/...
html的基本使用包括链接、样式表、span和

一、链接在HTML中超文本的链接非常重要，基本格式如下： A HREF=资源地址链接文...
《程序员面试宝典与进阶秘籍》——?Andro

《程序员面试宝典与进阶秘籍》——? Android篇一、初级要求 Android UI?基础四...
python入门笔记(第二期——输入与输出)

前言本文章供python初学者自学学习以后的话应该会每周末更新一次因为本人也是在...
web服务器程序运行出现乱码问题的解决方

使用php,定义php的默认语言. php.ini中： default_charset = "gb2312" 在网页中...
Vue 3自定义指令开发的相关总结

什么是指令（directive）在Angular和Vue中都有Directive的概念，我们通常讲Dire...

Spark RDD编程初级实践

Spark RDD编程初级实践

湖工大永远滴神茂林！！！

提交异常问题解决

第一关数据去重

第二个整合排序

第三关求平均值

推荐图文

如何使用JavaScript和正则表达式进行数据验证

MySQL 语法整理（2）

JS正则表达式基本用法(经典全)

掌握了这30道MySQL基础面试题，我成了面霸

线程安全的list

最详细的SQL注入相关的命令整理 (转)第1/2页

随机推荐

由此逐步打造刷脸消费生态实现全城刷脸

IE8 Fckedit2.6.X不兼容

重磅亮相丨CROSS正式版今日上线，全面开

vue 插槽简介及使用示例

一个接口查询关联了十几张表，响应速度太

html的基本使用包括链接、样式表、span和

《程序员面试宝典与进阶秘籍》——?Andro

python入门笔记(第二期——输入与输出)

web服务器程序运行出现乱码问题的解决方

Vue 3自定义指令开发的相关总结

关于我们

Spark RDD编程初级实践

Spark RDD编程初级实践

湖工大永远滴神 茂林！！！

提交异常问题解决

第一关 数据去重

第二个 整合排序

第三关 求平均值

推荐图文

随机推荐

关于我们

湖工大永远滴神茂林！！！

第一关数据去重

第二个整合排序

第三关求平均值