csv格式
id,name,age,sex,city,score
1,张飞,21,M,北京,80
2,关羽,23,M,北京,82
7,周瑜,24,M,北京,85
3,赵云,20,F,上海,88
4,刘备,26,M,上海,83
8,孙权,26,M,上海,78
5,曹操,30,F,深圳,90.8
6,孔明,35,F,深圳,77.8
9,吕布,28,M,深圳,98
package createdf
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.expressions.{Window, WindowSpec}
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
* @date :2021/4/2 18:38
* @author :xiaotao
* @description :求每个城市中成绩最高的两个人的信息
*/
object DataFrameDemo {
Logger.getLogger("org").setLevel(Level.WARN)
def main(args: Array[String]): Unit = {
val ss: SparkSession = SparkSession.builder()
.appName(this.getClass.getSimpleName)
.master("local[*]")
.getOrCreate()
sqlTest(ss)
dslApiTest(ss)
ss.stop()
}
def sqlTest(ss: SparkSession): Unit = {
val df: DataFrame = ss.read.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ").option("header", true).csv("D:\\doc\\stu2.csv")
df.createTempView("tmp")
ss.sql(
"""
|select
|city,
|name
|from
|(
| select
| city,
| name,
| row_number() over(partition by city order by score desc) as rns
| from tmp
|) o
|where rns <=2
""".stripMargin).show()
}
def dslApiTest(ss: SparkSession): Unit = {
val df: DataFrame = ss.read.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ").option("header", true).csv("D:doc\\stu2.csv")
import ss.implicits._
import org.apache.spark.sql.functions._
val window: WindowSpec = Window.partitionBy('city).orderBy('score.desc)
df.select('city, 'name, row_number().over(window) as "rns").where('rns <= 2).drop('rns).show()
}
}
E:\develop\Java\jdk1.8.0_171\bin\java.exe ...
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
+----+----+
|city|name|
+----+----+
| 深圳| 吕布|
| 深圳| 曹操|
| 上海| 赵云|
| 上海| 刘备|
| 北京| 周瑜|
| 北京| 关羽|
+----+----+
+----+----+
|city|name|
+----+----+
| 深圳| 吕布|
| 深圳| 曹操|
| 上海| 赵云|
| 上海| 刘备|
| 北京| 周瑜|
| 北京| 关羽|
+----+----+
Process finished with exit code 0
本文转载自微信公众号「SH的全栈笔记」,作者SH。转载本文请联系SH的全栈笔记公...
idea官方推送了2020.2.4版本的更新,那么大家最关心的问题来了,之前激活idea202...
问题:我们在做flex的开发中,如果用到别人搭建好的框架,而别人的server名称往...
大家好,我是狂聊君。 今天来聊一聊 Mysql 缓存池原理。 提纲附上,话不多说,直...
来源:DeepenStudy 漏洞文件:js.asp % Dimoblog setoblog=newclass_sys oblog.a...
本文实例讲述了AJAX+Servlet实现的数据处理显示功能。分享给大家供大家参考,具...
前言 项目开发中不管是前台还是后台都会遇到烦人的null,数据库表中字段允许空值...
本文转载自微信公众号「SQL数据库」,作者丶平凡世界 。转载本文请联系开发公众...
在Flash Player 10.1及以上版本中,adobe新增了全局错误处理程序UncaughtErrorEv...
CKeditor,以前叫FCKeditor,已经使用过好多年了,功能自然没的说。最近升级到3....