前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >scala-sparkML学习笔记:struct type tinyint size int indices array

scala-sparkML学习笔记:struct type tinyint size int indices array

作者头像
MachineLP
发布2019-11-03 21:22:15
发布2019-11-03 21:22:15
3.2K00
代码可运行
举报
文章被收录于专栏:小鹏的专栏小鹏的专栏
运行总次数:0
代码可运行

完整题目:scala-sparkML学习笔记:struct type tinyint size int indices array int values array double type

错误类型:

CSV data source does not support struct<type:tinyint,size:int,indices:array<int>,values:array<double>> data type.

代码语言:javascript
代码运行次数:0
运行
复制
predictPredict.select("user_id", "probability", "label").coalesce(1) 
          .write.format("com.databricks.spark.csv").mode("overwrite") 
          .option("header", "true").option("delimiter","\t").option("nullValue", Const.NULL) 
          .save(fileName.predictResultFile + day) 

predictPredict选择probability列保存会出现'`probability`' is of struct<type:tinyint,size:int,indices:array<int>,values:array<double>> type 这个错误, 因为是DenseVector不可以直接报保存到csv文件, 可以有下面两种解决方法: (主要思想是选择DenseVector中预测为1的那一列,类型为double)

代码语言:javascript
代码运行次数:0
运行
复制
        /*
        import org.apache.spark.sql.SparkSession
        val spark = SparkSession.builder().config("spark.debug.maxToStringFields", 500).enableHiveSupport.appName("QDSpark Pipeline").getOrCreate()
        import spark.implicits._

        val probabilityDataFrame = predictPredict.select("user_id", "probability", "label").rdd.map( row => (row.getInt(0), row.getAs[DenseVector](1)(1), row.getDouble(2)) ).toDF

        probabilityDataFrame.select("_1", "_2", "_3").coalesce(1) 
          .write.format("com.databricks.spark.csv").mode("overwrite") 
          .option("header", "true").option("delimiter","\t").option("nullValue", Const.NULL) 
          .save(fileName.predictResultFile + day) 
        */
        
        val stages = new ArrayBuffer[StructField]() 
        stages += StructField("user_id", IntegerType, true) 
        stages += StructField("probability", DoubleType, true) 
        stages += StructField("label", DoubleType, true) 
        val schema = new StructType( stages.toArray  )
        val probabilityNewRDD = predictPredict.select("user_id", "probability", "label").rdd.map( row => Row(row.getInt(0), row.getAs[DenseVector](1)(1), row.getDouble(2)) )
        val probabilityDataFrame = SparkConfTrait.spark.createDataFrame(probabilityNewRDD, schema)

        probabilityDataFrame.select("user_id", "probability", "label").coalesce(1) 
          .write.format("com.databricks.spark.csv").mode("overwrite") 
          .option("header", "true").option("delimiter","\t").option("nullValue", Const.NULL) 
          .save(fileName.predictResultFile + day) 
本文参与?便宜云服务器自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/10/29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客?前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?便宜云服务器自媒体同步曝光计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 完整题目:scala-sparkML学习笔记:struct type tinyint size int indices array int values array double type
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com