SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程
时间:2022-01-06 09:20:31|栏目:JAVA代码|点击: 次
1.使用IDEA开发Spark SQL
1.1创建DataFrame/DataSet
1、指定列名添加Schema
2、通过StrucType指定Schema
3、编写样例类,利用反射机制推断Schema
1.1.1指定列名添加Schema
//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//代码
// 1.创建SparkSession
val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
// 2.使用spark 获取sparkContext 上下文对象
val sc = spark.sparkContext
// 3.使用SparkContext 读取文件并按照空格切分 返回RDD
val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
import spark.implicits._
//5.将RDD 转换为DataFrame 指定元数据信息
val dataFrame = rowRDD.toDF("id","name","age")
//6.数据展示
dataFrame.show()
1.1.2StructType指定Schema
//导包
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
//编写代码
//1.实例SparkSession
val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.根据SparkSession获取SparkContext 上下文对象
val sc = spark.sparkContext
// 3.使用SparkContext读取文件并按照空开切分并返回元组
val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
import spark.implicits._
//5.使用StructType 添加元数据信息
val schema = StructType(List(
StructField("id", IntegerType, true),
StructField("name", StringType, true),
StructField("age", IntegerType, true)
))
//6.将数据与元数据进行拼接 返回一个DataFrame
val dataDF = spark.createDataFrame(rowRDD,schema)
//7.数据展示
dataDF.show()
1.1.3反射推断Schema
//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//定义单例对象
case class Person(Id:Int,name:String,age:Int)
//编写代码
//1.实例sparkSession
val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.通过sparkSession获取sparkContext 上下文对象
val sc = spark.sparkContext
//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中
val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
import spark.implicits._
//5.将rowRDD转换为dataFrame
val dataFrame = rowRDD.toDF()
//6.数据展示
dataFrame.show()
上一篇:Spring MVC 基于URL的映射规则(注解版)
栏 目:JAVA代码
下一篇:微信小程序 springboot后台如何获取用户的openid
本文标题:SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程
本文地址:http://www.codeinn.net/misctech/189309.html


阅读排行
- 1Java Swing组件BoxLayout布局用法示例
- 2java中-jar 与nohup的对比
- 3Java邮件发送程序(可以同时发给多个地址、可以带附件)
- 4Caused by: java.lang.ClassNotFoundException: org.objectweb.asm.Type异常
- 5Java中自定义异常详解及实例代码
- 6深入理解Java中的克隆
- 7java读取excel文件的两种方法
- 8解析SpringSecurity+JWT认证流程实现
- 9spring boot里增加表单验证hibernate-validator并在freemarker模板里显示错误信息(推荐)
- 10深入解析java虚拟机




