要使用Apache Spark提取.json文件中的数据,可以按照以下步骤进行操作:
import org.apache.spark.sql.{SparkSession, DataFrame}
import org.apache.spark.sql.functions._
val spark = SparkSession.builder()
.appName("JsonDataExtraction")
.master("local")
.getOrCreate()
val jsonFile = "path/to/json/file.json"
val df = spark.read.json(jsonFile)
df.printSchema()
val nameData = df.select("name").collect()
val nameCount = df.groupBy("name").count()
nameCount.show()
完整的示例代码如下所示:
import org.apache.spark.sql.{SparkSession, DataFrame}
import org.apache.spark.sql.functions._
val spark = SparkSession.builder()
.appName("JsonDataExtraction")
.master("local")
.getOrCreate()
val jsonFile = "path/to/json/file.json"
val df = spark.read.json(jsonFile)
df.printSchema()
val nameData = df.select("name").collect()
val nameCount = df.groupBy("name").count()
nameCount.show()
确保将"path/to/json/file.json"替换为实际的.json文件路径。
希望这可以帮助你提取.json文件中的数据并解决你的问题!