下面是一个示例代码,演示如何使用 Apache Spark 加载内部文件夹:
import org.apache.spark.sql.SparkSession
object LoadInternalFolder {
def main(args: Array[String]): Unit = {
// 创建 SparkSession
val spark = SparkSession.builder()
.appName("Load Internal Folder")
.master("local")
.getOrCreate()
// 加载内部文件夹
val folderPath = "/path/to/folder" // 替换为实际的文件夹路径
val fileDF = spark.read.text(folderPath)
// 显示文件内容
fileDF.show()
// 停止 SparkSession
spark.stop()
}
}
在上述代码中,首先创建了一个 SparkSession 对象,并指定了应用程序名称和运行模式。然后通过 spark.read.text()
方法加载指定的内部文件夹,将结果存储在一个 DataFrame 中。最后,使用 show()
方法显示文件内容。最后,使用 spark.stop()
方法停止 SparkSession。
请确保将代码中的 /path/to/folder
替换为实际的文件夹路径。
上一篇:Apache Spark 将 PostgreSQL 数据以 Parquet 格式导出
下一篇:Apache Spark JSON读取错误 - java.lang.IllegalArgumentException: 非法的模式组件: XXX