使用Spark的textFile()方法可以读取多个文本文件。以下是一个示例代码:
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder \
.appName("Read Multiple Text Files") \
.getOrCreate()
# 读取多个文本文件
text_files = spark.sparkContext.textFile("file1.txt, file2.txt, file3.txt")
# 打印每个文件的内容
for file in text_files.collect():
print(file)
在上面的示例中,使用了Spark的textFile()方法来读取名为file1.txt、file2.txt和file3.txt的多个文本文件。这些文件的内容将作为RDD(弹性分布式数据集)返回,然后可以使用collect()方法将其转换为本地Python对象。在这个例子中,我们通过打印每个文件的内容来展示结果。