AutoloaderDatabricks中的FileDiscovery对于流作业不起作用,Glob模式无效。
创始人
2024-09-23 08:00:56
0

Autoloader Databricks的FileDiscovery功能允许Databricks自动加载数据并进行流式处理。然而,有时候Glob模式不能正确地匹配所需的文件。为了解决这个问题,我们可以使用SparkContext的textFile()函数直接读取文件并转换为DataFrame。

以下是使用SparkContext的代码示例:

from pyspark.sql.functions import input_file_name

# create SparkContext
sc = spark.sparkContext

# read files into RDD
rdd = sc.textFile("path/to/files/2019/*.csv")

# convert RDD to DataFrame with input_file_name column
df = rdd.toDF("value").withColumn("filename", input_file_name())

在上述示例中,首先创建SparkContext,然后使用textFile()函数读取所需的文件列表并将它们转换为RDD。接下来,将RDD转换为DataFrame,并通过input_file_name()函数添加“filename”列以包含文件名。

这样,我们就可以通过文件名对数据进行分组或过滤等操作。

相关内容

热门资讯

第4分钟实锤!德州之星有外挂(... 第4分钟实锤!德州之星有外挂(德州nzt)一贯是有挂(详细辅助必备教程)1、德州之星有外挂透视辅助简...
八分钟实锤!德扑之星有作弊(德... 八分钟实锤!德扑之星有作弊(德州nzt)真是有挂(详细辅助2025新版总结);德扑之星有作弊辅助器中...
第2分钟实锤!德扑之星猫腻(来... 第2分钟实锤!德扑之星猫腻(来玩德州)果然是有挂(详细辅助曝光教程);1、起透看视 德扑之星猫腻透明...
第9分钟实锤!德州之星插件(德... 第9分钟实锤!德州之星插件(德扑)真是真的有挂(详细辅助解说技巧);1、玩家可以在德州之星插件软件透...
三分钟实锤!德州ai人工智能(... 三分钟实锤!德州ai人工智能(德州俱乐部)本来是真的有挂(详细辅助科技教程)德州ai人工智能辅助器中...
第9分钟实锤!德扑之星作弊(德... 第9分钟实锤!德扑之星作弊(德扑ai)果然真的是有挂(详细辅助教你攻略)1、全新机制【德扑之星作弊软...
2分钟实锤!德州之星辅助(nz... 2分钟实锤!德州之星辅助(nzt德州)真是有挂(详细辅助必胜教程)德州之星辅助辅助器中分为三种模型:...
第五分钟实锤!智星德州菠萝辅助... 第五分钟实锤!智星德州菠萝辅助器(德扑之星)切实是有挂(详细辅助技巧教程)该软件可以轻松地帮助玩家将...
第三分钟实锤!智星德州菠萝辅助... 第三分钟实锤!智星德州菠萝辅助器(智星德州)切实真的是有挂(详细辅助黑科技教程)第三分钟实锤!智星德...
4分钟实锤!德扑起手牌胜率图(... 4分钟实锤!德扑起手牌胜率图(wpk德州)一贯是真的有挂(详细辅助2025新版)1、下载好德扑起手牌...