AutoloaderDatabricks中的FileDiscovery对于流作业不起作用,Glob模式无效。
创始人
2024-09-23 08:00:56
0

Autoloader Databricks的FileDiscovery功能允许Databricks自动加载数据并进行流式处理。然而,有时候Glob模式不能正确地匹配所需的文件。为了解决这个问题,我们可以使用SparkContext的textFile()函数直接读取文件并转换为DataFrame。

以下是使用SparkContext的代码示例:

from pyspark.sql.functions import input_file_name

# create SparkContext
sc = spark.sparkContext

# read files into RDD
rdd = sc.textFile("path/to/files/2019/*.csv")

# convert RDD to DataFrame with input_file_name column
df = rdd.toDF("value").withColumn("filename", input_file_name())

在上述示例中,首先创建SparkContext,然后使用textFile()函数读取所需的文件列表并将它们转换为RDD。接下来,将RDD转换为DataFrame,并通过input_file_name()函数添加“filename”列以包含文件名。

这样,我们就可以通过文件名对数据进行分组或过滤等操作。

相关内容

热门资讯

起初有开挂"新海豚辅... 起初有开挂"新海豚辅助工具"开挂(透视)辅助下载(技巧教程真的有挂)这是一款可以让一直输的玩家,快速...
原本有辅助"战神辅助... 原本有辅助"战神辅助器"开挂(透视)辅助神器(德州论坛有挂分享)【无需打开直接搜索加薇1367043...
原先有辅助"微乐透视... 原先有辅助"微乐透视辅助工具"开挂(透视)辅助安装(安装教程有挂方针) >>您好:软件加薇13670...
固有有辅助"免费雀神... 固有有辅助"免费雀神挂件怎么安装"开挂(透视)辅助插件(AA德州教程真的有挂);亲,免费雀神挂件怎么...
往昔有开挂"hhpo... 较多好评“微乐万能挂官网”开挂(透视)辅助教程 了解更多开挂安装加(136704302)微信号是一款...
起初有辅助"创思维激... 【亲,创思维激k辅助控制器 这款游戏可以开挂的,确实是有挂的,很多玩家在这款创思维激k辅助控制器中打...
素来有开挂"广东闲来... >>您好:广东闲来app辅助确实是有挂的,很多玩家在这款广东闲来app辅助游戏中打牌都会发现很多用户...
素来有开挂"佛手在线... 素来有开挂"佛手在线大菠萝的算法是什么"开挂(透视)辅助透视(辅助教程存在有挂);无需打开直接搜索微...
一向有辅助"乐酷副厅... 您好:这款乐酷副厅辅助游戏是可以开挂的,确实是有挂的,很多玩家在这款乐酷副厅辅助游戏中打牌都会发现很...
固有有辅助"微乐小程... 固有有辅助"微乐小程序自建房辅助"开挂(透视)辅助插件(高科技教程有挂辅助);无需打开直接搜索打开薇...