AwsGlue任务生成了很多小文件
创始人
2024-09-25 16:01:52
0

使用“合并文件”的技术,将多个小文件合并成一个大文件,以减少存储成本,并提高查询的性能。

示例代码如下:

from pyspark.sql.functions import monotonically_increasing_id
from pyspark.sql.functions import udf
from pyspark.sql.types import StructType, StructField, IntegerType
from pyspark.sql.types import StringType, DoubleType, BooleanType

# 定义UDF将小文件合并成一个大文件
def merge_files(partition):
    # 通过monotonically_increasing_id函数为每一个行添加一个唯一的ID号码
    index = int(partition.first()["id"])
    filename = "/tmp/big_file_" + str(index) + ".csv"
    # 将小文件读取进来,合并成一个大文件
    with open(filename, "w") as f:
        for row in partition:
            f.write(",".join([str(x) for x in row]))
            f.write("\n")

# 定义结构和创建DF
schema = StructType([
  StructField("column1", IntegerType(), True),
  StructField("column2", StringType(), True),
  StructField("column3", DoubleType(), True),
  StructField("column4", BooleanType(), True)
])

input_df = spark.read.csv("s3://my_bucket/small_files/", header=True, schema=schema)

# 在DF上面调用UDF
output_df = input_df.repartition(10).sort("id").foreachPartition(merge_files)

这里我们使用了pyspark内置的函数 monotonically_increasing_id 给每一行数据添加了唯一的ID号码,并设定每个分区有10个文件。在执行 foreachPartition 操作之后,将调用我们自定义的UDF,将每个分区中的数据合并成一个大文件。最后,使用 spark.read.csv 函数从S3中读取这些大文件进行后续的数据分析处理。

相关内容

热门资讯

一分钟揭秘!微扑克有辅助软件吗... 一分钟揭秘!微扑克有辅助软件吗,aapoker挂,我来教教你(固有有挂)1、aapoker挂ai辅助...
重大发现!wpk德州辅助,we... 重大发现!wpk德州辅助,wepoke有挂,微扑克教程(原本有挂)1.wepoke有挂 ai辅助创建...
总算明白!微扑克辅助器是真的么... 总算明白!微扑克辅助器是真的么,德州ai辅助有用,力荐教程(都是是真的有挂)1、构建自己的微扑克辅助...
玩家必备科技!gg扑克辅助,w... 玩家必备科技!gg扑克辅助,wepoke辅助有挂,AI教程(确实真的是有挂)1、在wepoke辅助有...
重大来袭!cloudpoker... 重大来袭!cloudpoker辅助器,wepoke真的有挂,力荐教程(固有真的有挂)1、wepoke...
最新技巧!wepoke透明真的... 最新技巧!wepoke透明真的吗,智星德州菠萝有挂吗,AI教程(最初有挂);人气非常高,ai更新快且...
一分钟快速了解!德州微扑克辅助... 一分钟快速了解!德州微扑克辅助,德州微扑克辅助,高科技教程(好像存在有挂)是一款可以让一直输的玩家,...
一分钟教会你!wpk有吗,德州... 一分钟教会你!wpk有吗,德州ai辅助软件,玩家教你(固有是真的有挂)德州ai辅助软件辅助器中分为三...
实操分享!微扑克辅助,德州ai... 实操分享!微扑克辅助,德州ai机器人,科技教程(真是有挂)1、超多福利:超高返利,海量正版游戏,德州...
玩家必看科普!微扑克有辅助软件... 自定义aapoker辅助系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用辅助器,不...