AwsGlue任务生成了很多小文件
创始人
2024-09-25 16:01:52
0

使用“合并文件”的技术,将多个小文件合并成一个大文件,以减少存储成本,并提高查询的性能。

示例代码如下:

from pyspark.sql.functions import monotonically_increasing_id
from pyspark.sql.functions import udf
from pyspark.sql.types import StructType, StructField, IntegerType
from pyspark.sql.types import StringType, DoubleType, BooleanType

# 定义UDF将小文件合并成一个大文件
def merge_files(partition):
    # 通过monotonically_increasing_id函数为每一个行添加一个唯一的ID号码
    index = int(partition.first()["id"])
    filename = "/tmp/big_file_" + str(index) + ".csv"
    # 将小文件读取进来,合并成一个大文件
    with open(filename, "w") as f:
        for row in partition:
            f.write(",".join([str(x) for x in row]))
            f.write("\n")

# 定义结构和创建DF
schema = StructType([
  StructField("column1", IntegerType(), True),
  StructField("column2", StringType(), True),
  StructField("column3", DoubleType(), True),
  StructField("column4", BooleanType(), True)
])

input_df = spark.read.csv("s3://my_bucket/small_files/", header=True, schema=schema)

# 在DF上面调用UDF
output_df = input_df.repartition(10).sort("id").foreachPartition(merge_files)

这里我们使用了pyspark内置的函数 monotonically_increasing_id 给每一行数据添加了唯一的ID号码,并设定每个分区有10个文件。在执行 foreachPartition 操作之后,将调用我们自定义的UDF,将每个分区中的数据合并成一个大文件。最后,使用 spark.read.csv 函数从S3中读取这些大文件进行后续的数据分析处理。

相关内容

热门资讯

第十分钟神器!微乐小程序黑科技... 您好,微乐小程序黑科技这款游戏可以开挂的,确实是有挂的,需要了解加去威信【136704302】很多玩...
透视教程!微乐小程序黑科技,微... 透视教程!微乐小程序黑科技,微乐小程序脚本入口(透视)确实是真的挂(哔哩哔哩)1、这是跨平台的微乐小...
第二分钟辅助!微乐小程序黑科技... 第二分钟辅助!微乐小程序黑科技,微乐游戏小程序脚本(开挂)本来有挂(2026)在进入微乐小程序黑科技...
黑科技技巧!微乐小程序黑科技,... 黑科技技巧!微乐小程序黑科技,微乐自建房辅助工具下载入口在哪(透视)果然是真的挂(哔哩哔哩)黑科技技...
七分钟插件!微乐小程序免费黑科... 七分钟插件!微乐小程序免费黑科技,微乐小程序黑科技免费知乎(开挂)原来存在有挂(2026)1、上手简...
透视能赢!微乐小程序免费黑科技... 透视能赢!微乐小程序免费黑科技,微乐手游脚本辅助(透视)真是有挂(哔哩哔哩)1.微乐小程序免费黑科技...
第一分钟工具!微乐小程序免费黑... 第一分钟工具!微乐小程序免费黑科技,广西微乐小程序辅助器(开挂)总是有挂(2026)1、微乐小程序免...
今年以来!微乐小程序黑科技,广... 今年以来!微乐小程序黑科技,广西微乐小程序控制器(透视)切实有挂(哔哩哔哩)1)广西微乐小程序控制器...
4分钟透视!微乐小程序免费黑科... 您好,微乐小程序免费黑科技这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】很...
6分钟工具!微乐小程序黑科技,... 6分钟工具!微乐小程序黑科技,微乐游戏公众号辅助器(开挂)总是真的是有挂(2026)1、每一步都需要...