AWSGluePysparkParquet写入S3花费太长时间”
创始人
2024-09-25 16:01:36
0
  1. 调整数据分区方式:在写Parquet文件之前,根据数据的特征合理设置分区方式,以减少数据的冗余和存储空间,提高写入速度。示例代码:

df = spark.read.format("csv").load("s3://bucket/file.csv") df.write.partitionBy("date").parquet("s3://bucket/data.parquet")

  1. 增加executor数量:提高AWS Glue Job的executor数量可以增加集群的计算资源,加速数据处理和写入速度。示例代码:

from awsglue.context import GlueContext from pyspark.context import SparkContext

sc = SparkContext() glue_context = GlueContext(sc)

job = glue_context.create_job("ExampleJob", args) job.init()

spark = glue_context.spark_session spark.conf.set("spark.dynamicAllocation.enabled", "false") # 禁用动态分配

glue_context._jsc.sc().getExecutorMemoryStatus().size() # 获取当前executor数量 glue_context._jsc.sc().setExecutorLimit(10) # 设置executor数量为10

  1. 修改文件写入格式:使用其他格式替换Parquet格式,如ORC或CSV格式,可以减少写入时间和存储空间。示例代码:

df.write.orc("s3://bucket/data.orc")

以上方法都可以有效地缩短AWS Glue Pyspark Parquet写入S3花费的时间。

相关内容

热门资讯

第十分钟辅助!wejoker辅... 第十分钟辅助!wejoker辅助器怎么卖,wepoker免费透视脚本,窍门教程(有挂方式)1、进入游...
十分钟辅助!wepoker-h... 十分钟辅助!wepoker-h5下载,pokernow辅助控制,绝活教程(有挂实锤)1、点击下载安装...
5分钟辅助!aapoker辅助... 5分钟辅助!aapoker辅助器怎么用,wepoker模拟器哪个好用,模板教程(有挂辅助)wepok...
八分钟辅助!wpk官网下载链接... 八分钟辅助!wpk官网下载链接,wpk透视怎么安装,教程书教程(有挂分享)该软件可以轻松地帮助玩家将...
9分钟辅助!wepoker怎么... 9分钟辅助!wepoker怎么买辅助,wepoker安装教程,课程教程(有挂方略)1、wepoker...
第七分钟辅助!hh poker... 第七分钟辅助!hh poker插件下载,wepoker科技辅助器,教程书教程(有挂教程)wepoke...
三分钟辅助!hhpoker脚本... 三分钟辅助!hhpoker脚本下载,hhpoker辅助器,举措教程(有挂教程)三分钟辅助!hhpok...
第8分钟辅助!hhpoker的... 第8分钟辅助!hhpoker的辅助是真的吗,wepoker祈福有用吗,讲义教程(有挂解密)1、第8分...
6分钟辅助!hhpoker是真... 6分钟辅助!hhpoker是真的假的,hhpoker真的有透视吗,演示教程(真是有挂)1、每一步都需...
第七分钟辅助!we poker... 第七分钟辅助!we poker插件,we poker免费辅助器,手筋教程(有挂方式)暗藏猫腻,小编详...