AWSGlueETL在从S3加载Parquet文件到AWSRDS时需要极长的时间。
创始人
2024-09-25 15:01:46
0
  1. 确保您的S3桶与AWS Glue ETL作业在相同的区域中。这可以提高数据传输速度并减少延迟。
  2. 增加AWS Glue ETL作业的工人数量。更多工人可以在更短的时间内处理数据,从而提高作业的执行速度。可以在作业配置中更改工人数量。
  3. 优化AWS RDS实例的配置。如果您的RDS实例配置不足,可能会影响性能并导致加载Parquet文件变慢。
  4. 考虑使用AWS Glue ETL的分区功能。将数据分成不同的分区可以提高ETL作业的性能,并减少加载时间。
  5. 使用正确的数据存储格式。在某些情况下,文件格式可能会影响数据读取和加载时间。Parquet文件可以提高读写性能并减少数据传输时间。

示例代码: 增加AWS Glue工人数量:

import sys
from awsglue.context import GlueContext
from awsglue.utils import getResolvedOptions

args = getResolvedOptions(sys.argv, ['JOB_NAME'])

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# Set number of workers to 10
glueContext.setConf("spark.sql.shuffle.partitions", "10")

# ...add more code to your Glue ETL script

使用AWS Glue ETL分区功能:

import sys
from awsglue.context import GlueContext
from awsglue.utils import getResolvedOptions
from awsglue.dynamicframe import DynamicFrame

args = getResolvedOptions(sys.argv, ['JOB_NAME', 'PARTITION_KEY'])

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session
job = Job(glue

相关内容

热门资讯

第六分钟透视!微乐小程序游戏破... 第六分钟透视!微乐小程序游戏破解器(辅助挂)原来是有挂(普及教程开挂辅助神器);无需打开直接搜索薇:...
5分钟发现!广西友乐解码器下载... 5分钟发现!广西友乐解码器下载安装(辅助挂)果然是有挂(介绍教程开挂辅助安装) 了解更多开挂安装加(...
第六分钟科普!湖北休闲辅助(辅... 第六分钟科普!湖北休闲辅助(辅助挂)一直确实有挂(安装教程开挂辅助神器)1、下载安装好湖北休闲辅助,...
第二分钟辅助!至余干辅助(辅助... 第二分钟辅助!至余干辅助(辅助挂)其实确实有挂(教你攻略开挂辅助平台) >>您好:软件加薇13670...
7分钟辅助!仟众部落辅助(辅助... 7分钟辅助!仟众部落辅助(辅助挂)其实确实有挂(德州论坛开挂辅助平台);亲,仟众部落辅助这款游戏原来...
三分钟详情!玄龙辅助工具(辅助... 三分钟详情!玄龙辅助工具(辅助挂)一直确实有挂(规律教程开挂辅助软件);无需打开直接搜索微信(136...
第二分钟讲解!浙江游戏辅助(辅... 您好:浙江游戏辅助这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别...
十分钟了解!福建天天开心福州器... 十分钟了解!福建天天开心福州器真的假的(辅助挂)原来有挂(安装教程开挂辅助安装);无需打开直接搜索加...
第6分钟科普!微信随意玩辅助器... 您好:这款微信随意玩辅助器有开挂吗游戏是可以开挂的,确实是有挂的,很多玩家在这款微信随意玩辅助器有开...
第七分钟发现!情怀游戏字牌辅助... 第七分钟发现!情怀游戏字牌辅助(辅助挂)一直真的是有挂(黑科技教程开挂辅助神器);无需打开直接搜索打...