AWSGlue-文件写入时间非常长
创始人
2024-09-25 14:30:52
0
  1. 确认您的数据存储在 AWS S3 上,而不是本地或其他位置。AWS Glue 执行作业时需要将数据检索到自己的内部网络中,因此将数据存储在 S3 中可以减少数据传输时间并提高作业性能。
  2. 如果您使用的是 Gzip 格式,请考虑使用 Snappy 或 Bzip2 格式,因为写入 Gzip 格式的文件可能需要更长的时间。
  3. 在 Python 脚本中使用 Pandas 和 pyarrow 节约 CPU 和内存使用。以下是建议使用的代码:
import pandas as pd
import pyarrow as pa
from awsglue.dataframe_implicit_serializer import GlueSerializer

// 数据框 to S3
DataFrame.to_parquet('s3://path/to/output', compression='snappy', index=False, serializer=GlueSerializer())

// S3 to 数据框
temp = pd.concat([pd.read_parquet(pf) for pf in files])
df = temp.copy()
del temp

这些调整应该会显着减少写入时间。

相关内容

热门资讯

热点推荐!德扑赔率胜率计算,w... 热点推荐!德扑赔率胜率计算,wpk有外挂,解密教程(从来真的是有挂)1、金币登录送、破产送、升级送、...
重磅来袭!微扑克模拟器是什么,... 自定义德州之星辅助挂系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用辅助器,不管你...
玩家必看科普!德扑ai软件购买... 玩家必看科普!德扑ai软件购买,aapoker发牌机制,线上教程(素来真的是有挂)1、在aapoke...
热点推荐!wepoke软件透明... 热点推荐!wepoke软件透明挂演示,德扑起手牌胜率图,细节方法(本来有挂)(1)热点推荐!wepo...
六分钟了解!wepoke软件收... 六分钟了解!wepoke软件收费吗,WePoKe透视挂,系统教程(原生真的是有挂);无聊就玩这款We...
玩家必知教程!德州ai辅助神器... 玩家必知教程!德州ai辅助神器燃油,wepokeai代打,实用技巧(本来存在有挂)1、金币登录送、破...
实测发现!wpk微扑克真的有辅... 自定义WePoKe透视挂系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用辅助器,不...
推荐一款!德州ai人工智能,a... 推荐一款!德州ai人工智能,aapoker挂,透明教程(原生存在有挂);无聊就玩这款德州ai人工智能...
推荐几款新版!wopoker辅... 推荐几款新版!wopoker辅助软件,智星德州菠萝辅助器,教你攻略(真是存在有挂)1、构建自己的微扑...
关于!aapoker插件,wp... 关于!aapoker插件,wpk透明挂,力荐教程(一贯是有挂);无聊就玩这款wpk透明挂真的有辅助,...