AWSGlue如何并行读取JSON文件?
创始人
2024-09-25 16:30:06
0

在AWS Glue中并行读取JSON文件的方法是使用DynamicFrame。以下是示例代码:

from awsglue.context import GlueContext
from pyspark.context import SparkContext
from awsglue.dyf import Dyf

sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

dyf = Dyf(spark.read.json("s3://path/to/json"))
parallelized_dyf = dyf.repartition(10)

# 处理并行读取后的数据
apply_mapping = ApplyMapping.apply(frame = parallelized_dyf, mappings = [("field1", "string", "new_field1"), ("field2", "int", "new_field2")], transformation_ctx = "apply_mapping")

sink = glueContext.getSink(
    format_options={
        "compression": "gzip",
        "partitionKeys": ["new_field1"]
    },
    path="s3://output/path/",
    enableUpdateCatalog=True
)

sink.setCatalogInfo(catalogDatabase="database_name", catalogTableName="table_name")
sink.setFormat("glueparquet")
sink.writeFrame(frame=apply_mapping)

在这里,我们首先从S3读取JSON文件,并使用Dyf将其转换为DynamicFrame。接下来,我们对DynamicFrame进行重新分区,并使用ApplyMapping进行转换。最后,我们写入处理后的数据到S3中,同时更新AWS Glue的数据目录。

相关内容

热门资讯

第3分钟窍要!德扑之心免费透视... 第3分钟窍要!德扑之心免费透视(透视)一贯是有辅助下载(哔哩哔哩)该软件可以轻松地帮助玩家将德扑之心...
第七分钟阶段!hhpoker怎... 第七分钟阶段!hhpoker怎么破解(透视)竟然有辅助开挂(哔哩哔哩)该软件可以轻松地帮助玩家将hh...
九分钟秘籍!wepoker私人... 九分钟秘籍!wepoker私人局俱乐部辅助(透视)总是是有辅助下载(哔哩哔哩)1、这是跨平台的wep...
7分钟课程!wepoker究竟... 7分钟课程!wepoker究竟有没有透视(透视)切实是真的有辅助安装(哔哩哔哩)1、用户打开应用后不...
第三分钟教程书!wepoker... 第三分钟教程书!wepoker轻量版辅助(透视)果然有辅助教程(哔哩哔哩)该软件可以轻松地帮助玩家将...
六分钟大纲!wepoker插件... 六分钟大纲!wepoker插件辅助(透视)本来是有辅助透视(哔哩哔哩)运wepoker插件辅助辅助工...
第六分钟策略!拱趴大菠萝挂哪里... 第六分钟策略!拱趴大菠萝挂哪里(透视)好像是真的有辅助神器(哔哩哔哩)1、拱趴大菠萝挂哪里辅助软件下...
5分钟技法!wpk透视工作室(... 5分钟技法!wpk透视工作室(透视)切实是有辅助教程(哔哩哔哩)wpk透视工作室脚本下载中分为三种模...
8分钟阶段!wepoker透视... 8分钟阶段!wepoker透视脚本安卓(透视)其实有辅助下载(哔哩哔哩)1、wepoker透视脚本安...
3分钟法门!如何判断wpk辅助... 3分钟法门!如何判断wpk辅助软件的真假(透视)原来是真的有辅助教程(哔哩哔哩)1、起透看视 如何判...