AWSGlue中没有选择XML作为数据源的选项
创始人
2024-09-25 18:01:33
0

AWS Glue 默认不支持使用 XML 字符串或 XML 文件作为数据源。但是可以使用 Spark SQL 的 XML 数据源库来读取 XML 数据。以下是使用 Spark SQL 读取 XML 文件的步骤。

  1. 首先需要将 XML 文件上传到 S3 存储桶中。
  2. 在 AWS Glue 的“Crawlers”页面创建一个新的爬虫,并配置数据源为 S3 存储桶中的 XML 文件。运行该爬虫,让 AWS Glue 自动推断出 XML 文件的模式和架构。
  3. 在 AWS Glue 的“Jobs”页面创建一个新的作业,选择使用 Spark 开发的“Scala”或“Python”语言。
  4. 在作业代码中,可以使用以下代码示例中的 PySpark 代码来读取 XML 文件并将其转换为 DataFrame。
from pyspark.sql.functions import from_xml
from pyspark.sql.types import StructType, StructField, StringType

inputPath = "s3://my-bucket/path/to/xml/file.xml"
outputPath = "s3://my-bucket/path/to/output/folder/"

customSchema = StructType([
    StructField("_id", StringType(), True),
    StructField("title", StringType(), True),
    StructField("author", StringType(), True),
    StructField("description, StringType(), True),
    StructField("price", StringType(), True)
])

df = spark.read.format("xml") \
    .schema(customSchema) \
    .option("rootTag", "books") \
    .option("rowTag", "book") \
    .load(inputPath)

df.write.mode("overwrite").format("parquet").save(outputPath)
  1. 运行作业并等待作业完成。
  2. 生成的 Parquet 文件将保存到 S3 存储桶中的指定路径。

使用以上方法,即可在 AWS Glue 中读取 XML 文件并将其转换为 Parquet 文件。

相关内容

热门资讯

记者获悉!微乐宁夏小程序插件,... 您好,微乐宁夏小程序插件这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】很多...
备受关注的!微乐广西麻辣辅助,... 备受关注的!微乐广西麻辣辅助,海贝之城有辅助吗(透视)器-切实有挂1、很好的工具软件,可以解锁游戏的...
据监测!神兽互娱辅助免费,神兽... 据监测!神兽互娱辅助免费,神兽大厅源码(透视)攻略-真是是有挂神兽互娱辅助免费破解侠是真的助透视。每...
此事引发网友热议!卡五星辅助器... 此事引发网友热议!卡五星辅助器,老友广东辅助器(透视)app-竟然有挂1、用户打开应用后不用登录就可...
据了解!新畅游互娱科技,兴动互... 据了解!新畅游互娱科技,兴动互娱辅助工具(透视)方法-真是有挂进入游戏-大厅左侧-新手福利-激活码辅...
推出新举措!传送屋激k辅助器,... 推出新举措!传送屋激k辅助器,兴动互娱游戏辅助器好用吗(透视)脚本-一贯是真的挂1、推出新举措!传送...
据了解!福建天天开心一直输怎么... 据了解!福建天天开心一直输怎么办,约战平台辅助(透视)攻略-确实是真的挂1.福建天天开心一直输怎么办...
据权威媒体报道!约局吧可以看到... 据权威媒体报道!约局吧可以看到别人底牌,对战互娱辅助(透视)插件-果然是有挂1、任何约局吧可以看到别...
据玩家消息!小程序边锋辅助,新... 据玩家消息!小程序边锋辅助,新祥心挂机(透视)工具-确实有挂小薇(辅助器软件下载)致您一封信;亲爱小...
今天上午!堆金城陕西辅助器,开... 今天上午!堆金城陕西辅助器,开心泉州免费辅助器(透视)工具-确实真的是有挂1、开心泉州免费辅助器免费...