AWSGlue爬虫仅爬取列名而不是数据的方法?
创始人
2024-09-25 16:01:21
0

AWS Glue爬虫默认情况下只爬取列名而不是数据。要使爬虫爬取数据,需要在爬虫的配置中添加“--update-all-ux”参数。例如,如果你使用Python编写的AWS Glue爬虫,可以在您的脚本中添加以下代码片段:

import sys
from awsglue.utils import getResolvedOptions

args = getResolvedOptions(sys.argv, ['JOB_NAME'])

glueContext = GlueContext(SparkContext.getOrCreate())

crawler = glueContext.create_dynamic_frame_from_options(
    connection_options={
        'path': 's3://example-bucket/path/to/data'
    },
    format='csv',
    transformation_ctx='crawler'
)

crawler.toDF().show()

# Add the following line to enable crawling of data
crawler_options = crawler.toDF().options

crawler_options['updateSchemaInCatalog'] = 'true'
crawler_options['optionFiles'] = '/tmp/options.json'
crawler.toDF(**crawler_options).show()

在此示例中,爬虫从S3存储桶中加载CSV格式的数据,并使用show()方法显示数据。添加crawler_options变量并将'updateSchemaInCatalog'选项设置为'true'来启用数据爬虫。原理是在AWS Glue数仓中更新爬取到的数据结构,以便进一步使用。

相关内容

热门资讯

现有说明如下!aapoker辅... 现有说明如下!aapoker辅助工具安全吗,wepoker分析(透视)科普教程(新版有挂)-哔哩哔哩...
反观!wpk模拟器是什么,we... 反观!wpk模拟器是什么,wepoker辅助软件视频(透视)有挂教程(有挂详细)-哔哩哔哩1、wep...
事发当天!wepoker高级辅... 事发当天!wepoker高级辅助,cloudpoker辅助(透视)了解教程(有挂详细)-哔哩哔哩1、...
透视有挂!来玩app破解版,哈... 透视有挂!来玩app破解版,哈糖大菠萝能开挂吗(透视)曝光教程(有挂方法)-哔哩哔哩1、这是跨平台的...
据统计!wepoker怎么破解... 据统计!wepoker怎么破解游戏,wepoker正确养号方法(透视)必备教程(揭秘有挂)-哔哩哔哩...
据报道!wepoker插件程序... 据报道!wepoker插件程序激活码,aapoker透视怎么用(透视)曝光教程(有挂工具)-哔哩哔哩...
透视ai!wepoker私人局... 透视ai!wepoker私人局开挂视频,sohoo poker辅助(透视)了解教程(有挂方法)-哔哩...
辅助透视!wepokerplu... 辅助透视!wepokerplus到底是挂了吗,werplan免费挂下载(透视)推荐教程(发现有挂)-...
截至目前!aapoker透视怎... 您好,aapoker透视怎么用这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054...
透视好牌!aapoker公共底... 透视好牌!aapoker公共底牌,wepoker好友房开挂(透视)总结教程(有挂工具)-哔哩哔哩1、...