AWS Glue Crawler默认情况下不会追加数据,它将重新扫描目标数据源并更新表的元数据。如果要使AWS Glue Crawler追加数据而不是再次扫描整个数据源,可以使用以下解决方法:
import boto3
def lambda_handler(event, context):
glue = boto3.client('glue')
crawler_name = 'your-crawler-name'
# 运行AWS Glue Crawler以追加数据
response = glue.start_crawler(Name=crawler_name)
return {
'statusCode': 200,
'body': response
}
请注意,这种方法是基于定期运行Lambda函数来实现的,它不会立即检测和追加新数据。您可以根据自己的需求和数据源的更新频率来调整触发器的配置。