AWSRDS导出parquet格式表格时为什么会分段?
创始人
2024-09-26 18:31:50
0

AWS RDS 导出 parquet 格式表格时,会根据所选的文件大小进行自动分段,以确保数据的高效性和可伸缩性。

AWS SDK 提供了一个 python 示例代码,可以用来导出 parquet 格式的数据,并将其分段:

import sys
import boto3
from boto3.session import Session

session = Session(aws_access_key_id='YOUR_ACCESS_KEY', aws_secret_access_key='YOUR_SECRET_KEY')
s3 = session.resource('s3')
aws_bucket = 'YOUR_AWS_BUCKET_NAME'
aws_object_key = 'YOUR_AWS_OBJECT_KEY'
local_file = '/tmp/MY_LOCAL_FILE.parquet'

# Create an S3 resource
s3 = boto3.resource('s3')

# Get the bucket
bucket = s3.Bucket(aws_bucket)

# Download the object to local file
bucket.download_file(aws_object_key, local_file)

# Partition the data using pandas
import pandas as pd

# Read the parquet file
df = pd.read_parquet(local_file)

# Write the parquet partitions to S3
import awswrangler as wr

# Write the data partitioned to Parquet
wr.s3.to_parquet(
    df=df,
    dataset=True,
    database='mydatabase',
    table='mytable',
    path='s3://aws-bucket/mytable/',
    partition_cols=['year', 'month', 'day'],
    mode='overwrite',
    concurrent_partitioning=True
)

其中 concurrent_partitioning=True 选项表示并发分区。如果您的表格非常大,则会自动分段。

相关内容

热门资讯

有消息称!老铁十三水脚本&qu... 您好,老铁十三水脚本这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】很多玩家...
据权威媒体报道!四川途游辅助软... 据权威媒体报道!四川途游辅助软件"必备辅助插件"本来是真的有挂(哔哩哔哩)该软件可以轻松地帮助玩家将...
透视好友房!多乐游戏小程序辅助... 透视好友房!多乐游戏小程序辅助器免费"有挂辅助脚本"果然真的有挂(哔哩哔哩)1、多乐游戏小程序辅助器...
近日!开心泉州辅助免费下载&q... 您好,开心泉州辅助免费下载这款游戏可以开挂的,确实是有挂的,需要了解加去威信【136704302】很...
透视插件!温州茶苑手机版辅助器... 透视插件!温州茶苑手机版辅助器"教你辅助技巧"竟然是真的有挂(哔哩哔哩)温州茶苑手机版辅助器是不是有...
透视攻略!椰岛游戏破解版&qu... 透视攻略!椰岛游戏破解版"推荐辅助攻略"切实存在有挂(哔哩哔哩)1、椰岛游戏破解版有没有辅助教程、椰...
现有关情况通报如下!福建天天开... 现有关情况通报如下!福建天天开心辅助软件大全"揭幕辅助脚本"都是真的是有挂(哔哩哔哩)1、游戏颠覆性...
黑科技技巧!蜀渝牌乐汇辅助器&... 黑科技技巧!蜀渝牌乐汇辅助器"总结辅助插件"本来真的是有挂(哔哩哔哩)1、金币登录送、破产送、升级送...
不少玩家反映!神武4辅助脚本&... 不少玩家反映!神武4辅助脚本"分享辅助软件"其实是有挂(哔哩哔哩)1、玩家可以在神武4辅助脚本线上大...
透视黑科技!手机游戏辅助器&q... 透视黑科技!手机游戏辅助器"开挂辅助方法"本来是有挂(哔哩哔哩)1、起透看视 手机游戏辅助器辅助软件...