AWSRDS导出parquet格式表格时为什么会分段?
创始人
2024-09-26 18:31:50
0

AWS RDS 导出 parquet 格式表格时,会根据所选的文件大小进行自动分段,以确保数据的高效性和可伸缩性。

AWS SDK 提供了一个 python 示例代码,可以用来导出 parquet 格式的数据,并将其分段:

import sys
import boto3
from boto3.session import Session

session = Session(aws_access_key_id='YOUR_ACCESS_KEY', aws_secret_access_key='YOUR_SECRET_KEY')
s3 = session.resource('s3')
aws_bucket = 'YOUR_AWS_BUCKET_NAME'
aws_object_key = 'YOUR_AWS_OBJECT_KEY'
local_file = '/tmp/MY_LOCAL_FILE.parquet'

# Create an S3 resource
s3 = boto3.resource('s3')

# Get the bucket
bucket = s3.Bucket(aws_bucket)

# Download the object to local file
bucket.download_file(aws_object_key, local_file)

# Partition the data using pandas
import pandas as pd

# Read the parquet file
df = pd.read_parquet(local_file)

# Write the parquet partitions to S3
import awswrangler as wr

# Write the data partitioned to Parquet
wr.s3.to_parquet(
    df=df,
    dataset=True,
    database='mydatabase',
    table='mytable',
    path='s3://aws-bucket/mytable/',
    partition_cols=['year', 'month', 'day'],
    mode='overwrite',
    concurrent_partitioning=True
)

其中 concurrent_partitioning=True 选项表示并发分区。如果您的表格非常大,则会自动分段。

相关内容

热门资讯

透视玄学!微信小程序游戏辅助器... 透视玄学!微信小程序游戏辅助器,好友赣南脚本插件,安装教程(有挂规律)-哔哩哔哩;AI辅助机器人普及...
5分钟了解!新上游私人辅助(辅... 5分钟了解!新上游私人辅助(辅助挂)原来真的有挂(安装教程开挂辅助插件);无需打开直接搜索加(薇:1...
实测揭晓!微乐四川小程序修改器... 实测揭晓!微乐四川小程序修改器,wepoker辅助器,揭秘教程(有挂工具)-哔哩哔哩;1.微乐四川小...
1分钟透视!韵味字牌有没有挂(... 韵味字牌有没有挂开挂教程视频分享装挂详细步骤在当今的网络游戏中,韵味字牌有没有挂作为一种经典的娱乐方...
重大通报!微友助手app下载辅... 重大通报!微友助手app下载辅助器,微信小程序微乐辅助免费,透明挂教程!(证实有挂)-哔哩哔哩;小薇...
透视好友!广西老友玩游戏辅助器... 透视好友!广西老友玩游戏辅助器,杭州都莱挂,细节揭秘(发现有挂)-哔哩哔哩;1、让任何用户在无需AI...
重大通报!情怀游戏字牌辅助,葫... 重大通报!情怀游戏字牌辅助,葫芦娃七子降妖攻略,安装教程(有挂存在)-哔哩哔哩;1、这是跨平台的葫芦...
科普分享!微乐小程序辅助收费,... 科普分享!微乐小程序辅助收费,情怀宜春辅助,系统教程(有挂工具)-哔哩哔哩;微乐小程序辅助收费最新版...
盘点一款!情怀游戏字牌辅助,兴... 盘点一款!情怀游戏字牌辅助,兴动互娱有辅助吗,教你攻略(真的有挂)-哔哩哔哩;详细情怀游戏字牌辅助攻...
终于清楚!非凡贪玩挂,微乐四川... 终于清楚!非凡贪玩挂,微乐四川辅助,技巧教程(发现有挂)-哔哩哔哩;微乐四川辅助是一种具有地方特色的...