Arrow中表格和数据集API的区别
创始人
2024-11-10 20:00:25
0

Arrow是一个跨语言数据交换的内存列式数据结构。它提供了两个基本的API用于操作数据:表格API和数据集API。

表格API主要用于处理二维数据集,类似于关系型数据库中的表格。它提供了查找、过滤、排序、聚合等常见的数据操作操作。以下是一个示例,演示如何通过表格API创建和操作表格。

import pyarrow as pa

# Create a schema for the table
schema = pa.schema([
  ('name', pa.string()),
  ('age', pa.int32()),
  ('gender', pa.string())
])

# Create a record batch and put it in a table
record_batch = pa.RecordBatch.from_arrays([
  pa.array(['Alice', 'Bob', 'Charlie']),
  pa.array([25, 30, 35]),
  pa.array(['Female', 'Male', 'Male'])
], schema=schema)
table = pa.Table.from_batches([record_batch])

# Perform some operations on the table
filtered_table = table.filter(pa.Expression.col('age') >= 30)
sorted_table = filtered_table.sort('name')
grouped_table = sorted_table.group_by('gender').aggregate([
  pa.NamedAggregation('count', pa.aggregate.count('name')),
  pa.NamedAggregation('avg_age', pa.aggregate.mean('age'))
])

数据集API则更加通用,能够处理任意维度和类型的数据集。它提供了类似于Spark或Pandas的数据操作函数,如map、filter、reduce等以及并行化执行操作的能力。以下是一个示例,演示如何通过数据集API读取和转换数据集。

import pyarrow.dataset as ds

# Define a dataset from a Parquet file
dataset = ds.dataset('mydata.parquet')

# Define a transformation to apply to the dataset
def filter_and_rename(row):
  if row['age'] >= 30:
    return {'Name': row['name'], 'Age': row['age']}
  else:
    return None

# Apply the transformation to the dataset in parallel and write the result
result = ds.dataset(dataset).map(filter_and_rename, schema=pa.schema([('Name', pa.string()), ('Age', pa.int32())]))
result.write_to('result.parquet')

总体而言,表格API适用于处理二维数据、适合做各种SQL-like操作;而数据集API更通用,能够处理任意维度和类型的数据集,适

相关内容

热门资讯

七分钟辅助!丽水茶苑苹果手机辅... 七分钟辅助!丽水茶苑苹果手机辅助,本来是真的有辅助教程(有挂方式)1、实时丽水茶苑苹果手机辅助透视辅...
第一分钟辅助!闲来辅助神器下载... 第一分钟辅助!闲来辅助神器下载2022,好像真的有辅助方法(有挂教程)1、不需要AI权限,帮助你快速...
九分钟辅助!丽水都莱辅助工具试... 九分钟辅助!丽水都莱辅助工具试用,确实存在有辅助神器(有挂方法)九分钟辅助!丽水都莱辅助工具试用,确...
第一分钟辅助!蛮王辅助器,好像... 第一分钟辅助!蛮王辅助器,好像是有辅助方法(有挂教学)1、首先打开蛮王辅助器辅助器下载最新版本,在蛮...
第六分钟辅助!潮汕汇挂,一贯真... 第六分钟辅助!潮汕汇挂,一贯真的是有辅助插件(有挂辅助)1、这是跨平台的潮汕汇挂轻量版有透视,在线的...
六分钟辅助!微信开心泉州辅助器... 六分钟辅助!微信开心泉州辅助器,一直有辅助器(有挂教学)1、下载好微信开心泉州辅助器透视辅助下载之后...
第3分钟辅助!佛手十三道破解版... 第3分钟辅助!佛手十三道破解版安卓,竟然真的有辅助攻略(有挂存在)1、让任何用户在无需佛手十三道破解...
2分钟辅助!sohoo竞技联盟... 2分钟辅助!sohoo竞技联盟辅助,切实真的有辅助脚本(有挂技术)1.sohoo竞技联盟辅助 选牌创...
第8分钟辅助!心悦手游辅助器,... 第8分钟辅助!心悦手游辅助器,原来真的是有辅助技巧(确实有挂);1、每一步都需要思考,不同水平的挑战...
第十分钟辅助!广东雀神祈福真的... 第十分钟辅助!广东雀神祈福真的有用吗,都是是有辅助技巧(有挂方略)1、下载好广东雀神祈福真的有用吗透...