以下是一个示例代码,展示如何按照一个列的两个函数对数据框进行分区和写入操作,并将输出映射到指定的目录结构。
import os
import pandas as pd
# 创建一个示例数据框
data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'Nick', 'John'],
'Age': [20, 25, 30, 20, 25, 30],
'Salary': [5000, 6000, 7000, 5000, 6000, 7000]}
df = pd.DataFrame(data)
# 定义两个用于分区的函数
def partition_func1(value):
return str(value)
def partition_func2(value):
return str(value)[0]
# 按照列 'Age' 的两个函数进行分区
df['Partition1'] = df['Age'].apply(partition_func1)
df['Partition2'] = df['Age'].apply(partition_func2)
# 创建目录结构
output_dir = 'output'
if not os.path.exists(output_dir):
os.makedirs(output_dir)
# 将数据框按照分区写入到指定目录
for partition1 in df['Partition1'].unique():
partition1_dir = os.path.join(output_dir, partition1)
if not os.path.exists(partition1_dir):
os.makedirs(partition1_dir)
for partition2 in df[df['Partition1'] == partition1]['Partition2'].unique():
partition2_dir = os.path.join(partition1_dir, partition2)
if not os.path.exists(partition2_dir):
os.makedirs(partition2_dir)
partition_df = df[(df['Partition1'] == partition1) & (df['Partition2'] == partition2)]
partition_df.to_csv(os.path.join(partition2_dir, 'data.csv'), index=False)
在这个示例中,我们首先创建了一个示例数据框 df
,其中包含了三列 'Name'、'Age' 和 'Salary'。然后定义了两个用于分区的函数 partition_func1
和 partition_func2
,它们分别根据 'Age' 列的值返回一个字符串作为分区的标识。
接下来,我们使用 df['Age'].apply()
方法应用这两个函数,将返回的结果存储在两个新的列 'Partition1' 和 'Partition2' 中,作为数据框的分区标识。
然后,我们使用 os.makedirs()
方法创建了一个名为 'output' 的目录,用于存储输出结果。然后,使用一个嵌套的循环,按照分区的标识创建目录结构,并将每个分区的数据存储为一个名为 'data.csv' 的 CSV 文件。
最后,我们得到的目录结构如下所示:
output/
├── 20/
│ ├── 2/
│ │ └── data.csv
│ └── 5/
│ └── data.csv
├── 25/
│ ├── 2/
│ │ └── data.csv
│ └── 5/
│ └── data.csv
└── 30/
├── 3/
│ └── data.csv
└── 7/
└── data.csv
每个分区的数据被存储为一个独立的 CSV 文件,根据分区的标识存储在相应的目录下。