使用Python Pandas库可以轻松实现按州分组汇总多个变量,具体步骤如下:
import pandas as pd
data = pd.read_csv('data.csv') # 假设数据集存储在data.csv文件中
grouped_data = data.groupby('state').agg({'variable1':['mean','median','max','min'],
'variable2':['mean','median','max','min']})
grouped_data.columns = ['_'.join(col).strip() for col in grouped_data.columns.values]
grouped_data.reset_index(inplace=True)
grouped_data.to_csv('result.csv', index=False) # 将结果输出到result.csv文件中
输出的结果类似于以下形式:
state | variable1_mean | variable1_median | variable1_max | variable1_min | variable2_mean | variable2_median | variable2_max | variable2_min |
---|---|---|---|---|---|---|---|---|
CA | 30.2 | 35.5 | 52 | 18 | 2.5 | 2 | 5 | 1 |
NY | 25.7 | 24.5 | 42 | 10 | 2.3 | 2 | 4 | 1 |
TX | 28.9 | 27 | 45 | 13 | 1.9 | 2 | 3 | 1 |
其中,state表示州的名称,variable1_mean表示变量1的平均值,variable1_median表示变量1的中位数,variable1_max表示变量1的最大值,variable1_min表示变量1的最小值,以此类