以下是一个使用Python的代码示例,展示了如何按月平均值归一化列值,并增加了组维度。
import pandas as pd
# 创建示例数据
data = {'日期': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-02-01', '2021-02-02', '2021-02-03'],
'值': [10, 20, 30, 40, 50, 60],
'组': ['A', 'A', 'A', 'B', 'B', 'B']}
df = pd.DataFrame(data)
# 将日期列转换为Datetime类型
df['日期'] = pd.to_datetime(df['日期'])
# 按月份和组进行分组,计算每个月每个组的平均值
df['月份'] = df['日期'].dt.month
df_grouped = df.groupby(['月份', '组']).mean().reset_index()
# 计算每行值与对应月份和组的平均值的差值
df_normalized = df.merge(df_grouped, on=['月份', '组'], suffixes=('', '_avg'))
df_normalized['差值'] = df_normalized['值'] - df_normalized['值_avg']
# 归一化差值,计算每行值相对于平均值的比例
df_normalized['归一化值'] = df_normalized['差值'] / df_normalized['值_avg']
# 输出结果
print(df_normalized)
运行上述代码将输出如下结果:
日期 值 组 月份 值_avg 差值 归一化值
0 2021-01-01 10 A 1 20 -10 -0.500000
1 2021-01-02 20 A 1 20 0 0.000000
2 2021-01-03 30 A 1 20 10 0.500000
3 2021-02-01 40 B 2 50 -10 -0.200000
4 2021-02-02 50 B 2 50 0 0.000000
5 2021-02-03 60 B 2 50 10 0.200000
在代码中,首先将日期列转换为Datetime类型,然后根据月份和组进行分组,计算每个月每个组的平均值。然后,创建一个新的DataFrame df_normalized
,将原始DataFrame df
与平均值DataFrame df_grouped
进行合并。接下来,计算每行值与对应月份和组的平均值的差值,并将结果存储在差值
列中。最后,通过将差值除以平均值,计算每行值相对于平均值的比例,并将结果保存在归一化值
列中。
上一篇:按月年日期列对数据框进行排序
下一篇:按月筛选不重复的ID。