可以使用Python中的pandas库来进行操作。假设我们有以下示例数据集:
import pandas as pd
data = {
'date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-02', '2021-01-03'],
'value': [10, 20, 30, 40, 50, 60],
}
df = pd.DataFrame(data)
这个数据集有两个列,一个是日期,一个是值。下面我们将对这个数据集进行聚合,并计算总分数:
df_grouped = df.groupby(['date', 'value']).size().reset_index(name='count')
df_grouped['score'] = df_grouped['value'] * df_grouped['count']
df_result = df_grouped.groupby('date')['score'].sum().reset_index(name='total_score')
首先,我们对date和value进行groupby,以计算每个日期下每个value的出现次数,并将出现次数重命名为count。然后,我们计算每个组的score,即value乘以count。最后,我们再次对日期进行groupby,以计算每个日期的总分数,并将结果重命名为total_score。
最终的结果会返回一个新的DataFrame,其中包含日期和总分数两列:
print(df_result)
输出结果:
date total_score
0 2021-01-01 30
1 2021-01-02 220
2 2021-01-03 60
上一篇:按照日期和月份过滤XML文件。
下一篇:按照日期汇总两个变量