假设我们有一个数据集,其中包含许多行,每行都有日期、姓名、城市和销售额等字段。我们希望按日期和城市对数据进行聚合,并筛选出在特定日期范围内且城市为西雅图的数据行。
可以使用Python的pandas库来完成这个任务。首先,将数据集读入pandas中:
import pandas as pd
data = pd.read_csv("sales_data.csv")
然后,将数据集按日期和城市分组,并对销售额进行求和:
grouped = data.groupby(['date', 'city']).agg({'sales': 'sum'})
接着,使用过滤器过滤出日期为2021年10月1日至2021年10月31日且城市为西雅图的数据:
filtered = grouped.loc[(grouped.index.get_level_values('date') >= '2021-10-01') &
(grouped.index.get_level_values('date') <= '2021-10-31') &
(grouped.index.get_level_values('city') == 'Seattle')]
最后,将数据写入CSV文件:
filtered.to_csv("seattle_sales.csv")
上一篇:按行绝对值排序的NumPy数组
下一篇:按行括号内标题拆分和重新排列的列