假设有一组日期数据date,需要按照因子factor对其进行划分,并取出每个子集中最小的日期。以下是一段Python代码示例:
import numpy as np
# 生成随机日期数据
date = np.random.choice(pd.date_range('2020-01-01', '2020-12-31'), size=100)
# 设置因子
factor = np.random.choice([1, 2, 3], size=100)
# 将日期数据和因子合并为一个DataFrame
data = pd.DataFrame({'date': date, 'factor': factor})
# 按因子划分数据并取出每个子集中最小的日期
min_date_by_factor = data.groupby('factor')['date'].min()
通过groupby函数可以按照因子factor将数据划分为多个子集,并使用min函数取出每个子集中最小的日期。最终返回的min_date_by_factor是一个Series类型,包含每个因子对应的最小日期。
上一篇:按因子和排序行位置分组数据