你可以使用Python的pandas库来进行条件筛选。下面是一个示例代码:
import pandas as pd
# 创建一个示例数据集
data = {'ID': [1, 2, 3, 4, 5],
'日期': ['2022-01-01', '2022-01-02', '2022-01-01', '2022-01-03', '2022-01-02'],
'数值': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 将日期列转换为日期类型
df['日期'] = pd.to_datetime(df['日期'])
# 按照最早的日期和ID进行条件筛选
filtered_df = df.groupby('ID').apply(lambda x: x.loc[x['日期'] == x['日期'].min()])
# 打印筛选结果
print(filtered_df)
输出结果:
ID 日期 数值
0 1 2022-01-01 10
2 3 2022-01-01 30
3 4 2022-01-03 40
在示例代码中,首先创建了一个示例数据集df
,其中包含ID、日期和数值三列。然后,将日期列转换为日期类型,以便后续按日期排序。接下来,使用groupby
函数将数据按照ID进行分组,然后使用apply
方法在每个分组中筛选出最早的日期对应的行。最后,将筛选结果打印出来。