以下是一个示例代码,演示如何按最早日期选择唯一ID:
import pandas as pd
# 创建示例数据
data = {'ID': [1, 2, 3, 4, 5],
'Date': ['2021-01-01', '2021-02-01', '2021-01-01', '2021-03-01', '2021-02-01']}
df = pd.DataFrame(data)
# 将日期列转换为日期时间格式
df['Date'] = pd.to_datetime(df['Date'])
# 按日期排序
df = df.sort_values('Date')
# 选择每个日期的第一个唯一ID
df_unique = df.groupby('Date').first().reset_index()
print(df_unique)
输出结果:
Date ID
0 2021-01-01 1
1 2021-02-01 2
2 2021-03-01 4
在这个示例中,我们首先将日期列转换为日期时间格式,然后使用sort_values()
方法按日期排序数据框。接下来,我们使用groupby()
方法和first()
函数选择每个日期的第一个唯一ID。最后,我们使用reset_index()
方法重置索引,并将结果存储在df_unique
变量中。