以下是一个使用Python的示例代码,解决了保留重复日期的最新值的问题:
import pandas as pd
# 创建一个示例数据集
data = {'日期': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-03', '2021-01-03'],
'数值': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)
# 将日期列转换为日期类型
df['日期'] = pd.to_datetime(df['日期'])
# 按日期排序
df = df.sort_values('日期')
# 保留每个日期的最新值
df = df.drop_duplicates(subset='日期', keep='last')
print(df)
输出结果为:
日期 数值
1 2021-01-01 2
2 2021-01-02 3
4 2021-01-03 5
以上代码首先将日期列转换为日期类型,并按日期进行排序。然后使用drop_duplicates
函数,通过指定subset='日期'
来标识按日期列进行去重,同时使用keep='last'
参数来保留重复日期的最新值。最后打印输出去重后的数据集。
下一篇:保留重复项但加以区分