使用Python的pandas库,可以先按日期排序,再使用groupby方法对日期列进行分组,并选择最后一个值。示例如下:
import pandas as pd
# 创建数据集
data = {'name': ['tom', 'tom', 'jerry', 'jerry', 'bob', 'bob'],
'date': ['2020-10-01', '2020-10-02', '2020-09-30', '2020-10-02', '2020-10-01', '2020-10-03'],
'value': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)
# 转换日期列的类型
df['date'] = pd.to_datetime(df['date'])
# 按日期排序
df = df.sort_values(by='date')
# 按最近日期进行分组
grouped = df.groupby('name').last().reset_index()
print(grouped)
输出结果为:
name date value
0 bob 2020-10-03 6
1 jerry 2020-10-02 4
2 tom 2020-10-02 2