以下是一个示例代码,按照最新的年份分组,并根据ID提取数据:
import pandas as pd
# 创建示例数据
data = {
'ID': [1, 2, 3, 4, 5],
'年份': [2020, 2021, 2021, 2020, 2022],
'数值': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)
# 按照最新的年份分组,并根据ID提取数据
result = df.sort_values('年份', ascending=False).groupby('ID').first().reset_index()
print(result)
输出结果为:
ID 年份 数值
0 1 2020 10
1 2 2021 20
2 3 2021 30
3 4 2020 40
4 5 2022 50
该代码首先按照年份降序排序,然后使用groupby
函数按照ID进行分组,并使用first
函数提取每组的第一个数据(即最新的年份对应的数据),最后使用reset_index
函数重置索引。最终得到根据最新年份分组,并根据ID提取的数据结果。