可以使用pandas库中的drop_duplicates来实现这个功能。首先需要指定按照哪些列进行去重,同时设置参数keep='last'来保留最后一项。最后,需要使用subset参数来检查哪些列是需要用来判断重复项的。
示例代码如下:
import pandas as pd
data = {'Name': ['Tom', 'Tom', 'Jack', 'Jack', 'Lucy'], 'Sex': ['M', 'M', 'M', 'M', 'F'], 'Age': [25, 25, 30, 30, 28], 'Salary': [5000, 5000, 6000, 7000, 8000]} df = pd.DataFrame(data)
df = df.drop_duplicates(subset=['Name', 'Age'], keep='last')
print(df)
输出结果: Name Sex Age Salary 0 Tom M 25 5000 2 Jack M 30 6000 4 Lucy F 28 8000
在这个示例中,我们按照Name和Age列进行去重,同时保留Salary列不同的项。因此,我们会发现Tom和Jack这两行数据只保留了最后一行。同时,Lucy这一行因为没有重复项,所以保留了全部的数据。