以下是一个示例代码,可以保留具有特定列值的重复行,但其中一列的值不同:
import pandas as pd
# 创建示例数据
data = {'列1': [1, 1, 2, 2, 3, 3],
'列2': ['A', 'B', 'A', 'B', 'A', 'B'],
'列3': ['X', 'X', 'Y', 'Y', 'Z', 'Z']}
df = pd.DataFrame(data)
# 找到具有特定列值的重复行,但其中一列的值不同
duplicate_rows = df.duplicated(subset=['列1', '列2'], keep=False)
different_value_rows = df.duplicated(subset=['列1'], keep=False)
result = df[duplicate_rows & different_value_rows]
print(result)
这个代码示例使用pandas库来处理数据。首先,我们创建了一个示例数据框。然后,我们使用duplicated()
函数找到具有特定列值的重复行,并使用subset
参数指定要检查的列。接下来,我们使用&
运算符组合两个条件,即具有不同值的重复行。最后,我们使用布尔索引来筛选出满足条件的行,并打印出结果。
输出将是具有特定列值的重复行,但其中一列的值不同的数据框。
上一篇:保留具有特定结尾的行。