下面是一个示例代码,演示了如何遍历列以突出显示两个数据集之间的差异:
import pandas as pd
# 创建两个示例数据集
data1 = {'A': [1, 2, 3, 4, 5],
'B': [6, 7, 8, 9, 10],
'C': [11, 12, 13, 14, 15]}
df1 = pd.DataFrame(data1)
data2 = {'A': [1, 3, 3, 4, 6],
'B': [6, 7, 9, 9, 10],
'C': [11, 12, 15, 14, 15]}
df2 = pd.DataFrame(data2)
# 创建一个空的DataFrame用于存储差异
diff_df = pd.DataFrame(columns=df1.columns)
# 遍历列
for col in df1.columns:
# 检查两个数据集中是否存在差异
diff = df1[col] != df2[col]
# 将差异记录下来
diff_df[col] = diff
# 打印差异数据集
print(diff_df)
运行上述代码,将输出一个包含差异的DataFrame,其中True表示两个数据集在该位置上存在差异,False表示两个数据集在该位置上相同。
例如,上述代码将输出以下结果:
A B C
0 False False False
1 True False False
2 False True True
3 False False False
4 True False False
这表示数据集df1和df2在第1行的'A'列、第2行的'B'列、第2行的'C'列、第4行的'A'列和第5行的'A'列存在差异。