假设有两个 DataFrame,df1 和 df2,如下所示:
import pandas as pd
data1 = {'ID': [1, 1, 2, 2], 'Value1': [10, 20, 30, 40]}
data2 = {'ID': [1, 2, 2], 'Value2': [15, 25, 35]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1)
print(df2)
输出结果如下:
ID Value1
0 1 10
1 1 20
2 2 30
3 2 40
ID Value2
0 1 15
1 2 25
2 2 35
现在我们需要比较 df1 和 df2,找到每个组 ID 的 Value1 和 Value2 的最大值。
import numpy as np
# 按 ID 进行分组并找到每个组的最大值
grouped1 = df1.groupby('ID')['Value1'].max()
grouped2 = df2.groupby('ID')['Value2'].max()
# 将两个 Series 转换为 DataFrame
result = pd.concat([grouped1, grouped2], axis=1).reset_index()
# 对 NaN 值进行替换
result['Value1'].fillna(result['Value2'], inplace=True)
result['Value2'].fillna(result['Value1'], inplace=True)
# 将列名修改为更具描述性的名称
result.columns = ['ID', 'Max_Value1', 'Max_Value2']
print(result)
输出结果如下:
ID Max_Value1 Max_Value2
0 1 20 15
1 2 40 35
现在我们已经找到了每个组的最大值,可以根据需要进行比较或其他操作。