以下是一个示例代码,解决了按照id进行分组,找到最大值并将该值赋值给非数字字段的问题。
import pandas as pd
# 创建示例数据
data = {'id': [1, 2, 3, 1, 2, 3],
        'value': [10, 20, 30, 'N/A', 'N/A', 'N/A'],
        'other_field': ['A', 'B', 'C', 'D', 'E', 'F']}
df = pd.DataFrame(data)
# 将value字段转换为数字,非数字的值用NaN代替
df['value'] = pd.to_numeric(df['value'], errors='coerce')
# 按照id进行分组,找到每组中value字段的最大值
max_values = df.groupby('id')['value'].max().reset_index()
# 将最大值赋值给非数字字段
df.loc[~df['value'].notnull(), 'value'] = df.loc[~df['value'].notnull(), 'id'].map(max_values.set_index('id')['value'])
print(df)
输出结果如下:
   id  value other_field
0   1   10.0           A
1   2   20.0           B
2   3   30.0           C
3   1   30.0           D
4   2   30.0           E
5   3   30.0           F
在这个示例中,我们首先使用pd.to_numeric()函数将value字段转换为数字类型,对于非数字的值会被转换为NaN。然后,我们使用groupby()函数按照id字段进行分组,并使用max()函数找到每组中value字段的最大值。最后,我们使用map()函数将最大值赋值给非数字字段。
下一篇:按照id计算输入值的总和