以下是使用Python中的pandas库来按照一个列进行分组并填充缺失值的示例代码:
import pandas as pd
# 创建示例数据
data = {'日期': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
'数值': [1, 2, None, 4, 5]}
df = pd.DataFrame(data)
# 按照日期列进行分组,并填充缺失值
df['数值'] = df.groupby('日期')['数值'].transform(lambda x: x.fillna(x.mean()))
print(df)
输出结果:
日期 数值
0 2021-01-01 1.0
1 2021-01-01 2.0
2 2021-01-02 4.0
3 2021-01-02 4.0
4 2021-01-03 5.0
在这个示例中,我们首先创建了一个包含日期和数值列的示例数据框(df)。然后,我们使用groupby
函数按照日期列进行分组,并使用transform
函数来应用填充缺失值的操作。在transform
函数中,我们使用了fillna
函数来填充数值列中的缺失值。在这个示例中,我们使用了每个分组中的非缺失值的均值来填充缺失值,即对于同一日期的所有行,将缺失值填充为该日期下所有非缺失值的平均值。
最后,我们打印输出了填充缺失值后的数据框。