在处理缺失值时,可以将缺失值替换为特定的值或者使用特定的方法进行处理。以下是几种常见的方法:
import pandas as pd
import numpy as np
# 创建包含缺失值的DataFrame
df = pd.DataFrame({'A': [1, np.nan, 3],
'B': [4, 5, np.nan]})
# 替换缺失值为0
df.fillna(0)
# 替换缺失值为均值
df.fillna(df.mean())
# 替换缺失值为中位数
df.fillna(df.median())
# 替换缺失值为众数
df.fillna(df.mode().iloc[0])
# 使用线性插值替换缺失值
df.interpolate()
# 使用多项式插值替换缺失值
df.interpolate(method='polynomial', order=2)
# 删除包含缺失值的行
df.dropna()
# 删除包含缺失值的列
df.dropna(axis=1)
需要根据具体情况选择合适的方法来处理缺失值。