ApacheSparkMLlibStandardScalervsz-score
创始人
2024-09-06 12:00:49
0

Apache Spark MLlib提供了标准化工具StandardScaler,但是它的标准差是通过除以样本标准差得到的,而不是通过除以总体标准差得到的z-score。如果想使用z-score进行标准化,可以使用以下代码:

from pyspark.ml.feature import StandardScaler
from pyspark.sql.functions import sqrt, mean

# 计算所有样本的平均值和标准差
mean_std = df.select(
    mean('col1').alias('mean'),
    sqrt(variance('col1') * (count('col1') / (count('col1') - 1))).alias('std')
).first()

# 将mean和std作为转换器的参数,使用z-score进行标准化
scaler = StandardScaler(inputCol='col1', outputCol='scaled_col1', withMean=True, withStd=False,
                        mean=mean_std.mean, std=mean_std.std)
scaled_df = scaler.fit(df).transform(df)

在上述代码中,首先使用Spark SQL中的函数计算所有样本的平均值和标准差(需要注意的是,这里使用无偏样本方差校正系数进行调整),然后将计算得到的mean和std作为转换器StandardScaler的参数,设置withMean为True表示使用z-score进行标准化,withStd为False表示不再计算样本标准差。最后将转换器应用于原始数据集,得到标准化后的新数据集。

相关内容

热门资讯

透视玄学!aapoker辅助工... 透视玄学!aapoker辅助工具存在吗,wpk德州局怎么透视,插件教程(素来是真的有挂) 科技详细教...
透视苹果版!wepoker透视... 自定义wepoker透视底牌脚本系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用辅...
透视教学!红龙poker作弊指... 您好,红龙poker作弊指令这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302】很多...
透视总结!hhpoker透视脚... 透视总结!hhpoker透视脚本,wpk显示有作弊,可靠技巧(从前有挂);值得一提的是,hhpoke...
透视攻略!wepoker底牌透... 透视攻略!wepoker底牌透视脚本怎样安装,德普之星透视辅助,发现一款(有挂教程)1、构建自己的微...
透视计算!wepoker透视脚... 自定义wepoker透视脚本安卓系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用辅...
透视辅助!wepoker透视版... 透视辅助!wepoker透视版下载,智星菠萝辅助怎么买,玩家分析(有挂透明)是一款可以让一直输的玩家...
透视透视!德普之星透视辅助软件... 透视透视!德普之星透视辅助软件是真的吗,wepoker黑侠破解,德州教程(果然有挂);玩家必备必赢加...
透视好友房!wpk透视脚本视频... 1、透视好友房!wpk透视脚本视频,wepoker脚本,推荐一款(有挂详情);该软件可以轻松地帮助玩...
透视黑科技!aapoker辅助... 透视黑科技!aapoker辅助是真的吗,wpk软件是正规的吗,2025新版教程(好像存在有挂);aa...