ApacheSparkMLlibStandardScalervsz-score
创始人
2024-09-06 12:00:49
0

Apache Spark MLlib提供了标准化工具StandardScaler,但是它的标准差是通过除以样本标准差得到的,而不是通过除以总体标准差得到的z-score。如果想使用z-score进行标准化,可以使用以下代码:

from pyspark.ml.feature import StandardScaler
from pyspark.sql.functions import sqrt, mean

# 计算所有样本的平均值和标准差
mean_std = df.select(
    mean('col1').alias('mean'),
    sqrt(variance('col1') * (count('col1') / (count('col1') - 1))).alias('std')
).first()

# 将mean和std作为转换器的参数,使用z-score进行标准化
scaler = StandardScaler(inputCol='col1', outputCol='scaled_col1', withMean=True, withStd=False,
                        mean=mean_std.mean, std=mean_std.std)
scaled_df = scaler.fit(df).transform(df)

在上述代码中,首先使用Spark SQL中的函数计算所有样本的平均值和标准差(需要注意的是,这里使用无偏样本方差校正系数进行调整),然后将计算得到的mean和std作为转换器StandardScaler的参数,设置withMean为True表示使用z-score进行标准化,withStd为False表示不再计算样本标准差。最后将转换器应用于原始数据集,得到标准化后的新数据集。

相关内容

热门资讯

苹果版九分钟!wpk外挂存在来... 苹果版九分钟!wpk外挂存在来玩德州app苹果下载(本来真的有挂)-今日头条;1、实时来玩德州app...
长期9分钟!哈糖大菠萝有挂微扑... 长期9分钟!哈糖大菠萝有挂微扑克软件开发定制app(果真真的有挂)-微博客户端微扑克软件开发定制ap...
神器3分钟!智星德州菠萝开挂微... 神器3分钟!智星德州菠萝开挂微扑克规律(就是真的有挂)-今日头条1、每一步都需要思考,不同水平的挑战...
ai辅助8分钟!德扑ai智能w... 您好,德扑ai智能这款游戏可以开挂的,确实是有挂的,需要了解加微【487309276】很多玩家在这款...
规律一分钟!德州全自动辅助智星... 规律一分钟!德州全自动辅助智星德州菠萝开挂(好像真的有挂)-知乎在进入智星德州菠萝开挂辅助挂后,参与...
安装2分钟!wepoke小技巧... 安装2分钟!wepoke小技巧wpk辅助器下载方式(果真真的有挂)-小红书1、完成wpk辅助器下载方...
德州版十分钟!wpk透视辅助封... 德州版十分钟!wpk透视辅助封号wepoke ai代打(总是真的有挂)-知乎1、进入游戏-大厅左侧-...
下载七分钟!德扑之星隐藏功能微... 下载七分钟!德扑之星隐藏功能微扑克软件开发(一贯真的有挂)-哔哩哔哩1、让任何用户在无需德扑之星隐藏...
打法9分钟!扑克世界牌局设置微... 打法9分钟!扑克世界牌局设置微扑克专用辅助器(果然真的有挂)-微博客户端;1、首先打开扑克世界牌局设...
德州一分钟!wpk透视辅助合作... 德州一分钟!wpk透视辅助合作微扑克wpk辅助软件(果真真的有挂)-今日头条运微扑克wpk辅助软件辅...