示例代码:
# 导入必要的库
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("describe_and_summary_example").getOrCreate()
# 读取数据集
df = spark.read.csv("data.csv", header=True, inferSchema=True)
# 使用describe()方法计算统计指标
describe_df = df.describe()
# 使用summary()方法计算详细统计信息
summary_df = df.summary()
# 打印结果
print("describe()方法的结果:")
describe_df.show()
print("summary()方法的结果:")
summary_df.show()
上述代码中,假设data.csv
是包含数据的CSV文件。首先,通过SparkSession
创建一个Spark会话。然后,使用spark.read.csv()
方法读取CSV文件并创建一个DataFrame。接下来,分别使用describe()
和summary()
方法计算统计指标,并将结果分别保存到describe_df
和summary_df
中。最后,通过show()
方法打印出结果。
请注意,根据具体的数据集和需求,可以适当调整代码中的数据集路径和列名等参数。