在PySpark中,你可以使用filter()
方法来按照条件拆分数据框架。以下是一个示例代码:
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建示例数据框架
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35), ("Dave", 40)]
df = spark.createDataFrame(data, ["Name", "Age"])
# 按照条件拆分数据框架
df1 = df.filter(df.Age < 30) # 拆分出年龄小于30的数据
df2 = df.filter(df.Age >= 30) # 拆分出年龄大于等于30的数据
# 打印拆分后的数据框架
df1.show()
df2.show()
运行以上代码将输出:
+-----+---+
| Name|Age|
+-----+---+
|Alice| 25|
+-----+---+
+-------+---+
| Name|Age|
+-------+---+
| Bob| 30|
|Charlie| 35|
| Dave| 40|
+-------+---+
这样就可以按照条件在PySpark中拆分数据框架了。你可以根据自己的条件来修改filter()
方法的参数。
上一篇:按照条件在两行之间汇总数值
下一篇:按照条件在R中对列求和