可以使用select
函数来选择保留数据框中的某些列。下面是一个示例代码:
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建示例数据框
data = [("Alice", 25, "female"),
("Bob", 30, "male"),
("Charlie", 35, "male")]
df = spark.createDataFrame(data, ["name", "age", "gender"])
# 选择保留name和age列
selected_df = df.select("name", "age")
# 显示结果
selected_df.show()
运行上述代码,将输出以下结果:
+-------+---+
| name|age|
+-------+---+
| Alice| 25|
| Bob| 30|
|Charlie| 35|
+-------+---+
在select
函数中,可以传递要保留的列名作为参数,多个列名可以使用逗号分隔。这将返回一个新的数据框,其中只包含指定的列。