要获取时间间隔,可以使用Apache Spark的pyspark.sql.functions
模块中的datediff
函数。下面是一个示例代码:
from pyspark.sql import SparkSession
from pyspark.sql.functions import datediff
# 创建SparkSession
spark = SparkSession.builder.appName("Time Interval").getOrCreate()
# 创建示例数据帧
data = [("2021-01-01", "2021-01-05"), ("2021-02-01", "2021-02-10")]
df = spark.createDataFrame(data, ["start_date", "end_date"])
# 计算日期间隔并添加到数据帧中
df = df.withColumn("interval", datediff(df.end_date, df.start_date))
# 显示结果
df.show()
运行此代码将输出以下结果:
+----------+----------+--------+
|start_date| end_date|interval|
+----------+----------+--------+
|2021-01-01|2021-01-05| 4|
|2021-02-01|2021-02-10| 9|
+----------+----------+--------+
在上面的示例中,我们首先创建了一个包含起始日期和结束日期的数据帧。然后,我们使用datediff
函数计算了日期之间的天数间隔,并将其添加到数据帧中的新列"interval"中。最后,我们显示了包含日期间隔的结果数据帧。