Apache Spark dataframe在写入parquet文件时不会重新分区。
创始人
2024-09-04 21:00:30
0

在Apache Spark中,DataFrame在写入Parquet文件时不会自动重新分区。如果您想要重新分区DataFrame并将其写入Parquet文件,您可以按照以下步骤进行操作:

  1. 导入所需的类:
import org.apache.spark.sql.SaveMode
import org.apache.spark.sql.functions.col
  1. 重新分区DataFrame:
val repartitionedDF = originalDF.repartition(, )

这里,是您想要的新分区数,是用于重新分区的列名列表。如果您不指定,则DataFrame将使用默认的分区列。

  1. 将重新分区的DataFrame写入Parquet文件:
repartitionedDF.write.mode(SaveMode.Overwrite).parquet("")

这里,是您想要写入Parquet文件的路径。

以下是完整的示例代码:

import org.apache.spark.sql.SaveMode
import org.apache.spark.sql.functions.col

val originalDF = spark.read.parquet("")

val repartitionedDF = originalDF.repartition(, )

repartitionedDF.write.mode(SaveMode.Overwrite).parquet("")

请注意,重新分区操作可能会导致数据移动和混洗,因此对性能和可伸缩性可能会有一些影响。因此,您应该根据您的具体需求和环境进行评估和测试。

相关内容

热门资讯

攻略讲解(nzt德州)外挂透明... 攻略讲解(nzt德州)外挂透明挂辅助app(辅助挂)辅助透视(2021已更新)(哔哩哔哩)1、很好的...
传递经验(impoker)外挂... 这是一款非常优秀的impoker ia辅助检测软件,能够让你了解到impoker中牌率当中全部隐藏参...
总算了解!WPK自建房(WEP... 总算了解!WPK自建房(WEPOKE)外挂透明挂辅助软件(辅助挂)规律教程(确实有挂)-哔哩哔哩是一...
避坑细节(WPK漏洞)外挂透明... 1、避坑细节(WPK漏洞)外挂透明挂辅助软件(辅助挂)软件透明挂(2023已更新)(哔哩哔哩)。2、...
重大发现(Wepoke俱乐部)... 重大发现(Wepoke俱乐部)外挂透明挂辅助器安装(透视)软件透明挂(存在有挂)-哔哩哔哩关于Wep...
我来向大家传授!微扑克app(... 我来向大家传授!微扑克app(wEpOke)外挂透明挂辅助app(辅助挂)详细教程(竟然有挂)-哔哩...
一分钟了解(WPK自建房)外挂... 一分钟了解(WPK自建房)外挂透明挂辅助插件(透视)软件透明挂(2022已更新)(哔哩哔哩)WPK自...
透明安装(WPK)外挂透明挂辅... 透明安装(WPK)外挂透明挂辅助app(辅助挂)软件透明挂(有挂教学)-哔哩哔哩1、许多玩家不知道W...
重要通知!pokermaste... 1、重要通知!pokermaster外挂(wePoke)外挂透明挂辅助挂(辅助挂)力荐教程(有人有挂...
终于懂了(线上德州aapoke... 1、终于懂了(线上德州aapoker)外挂透明挂辅助挂(辅助挂)透视辅助(2021已更新)(哔哩哔哩...