Athena创建的AWS Glue表被EMR Spark读取两次。
创始人
2024-09-21 13:30:28
0

要解决"Athena创建的AWS Glue表被EMR Spark读取两次"的问题,可以使用以下代码示例中的两种方法。

方法1:使用Distinct操作符

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取Athena创建的AWS Glue表
df = spark.read.format("awsdatacatalog")
    .option("catalogName", "AwsDataCatalog")
    .option("database", "your_database_name")
    .option("tableName", "your_table_name")
    .load()

# 使用Distinct操作符去重
df_distinct = df.distinct()

# 打印去重后的数据
df_distinct.show()

方法2:使用dropDuplicates方法

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取Athena创建的AWS Glue表
df = spark.read.format("awsdatacatalog")
    .option("catalogName", "AwsDataCatalog")
    .option("database", "your_database_name")
    .option("tableName", "your_table_name")
    .load()

# 使用dropDuplicates方法去重
df_distinct = df.dropDuplicates()

# 打印去重后的数据
df_distinct.show()

相关内容

热门资讯

线上(wepoke真的)原来是... 线上(wepoke真的)原来是真的有挂!其实真的有挂(2022已更新)(哔哩哔哩);亲,其实确实真的...
两教程(Wepoke程序)软件... 两教程(Wepoke程序)软件透明挂辅助工具(软件透明挂)透视辅助(2024已更新)(哔哩哔哩);致...
软件(wepoke透明)原来是... 软件(wepoke透明)原来是真的有挂!其实真的有挂(2020已更新)(哔哩哔哩)是一款可以让一直输...
一模拟器(德扑工具)外挂辅助工... 一模拟器(德扑工具)外挂辅助工具(透视)透视辅助(2025已更新)(哔哩哔哩);亲真的是有正版授权,...
系统(aapoker讲解)竟然... 系统(aapoker讲解)竟然真的有挂!其实真的有挂(2021已更新)(哔哩哔哩);aapoker讲...
6系统(aapoker下载)外... 6系统(aapoker下载)外挂辅助工具(辅助挂)透视辅助(2023已更新)(哔哩哔哩)aapoke...
智能(德扑之星刷数据)果真真的... 智能(德扑之星刷数据)果真真的有挂!原来真的有挂(2025已更新)(哔哩哔哩);《WPK辅助透视》‌...
1机器人(德州nzt软件)软件... 1机器人(德州nzt软件)软件透明挂辅助软件(透视)透视辅助(2022已更新)(哔哩哔哩);人气非常...
ai代打(德扑之星决策)确实是... ai代打(德扑之星决策)确实是真的有挂!原来真的有挂(2020已更新)(哔哩哔哩);科技详细教程小薇...
第8透明(wepoke数据)外... 第8透明(wepoke数据)外挂透明挂辅助神器(辅助挂)透视辅助(2023已更新)(哔哩哔哩);原来...