ApacheBeam中Deduplicate函数出现问题
创始人
2024-09-05 12:30:12
0

问题的来源是,Apache Beam 的 Deduplicate 函数在去重时可能会出现将相同记录视为不同记录的错误情况。要解决这个问题,可以自定义一个去重函数来替代 Deduplicate 函数。以下是一个示例的代码:

import apache_beam as beam
from apache_beam.transforms import CombinePerKey

class CustomDeduplicate(beam.DoFn):

    def process(self, element):
        record, unique_key = element
        yield (unique_key, record)

    def remove_duplicates(self, _, records):
        yield next(records)

    def __call__(self, records):
        return (
            records
            | beam.Map(lambda e: (e, None))
            | CombinePerKey(self.remove_duplicates)
            | beam.Map(lambda e: e[0])
        )

records = [
    {'id': 1, 'name': 'Alice'},
    {'id': 1, 'name': 'Alice'},
    {'id': 2, 'name': 'Bob'},
    {'id': 3, 'name': 'Charlie'},
    {'id': 3, 'name': 'Charlie'},
]

with beam.Pipeline() as p:
    deduplicated_records = (
        p
        | beam.Create(records)
        | beam.ParDo(CustomDeduplicate())
    )
    output = deduplicated_records | beam.Map(print)

上述代码中的 CustomDeduplicate 类实现了一个自定义的 Deduplicate 函数。该函数使用了 CombinePerKey 这个 Beam 自带的函数,将具有相同键的记录聚合到一起,然后保留其中的一个记录,去除重复项。最后将去重后的记录输出给下一个节点。

相关内容

热门资讯

为了进一步!欢乐达人模拟器!一... 为了进一步!欢乐达人模拟器!一直是真的辅助挂(有挂攻略)-哔哩哔哩1、打开软件启动之后找到中间准星的...
事发当天!衢州都莱软件辅助器!... 事发当天!衢州都莱软件辅助器!其实真的有辅助挂(有挂方略)-哔哩哔哩1、上手简单,内置详细流程视频教...
更值得关注的是!518互游辅助... 更值得关注的是!518互游辅助器免费下载!都是真的有辅助app(真实有挂)-哔哩哔哩1、下载好518...
此事迅速冲上热搜!丫丫辅助器!... 此事迅速冲上热搜!丫丫辅助器!确实是有辅助神器(有挂技巧)-哔哩哔哩丫丫辅助器透视方法中分为三种模型...
这一问题亟待解决!八闽状元郎胜... 这一问题亟待解决!八闽状元郎胜必神器!一直是真的辅助app(有挂方针)-哔哩哔哩运八闽状元郎胜必神器...
现场直击!呱呱丰城双剑辅助!一... 现场直击!呱呱丰城双剑辅助!一贯是有辅助修改器(讲解有挂)-哔哩哔哩1、超多福利:超高返利,海量正版...
随着!悟空大厅辅助看牌!一贯真... 随着!悟空大厅辅助看牌!一贯真的是有辅助神器(揭秘有挂)-哔哩哔哩悟空大厅辅助看牌辅助器是一种具有地...
随着!新玄龙开挂图片片!其实存... 随着!新玄龙开挂图片片!其实存在有辅助工具(真实有挂)-哔哩哔哩暗藏猫腻,小编详细说明新玄龙开挂图片...
此事引发网友热议!新超凡软甲辅... 此事引发网友热议!新超凡软甲辅助!总是是真的辅助平台(有挂透视)-哔哩哔哩1、首先打开新超凡软甲辅助...
近年来!欢乐联盟游戏辅助!其实... 近年来!欢乐联盟游戏辅助!其实存在有辅助挂(有挂分享)-哔哩哔哩暗藏猫腻,小编详细说明欢乐联盟游戏辅...