ApacheBeam中Deduplicate函数出现问题
创始人
2024-09-05 12:30:12
0

问题的来源是,Apache Beam 的 Deduplicate 函数在去重时可能会出现将相同记录视为不同记录的错误情况。要解决这个问题,可以自定义一个去重函数来替代 Deduplicate 函数。以下是一个示例的代码:

import apache_beam as beam
from apache_beam.transforms import CombinePerKey

class CustomDeduplicate(beam.DoFn):

    def process(self, element):
        record, unique_key = element
        yield (unique_key, record)

    def remove_duplicates(self, _, records):
        yield next(records)

    def __call__(self, records):
        return (
            records
            | beam.Map(lambda e: (e, None))
            | CombinePerKey(self.remove_duplicates)
            | beam.Map(lambda e: e[0])
        )

records = [
    {'id': 1, 'name': 'Alice'},
    {'id': 1, 'name': 'Alice'},
    {'id': 2, 'name': 'Bob'},
    {'id': 3, 'name': 'Charlie'},
    {'id': 3, 'name': 'Charlie'},
]

with beam.Pipeline() as p:
    deduplicated_records = (
        p
        | beam.Create(records)
        | beam.ParDo(CustomDeduplicate())
    )
    output = deduplicated_records | beam.Map(print)

上述代码中的 CustomDeduplicate 类实现了一个自定义的 Deduplicate 函数。该函数使用了 CombinePerKey 这个 Beam 自带的函数,将具有相同键的记录聚合到一起,然后保留其中的一个记录,去除重复项。最后将去重后的记录输出给下一个节点。

相关内容

热门资讯

实测交流“微信西楚辅助”本来有... 您好:微信西楚辅助这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别...
透视玄学!wpk是真的还是假的... 透视玄学!wpk是真的还是假的-详细开挂透视辅助方法(有挂秘笈)wpk是真的还是假的软件透明挂微扑克...
重大推荐“赣牌圈挂可以安装”从... 重大推荐“赣牌圈挂可以安装”从前有开挂辅助插件(有挂辅助)是一款可以让一直输的玩家,快速成为一个“必...
透视规律!wpk透视挂是真的-... 透视规律!wpk透视挂是真的-分享开挂透视辅助技巧(有挂辅助)1、超多福利:超高返利,海量正版游戏,...
每日必看“werplan脚本”... 每日必看“werplan脚本”从前有开挂辅助工具(的确有挂);亲,有的,ai轻松简单,又可以获得无穷...
透视黑科技!大菠萝789辅助器... 透视黑科技!大菠萝789辅助器下载-了解开挂透视辅助技巧(新版有挂)在进入大菠萝789辅助器下载辅助...
玩家攻略推荐“咸宁方片十三张透... 玩家攻略推荐“咸宁方片十三张透视脚本”本来有开挂辅助神器(有挂教程);亲真的是有正版授权,小编(透视...
透视了解!hhpoker有挂一... 透视了解!hhpoker有挂一直输-专业开挂透视辅助工具(存在有挂)hhpoker有挂一直输软件透明...
玩家亲测“新海贝之城辅助可以设... 玩家亲测“新海贝之城辅助可以设置”从前有开挂辅助软件(有挂方法)是一款可以让一直输的玩家,快速成为一...
透视中牌率!云扑克有透视-必备... 您好,云扑克有透视这款游戏可以开挂的,确实是有挂的,需要了解加去威信【136704302】很多玩家在...