ApacheBeamPython的Dataflow在使用GCPPub/Sub计数时进行了过多的计数。
创始人
2024-09-05 11:30:37
0

可以通过将窗口持续时间设置为 Pub/Sub 保留的最长时间来解决该问题,比如1小时。具体实现代码示例如下:

# 定义窗口持续时间为1小时
window_duration_in_seconds = 60 * 60

# 定义 Pub/Sub 的话题
input_topic = "projects/{project}/topics/{topic}".format(
   project=project, topic=topic)

# 定义数据流管道
pipeline = beam.Pipeline(options=options)

# 从 Pub/Sub 话题中读取数据流
messages = (
    pipeline
    | "Read Pub/Sub Messages" >> beam.io.gcp.pubsub.ReadFromPubSub(topic=input_topic)
    | "Decode Messages from JSON" >> beam.Map(lambda x: json.loads(x)))

# 固定窗口持续时间为1小时
fixed_windows = (
    messages
    | "add timestamp to messages" >> beam.ParDo(AddTimestampFn())
    | "Create Fixed Windows with Hourly duration" >> beam.WindowInto(
        beam.window.FixedWindows(window_duration_in_seconds))
)

# 进行计数操作
message_count = (
    fixed_windows
    | "Extract Pub/Sub message ids" >> beam.Map(lambda message: message.get("message_id"))
    | "Count messages" >> beam.combiners.Count.PerElement())

# 将计数结果写入云存储
message_count | "Write results to GCS" >> WriteToText(output_path)

在以上示例代码中,“AddTimestampFn”是一个自定义的 DoFn 函数,它的作用是为每条消息添加时间戳信息,以便进行窗口操作中的时间约束。最后计数结果将被写入云存储中。

相关内容

热门资讯

实测交流“微信西楚辅助”本来有... 您好:微信西楚辅助这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别...
透视玄学!wpk是真的还是假的... 透视玄学!wpk是真的还是假的-详细开挂透视辅助方法(有挂秘笈)wpk是真的还是假的软件透明挂微扑克...
重大推荐“赣牌圈挂可以安装”从... 重大推荐“赣牌圈挂可以安装”从前有开挂辅助插件(有挂辅助)是一款可以让一直输的玩家,快速成为一个“必...
透视规律!wpk透视挂是真的-... 透视规律!wpk透视挂是真的-分享开挂透视辅助技巧(有挂辅助)1、超多福利:超高返利,海量正版游戏,...
每日必看“werplan脚本”... 每日必看“werplan脚本”从前有开挂辅助工具(的确有挂);亲,有的,ai轻松简单,又可以获得无穷...
透视黑科技!大菠萝789辅助器... 透视黑科技!大菠萝789辅助器下载-了解开挂透视辅助技巧(新版有挂)在进入大菠萝789辅助器下载辅助...
玩家攻略推荐“咸宁方片十三张透... 玩家攻略推荐“咸宁方片十三张透视脚本”本来有开挂辅助神器(有挂教程);亲真的是有正版授权,小编(透视...
透视了解!hhpoker有挂一... 透视了解!hhpoker有挂一直输-专业开挂透视辅助工具(存在有挂)hhpoker有挂一直输软件透明...
玩家亲测“新海贝之城辅助可以设... 玩家亲测“新海贝之城辅助可以设置”从前有开挂辅助软件(有挂方法)是一款可以让一直输的玩家,快速成为一...
透视中牌率!云扑克有透视-必备... 您好,云扑克有透视这款游戏可以开挂的,确实是有挂的,需要了解加去威信【136704302】很多玩家在...