Apache Beam的CombinePerKey(sum)函数没有正确求和。_程序开发

Apache Beam的CombinePerKey(sum)函数没有正确求和。

创始人

2024-09-03 14:02:06

0次

要正确使用Apache Beam的CombinePerKey(sum)函数求和，需要确保输入数据类型和输出数据类型都正确。下面是一个示例代码，展示了如何正确使用CombinePerKey(sum)函数求和：

import apache_beam as beam

# 创建一个自定义的CombineFn，用于计算和
class SumFn(beam.CombineFn):
    def create_accumulator(self):
        return 0

    def add_input(self, accumulator, element):
        return accumulator + element

    def merge_accumulators(self, accumulators):
        return sum(accumulators)

    def extract_output(self, accumulator):
        return accumulator

# 创建一个Beam Pipeline
with beam.Pipeline() as pipeline:
    # 读取输入数据
    input_data = pipeline | "Read from input" >> beam.Create([1, 2, 3, 4, 5])

    # 使用CombinePerKey(sum)函数求和
    sum_result = input_data | "Sum per key" >> beam.CombinePerKey(SumFn())

    # 输出结果
    sum_result | "Write to output" >> beam.Map(print)

在上面的示例代码中，我们首先创建了一个自定义的CombineFn，用于计算和。然后，我们使用CombinePerKey(sum)函数将输入数据求和，并将结果输出。最后，我们使用beam.Map(print)将结果打印出来。

请注意，输入数据需要是一个键值对的形式，其中键用于分组，值用于求和。如果输入数据不是键值对形式，你需要使用beam.Map将其转换为键值对形式。

确保你的输入数据类型和输出数据类型与你的需求一致，并适当地调整自定义CombineFn的逻辑，以满足你的具体需求。

上一篇：Apache Beam的窗口处理：考虑迟到的数据但只发出一个窗格。

下一篇：Apache Beam的Combine与GroupByKey的比较在Apache Beam中，Combine与GroupByKey是两种常用的数据处理操作。它们在处理数据集合时有不同的特点和用途。 Combine操作将数据集合中的元素进行合并，并生成

Apache Beam的CombinePerKey(sum)函数没有正确求和。

相关内容

热门资讯