ApacheSpark无法计算平均值并将结果写入ApacheKafka。 _程序开发

ApacheSpark无法计算平均值并将结果写入ApacheKafka。

创始人

2024-09-06 12:01:04

0次

可以使用Spark Streaming将流式数据处理为批处理数据，并将结果写入Kafka。以下是一个示例代码：

import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.SparkConf

object KafkaAvg {

  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("KafkaAvg")
    val ssc = new StreamingContext(conf, Seconds(10))

    val kafkaParams = Map[String, String]("metadata.broker.list" -> "localhost:9092")
    val topics = Set("input_topic")

    val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
      ssc, kafkaParams, topics)
    
    val valueStream = kafkaStream.map(_._2.toDouble)
    val countStream = valueStream.map((_, 1)).reduceByKey(_ + _)
    val sumStream = valueStream.reduce(_ + _)

    val avgStream = sumStream.transform(sum => countStream.map { case (value, count) => (value, sum / count) })

    avgStream.print()

    val avgProducer = new KafkaProducer[String, String](...
    avgStream.foreachRDD(rdd => {
        rdd.foreachPartition(partition => {
            val results = partition.map(record => new ProducerRecord[String, String]("output_topic", record._1.toString(), record._2.toString()))
            avgProducer.send(results.toList.asJava)
        })
    })

    ssc.start()
    ssc.awaitTermination()
  }
}

此代码从输入主题中的Kafka读取流数据。然后，它使用Spark功能将值映射为双倍，并计算值的计数和总和。最后，它通过转换来计算平均值，并将结果写入新的Kafka主题中。

请注意，在这个示例中，我们使用了Apache Kafka标准Java客户端来操作Kafka主题。如果您需要使用其他Kafka客户端，请参阅相应的文档，以了解如何使用该客户端。

上一篇：ApacheSparkwithkafkastream-MissingKafka

下一篇：ApacheSpark无法识别UTF-16格式的csv文件中的列

ApacheSpark无法计算平均值并将结果写入ApacheKafka。

相关内容

热门资讯