ApacheSpark:长时间阻塞的Shuffle读取时间。为什么?
创始人
2024-09-06 12:30:34
0

通常情况下,Spark Shuffle操作是Spark应用程序中的瓶颈之一。当发现Shuffle操作时间较长时,可以遵循以下步骤进行排查和修复。

  1. 检查Shuffle分区大小是否足够。如果容量过小,可能会导致过多的Shuffle操作,令计算机无法及时处理,因此应该适当调整分区的容量。
  2. 检查数据存储设置。Spark有许多选项可以显着提高性能,例如:复制系数,缓存策略等。调整这些设置有助于提高Shuffle的速度。
  3. 使用专门的Shuffle优化工具调整Spark设置。例如Spark自带的Tungsten Shuffle委员会,可以帮助优化Shuffle操作。在优化后,长时间阻塞的Shuffle读取时间将会大大减少。

以下示例展示如何使用Tungsten Shuffle委员会优化Spark Shuffle:

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object SparkShuffle {
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("SparkShuffle").setMaster("local")
        val sc = new SparkContext(conf)
        
        // 加载数据
        val data = sc.textFile("data.txt")
        val words = data.flatMap(line => line.split(" "))
        val pairs = words.map(word => (word, 1))
        
        // Tungsten Shuffle优化
        sc.getConf.set("spark.shuffle.manager", "tungsten-sort")
        sc.getConf.set("spark.shuffle.compress", "true")
        sc.getConf.set("spark.shuffle.spill.compress", "true")
        sc.getConf.set("spark.shuffle.file.buffer", "128k")
        
        // 聚合操作
        val counts = pairs.reduceByKey(_ + _)
        
        counts.saveAsTextFile

相关内容

热门资讯

透视透视!wepoker免费脚... 透视透视!wepoker免费脚本咨询,wepoker手机插件(透视)一向真的是有挂(介绍教程)1、操...
透视美元局!wepoker私局... 透视美元局!wepoker私局辅助,wepoker怎么设置盖牌(透视)起初真的是有挂(2025新版总...
透视苹果版!竞技联盟破解版最新... 透视苹果版!竞技联盟破解版最新版,poker world辅助,其实是有挂(必胜教程)1、完成竞技联盟...
透视新版!wepoker怎么设... 透视新版!wepoker怎么设置透视,wepoker透视挂底牌(透视)原来是有挂(软件教程)1、构建...
透视美元局!德州透视脚本,po... 透视美元局!德州透视脚本,pokemmo辅助器脚本下载,切实有挂(教你教程)一、pokemmo辅助器...
透视计算!pokermaste... 透视计算!pokermaster破解版,hhpoker是正品吗(透视)确实是有挂(2025新版教程)...
透视免费!红龙poker作弊指... 透视免费!红龙poker作弊指令,佛手在线大菠萝智能辅助器,好像真的有挂(必备教程)佛手在线大菠萝智...
透视科技!德普辅助软件,微扑克... 透视科技!德普辅助软件,微扑克微乐辅助(透视)总是存在有挂(曝光教程)微扑克微乐辅助辅助器中分为三种...
透视讲解!xpoker透视辅助... 透视讲解!xpoker透视辅助,聚星ai辅助工具下载,切实真的有挂(我来教教你);1、任何聚星ai辅...
透视智能ai!wepoker辅... 透视智能ai!wepoker辅助器免费,红龙poker有辅助吗(透视)素来真的是有挂(曝光教程);1...