ApacheSpark:长时间阻塞的Shuffle读取时间。为什么?
创始人
2024-09-06 12:30:34
0

通常情况下,Spark Shuffle操作是Spark应用程序中的瓶颈之一。当发现Shuffle操作时间较长时,可以遵循以下步骤进行排查和修复。

  1. 检查Shuffle分区大小是否足够。如果容量过小,可能会导致过多的Shuffle操作,令计算机无法及时处理,因此应该适当调整分区的容量。
  2. 检查数据存储设置。Spark有许多选项可以显着提高性能,例如:复制系数,缓存策略等。调整这些设置有助于提高Shuffle的速度。
  3. 使用专门的Shuffle优化工具调整Spark设置。例如Spark自带的Tungsten Shuffle委员会,可以帮助优化Shuffle操作。在优化后,长时间阻塞的Shuffle读取时间将会大大减少。

以下示例展示如何使用Tungsten Shuffle委员会优化Spark Shuffle:

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object SparkShuffle {
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("SparkShuffle").setMaster("local")
        val sc = new SparkContext(conf)
        
        // 加载数据
        val data = sc.textFile("data.txt")
        val words = data.flatMap(line => line.split(" "))
        val pairs = words.map(word => (word, 1))
        
        // Tungsten Shuffle优化
        sc.getConf.set("spark.shuffle.manager", "tungsten-sort")
        sc.getConf.set("spark.shuffle.compress", "true")
        sc.getConf.set("spark.shuffle.spill.compress", "true")
        sc.getConf.set("spark.shuffle.file.buffer", "128k")
        
        // 聚合操作
        val counts = pairs.reduceByKey(_ + _)
        
        counts.saveAsTextFile

相关内容

热门资讯

最新技巧(wepokeai代打... 最新技巧(wepokeai代打)外挂透明挂辅助神器(辅助挂)其实真的有挂(必赢方法)(哔哩哔哩) 科...
今日科普(德州智能)外挂透明挂... 今日科普(德州智能)外挂透明挂辅助挂(辅助挂)其实是真的有挂(2024新版教程)(哔哩哔哩)是一款可...
透视科技(WEPOke)外挂透... WePoker透视辅助工具核心要点解析‌,透视科技(WEPOke)外挂透明挂辅助机制(透视)原来是真...
我来教大家(WPK技术)外挂透... 我来教大家(WPK技术)外挂透明挂辅助机制(透视)的确真的有挂(解密教程)(哔哩哔哩);玩家必备必赢...
透明科技(Wepoke app... 大家肯定在之前Wepoke app或者Wepoke app中玩过透明科技(Wepoke app)外挂...
盘点几款(德州数据)外挂透明挂... 盘点几款(德州数据)外挂透明挂辅助工具(透视)果真真的有挂(教你攻略)(哔哩哔哩);德州数据简单的灵...
2分钟了解(epoker外挂)... 《epoker外挂软件透明挂》是一款多人竞技的epoker外挂辅助透视游戏,你将微扑克对手来到同一个...
玩家实测!德扑之星(辅助挂)透... 玩家实测!德扑之星(辅助挂)透视辅助(有挂总结)-哔哩哔哩是由北京得德扑之星黑科技有限公司精心研发的...
交流学习经验!红龙扑克是真是假... 交流学习经验!红龙扑克是真是假(透视)透视辅助(有挂总结)-哔哩哔哩;红龙扑克是真是假是一款益智类棋...
终于懂了(wpk稳赢)外挂透明... 终于懂了(wpk稳赢)外挂透明挂辅助神器(辅助挂)确实真的有挂(辅助教程)(哔哩哔哩);wpk稳赢最...