Adaptive Execution 让 Spark SQL 更智能更高效

发布时间：2018-10-24 20:43:10 所属栏目：教程来源：郭俊 Jason Guo

导读：本文转发自技术世界，原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背景前面《Spark SQL / Catalyst 内部原理与 RBO》与《Spark SQL 性能优化再进一步 CBO 基于代价的优化》介绍的优化，从查询本身与目标数据的特点的角度尽可能保证了

对于 Partition 0 的处理，有点类似于 BroadcastJoin 的做法。但区别在于，Stage 2 的 Task 0-0 与 Task 0-1 同时获取 Stage 1 中属于 Partition 0 的全量数据，是通过正常的 Shuffle Read 机制实现，而非 BroadcastJoin 中的变量广播实现

4.3 使用与优化方法

开启与调优该特性的方法如下

将 spark.sql.adaptive.skewedJoin.enabled 设置为 true 即可自动处理 Join 时数据倾斜
spark.sql.adaptive.skewedPartitionMaxSplits 控制处理一个倾斜 Partition 的 Task 个数上限，默认值为 5
spark.sql.adaptive.skewedPartitionRowCountThreshold 设置了一个 Partition 被视为倾斜 Partition 的行数下限，也即行数低于该值的 Partition 不会被当作倾斜 Partition 处理。其默认值为 10L * 1000 * 1000 即一千万
spark.sql.adaptive.skewedPartitionSizeThreshold设置了一个 Partition 被视为倾斜 Partition 的大小下限，也即大小小于该值的 Partition 不会被视作倾斜 Partition。其默认值为 64 * 1024 * 1024 也即 64MB
spark.sql.adaptive.skewedPartitionFactor 该参数设置了倾斜因子。如果一个 Partition 的大小大于 spark.sql.adaptive.skewedPartitionSizeThreshold的同时大于各 Partition 大小中位数与该因子的乘积，或者行数大于 spark.sql.adaptive.skewedPartitionRowCountThreshold 的同时大于各 Partition 行数中位数与该因子的乘积，则它会被视为倾斜的 Partition

【编辑推荐】

对Spark的那些【魔改】
高性能Spark作业基础：你必须知道的调优原则及建议
Spark灰度发布在十万级节点上的实践
大数据干货 | 论Spark高手是怎样炼成的
比拼生态和未来，Spark和Flink哪家强？

【责任编辑：未丽燕 TEL：（010）68476606】
点赞 0

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/7

首页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您