spark作业的最大并行度 - 千锋教育

校区

首页课程师资教程资讯关于

校区精品课程

互联网前瞻热门课程从入门到成神

鸿蒙生态开发 HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训区块链培训商业插画培训产品经理培训

全国旗舰校区

不同学习城市同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口 +

培训课程
师资团队
关于千锋

培训机构
面试题
就业前景

零基础学IT

当前位置：首页 > 大数据技术干货 > 详情

spark作业的最大并行度

来源:千锋教育

发布人:wjy

2022-09-23

推荐

在线提问>>

　　spark作业的最大并行度=excutor个数*每个excutor的cpu core数但spark的当前并行度取决于task数，而task数=分区数。

　　分区数可以通过spark.default.parallelism设置默认分区数，也可以在使用算子时显示地指定分区器和分区数量。

　　spark官方推荐设置分区数为最大并行度的2-3倍，这样可以保证提前计算的线程立刻被后面的task使用，并且每个task处理的数据量会更少。

上一篇kafka的topic，partition，replica，message的理解

下一篇如何写数据

相关文章

索引有什么作用?在mongodb中索引分为几类

如何进行数据清洗?数据清洗的基本流程

主键约束是什么意思?如何实现mysql主键约束

eureka和zookeeper的区别对比

Zookeeper选举机制具体是什么

Zookeeper和Eureka的区别都有哪些？

在线咨询免费试学教程领取