全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  大数据技术干货  >  详情

spark作业的最大并行度

来源:千锋教育
发布人:wjy
2022-09-23

推荐

在线提问>>

  spark作业的最大并行度=excutor个数*每个excutor的cpu core数 但spark的当前并行度取决于task数,而task数=分区数。

并行度

  分区数可以通过spark.default.parallelism设置默认分区数,也可以在使用算子时显示地指定分区器和分区数量。

  spark官方推荐设置分区数为最大并行度的2-3倍,这样可以保证提前计算的线程立刻被后面的task使用,并且每个task处理的数据量会更少。

相关文章

索引有什么作用?在mongodb中索引分为几类

2023-04-11

如何进行数据清洗?数据清洗的基本流程

2023-03-17

主键约束是什么意思?如何实现mysql主键约束

2023-03-17

eureka和zookeeper的区别对比

2023-03-07

Zookeeper选举机制具体是什么

2023-03-07

Zookeeper和Eureka的区别都有哪些?

2023-03-07
在线咨询 免费试学 教程领取