全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  大数据学习笔记  >  详情

设计一个实时的流式计算Wordcount

来源:千锋教育
发布人:qyf
2022-12-07

推荐

在线提问>>

设计一个实时的流式计算Wordcount

  例如从kafka消费数据,使用sparkstream计算Wordcount,要求保证准确性,实时性,可用性,你要怎么实现?如果计算时突然宕机,怎么保证消费kafka数据不丢失,不重复?

  使用Kafka对接SparkStreaming计算,那么要保证数据不丢失,和不重复的话,要使用直连方式,并且保证一次性语义,手动管理Offset即可,那么在实现过程中,Offset一定不能丢,所以要手动管理,然后把它保存到其他存储位置即可,每次能拿到保存好的Offset就OK,同时如果Kafka突然宕机或者SparkStreaming宕机都不用担心,只要设置好一次性语义保存幂等数据不会丢,而且Offset在这次任务失败时候不会被提交,所以也不会更新,下次再次消费即可。

相关文章

大数据之什么是数仓

2022-12-08

手写算法-懒汉式单例

2022-12-08

手写算法-四大排序

2022-12-08

是一个宽表好还是多个维表好?

2022-12-08

数据库和数据仓库的区别是什么?

2022-12-08

“未知”的数据对数据分析和可视化有什么影响?好处和坏处是什么?

2022-12-08
在线咨询 免费试学 教程领取