Spark Streaming中的架构设计和运行机制是什么

发布时间:2024-09-14 点击:70
这篇文章主要介绍“spark streaming中的架构设计和运行机制是什么”,在日常操作中,相信很多人在spark streaming中的架构设计和运行机制是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”spark streaming中的架构设计和运行机制是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
rdd的模板是dstream,rdd dag的模板是dstreamgraph,spark streaming是在rdd的基础上加上时间维度,在driver端会启动一个定时器,间隔batchduration生成job,在executor端会启动一个定时器,间隔200ms把接收到的数据放入blockmanager中,并把元数据信息上报给driver端的receivertracker,整个程序引擎是无时无刻在运行的。
jobgenerator类中有一个timer对象,其间隔batchduration发送generatejobs消息来生成job。
blockgenerator类中有一个blockintervaltimer对象,每隔200ms调用updatecurrentbuffer方法,把接收到的数据交给blockmanager进行存储,并向receivertracker上报元数据信息。
recurringtimer类中的loop方法是一个死循环,一直执行,间隔一定的周期回调传入的方法。
此外,默认的并行度具有遗传性,父rdd的partition个数会遗传给子rdd,当rdd中每个partition中数据较少时,为了提高效率,可以先调用coalesce方法合并到指定的partition个数。spark streaming中存在空rdd,即rdd里面没有数据,此时也会生成job,job的生成是定时触发的,不关心rdd中是否有数据,这是为了使整个框架能正常运行。
到此,关于“spark streaming中的架构设计和运行机制是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注箭头云网站,小编会继续努力为大家带来更多实用的文章!

2020年做什么网站赚钱?
阿里云服务器放二个网站怎么放
苏州租赁云服务器
腾讯云服务器怎么转变为wifi
如何为你的官网会员系统配置第三方(微信)登录口?
SugarHosts虚拟主机购买向导
阿里云服务器备案授权码
甘肃云服务器租用价格表图