如何进行Spark的Failover机制全解析 ,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
所谓容错是指一个系统的部分出现错误的情况还能够持续地提供服务,不会因为一些细微的错误导致系统性能严重下降或者出现系统瘫痪。
在一个集群出现机器故障、网络问题等是常 态,尤其集群达到较大规模后,很可能较频繁出现机器故障不能进行提供服务,因此对于分布式集群需要进行容错设计。
Spark在设计之初考虑到这种情况,所以它能够实现高容错,以下将从ExecutorWorker和Master的异常处理来介绍。
checkForWorkerTimeOutTask = forwardMessageThread. scheduleAtFixedRate (new Runnable { override def run (): Unit = Utils.tryLogNonFatalError ( //非自身发送消息CheckForWorkerTimeOut,调用timeOutDeadWorkers方法进行检测 self.send(CheckForWorkerTimeOut) } }, 0, WORKER_TIMEOUT_MS, TimeUnit.MILLISECONDS)
如果是 Executor, Master 先把该 Worker 上运行的 Executor 发送消息 ExecutorUpdated 给对应的 Driver,告知 Executor 已经丢失,同时把这些 Executor 从其应用程序运行列表中删除。另外,相关Executor的异常也需要按照前一小节进行处理。
如果是Driver,则判断是否设置重新启动。如果需要,则调用Master.schedule方法进行调度,分配合适节点重启Driver;如果不需要重启,则删除该应用程序。
ZOOKEEPER:集群的元数据持久化到ZooKeeper中,当Master出现异常时.ZooKeeper 会通过选举机制选举出新的Master,新的Master接管时需要从ZooKeeper获取持久化 信息并根据这些信息恢复集群状态。具体结构如图4-13所示。
FILESYSTEM:集群的元数据持久化到本地文件系统中,当Master出现异常时,只要 在该机器上重新启动Master,启动后新的Master获取持久化信息并根据这些信息恢复 集群状态。
CUSTOM:自定义恢复方式,对StandaloneRecoveryModeFactory抽象类进行实现并把 该类配置到系统中,当Master出现异常时,会根据用户自定义的方式进行恢复集群状 态。
NONE:不持久化集群的元数据,当Master出现异常时,新启动的Master不进行恢复 集群状态,而是直接接管集群。
关于如何进行Spark的Failover机制全解析 问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。