怎么实现Spark2.x BlockManager原理剖析

发布时间：2021-12-03 16:04:09 来源：亿速云阅读：133 作者：柒染栏目：大数据

这篇文章将为大家详细讲解有关怎么实现Spark2.x BlockManager原理剖析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

一、概述

BlockManager是Spark底层负责数据的读写和管理的一个模块。

对于每一个Spark任务，Driver节点都会有一个BlockManagerMaster 实例，而每一个Executor上都对应的有一个BlockManager实例，它也构成了一套Master/Slaver架构的数据管理体系，比如ShuffleWriter都是通过将BlockManager将数据写入磁盘或者内容、各个Task在拉取数据的时候也是通过BlockManger建立连接，然后去拉取数据。

这里我们先对BlockManager的原理做一个简单的介绍。

二、图解BlockManager整体架构

怎么实现Spark2.x BlockManager原理剖析

下面详细讲解这个架构图：

1.由BlockManager原理架构图可以看出对于每个Spark任务，Driver都会初始化一个BlockManagerMaster实例，初始化同时也会创建一个BlockManagerMasterEndPoint实例，BlockManagerMasterEndpoint是一个ThreadSafeRpcEndpoint类，接收Executor中Blockmanager的消息请求，进行对应的处理。SparkEnv类中的实现代码如下：

   val blockManagerMaster = new BlockManagerMaster(registerOrLookupEndpoint(      BlockManagerMaster.DRIVER_ENDPOINT_NAME,      new BlockManagerMasterEndpoint(rpcEnv, isLocal, conf, listenerBus)),      conf, isDriver)

2.在BlockManagerMasterEndPoint中管理着一组HashMap数据结构BlockManagerInfo信息，保存着BlockManagerId与BlockManagerInfo的对应关系，这里相当于管理者每个Executor中的Block的元数据信息，比如各个BlockManager端新增、删除了一个Block后，这里对应也要更新对应的元数据信息，BlockManagerMasterEndPoint类实现代码如下：

  // Mapping from block manager id to the block manager's information.  private val blockManagerInfo = new mutable.HashMap[BlockManagerId, BlockManagerInfo]

3.BlockManagerInfo里面保存着所在Executor所有Block的状态信息，这里也是一个HashMap结构，保存着block与其BlockStatus信息，BlockManagerInfo类代码实现如下：

// Mapping from block id to its status.private val _blocks = new JHashMap[BlockId, BlockStatus]

Driver端总结一下，其实就是通过BlockManagerMaster维护各个节点Block元数据信息，比如各个BlockManager端的Block发生增、删、改等操作，都会在这里进行更新。

4.在Executor端的都有一个BlockManager实例，它有四个比较重要的组件，这里大体介绍下，后面源码剖析会作详细介绍：

1).DiskStore

负责磁盘数据的读写操作；

2).MemoryStore

负责内存数据的读写操作；

3).ConnectionManager：

负责与其他的BlockManger连接,比如ShuffleReader阶段需要从远程拉取数据，这里负责远程的连接。

4).BlockTransferService

这里ConnectionManager与其他的BlockManger连接成功后，负责进行数据的传输。

5.BlockManager创建成功之后的第一件事就是去向BlockManagerMaster进行注册，此时就会在它的blockManagerInfo中添加对应的BlockManagerInfo信息。

6.这里有一点需要注意：BlockManager进行数据写操作时，优先将数据写入内存，如果内存不够会根据自己的算法，将内存中的部分数据写入磁盘。此外如果指定了relication副本，就会使用BlockManager将数据复制一份到其他的BlockManager中，所以就会存在一个Block会存在两个BlockManger的情况。

7.BlockManager进行数据读取时，比如ShuffleReader阶段，如果能从本地读取数据就从本地读，不然会通过ConnectionManager与远程BlockManager节点建立连接，连接成功后，BlockTransferService再去BlockManager节点获取数据。

8.只要是BlockManager端对数据进行了增、删、改操作，都会向BlockManagerMaster发送BlockStatus变更的消息通知，然后BlockManagerMaster会更新他自己维护的BlockManagerInfo元数据信息。

关于怎么实现Spark2.x BlockManager原理剖析就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

向AI问一下细节

怎么实现Spark2.x BlockManager原理剖析

猜你喜欢

最新资讯

相关推荐

相关标签