HBase数据存储结构在CentOS上的理解

HBase是一个分布式、面向列的NoSQL数据库，其数据存储结构围绕“高可扩展、高并发、实时读写”需求设计，核心是通过层级化存储单元和LSM树模型实现高效的数据管理。在CentOS系统上，HBase通常与Hadoop（HDFS）、Zookeeper协同工作，依赖CentOS的Linux内核特性（如进程管理、网络配置）保障稳定性。

一、逻辑存储结构：数据的多维组织模型

HBase的逻辑存储结构从用户视角定义，核心要素包括Namespace、Table、Row、Column Family、Column Qualifier、Cell、Timestamp，这些要素共同构成“多维映射”的数据模型：

Namespace（命名空间）：类似于关系型数据库的“Database”，用于逻辑分组表（如default为用户默认命名空间，hbase为系统内置表命名空间）。
Table（表）：表的逻辑容器，由**行（Row）和列（Column）**组成，但列需通过“列族”组织。
Row（行）：表的行由RowKey唯一标识，数据按RowKey字典序存储（如row1、row2、user001的排序为row1<row2<user001）。RowKey设计直接影响查询性能（如热点问题）。
Column Family（列族）：表的Schema级元素，创建表时需预先定义（如cf1、cf2）。同一列族的数据物理存储在一起（如cf1:name、cf1:age存储在同一区域），列族数量建议控制在3-5个以内（过多会影响性能）。
Column Qualifier（列限定符）：列族内的具体列，无需预先定义（如cf1:name中的name、cf1:age中的age），可动态添加。
Cell（单元格）：由{RowKey, Column Family:Column Qualifier, Timestamp}唯一确定，存储实际数据（字节数组）。
Timestamp（时间戳）：标识数据版本，每条数据写入时自动分配时间戳（默认系统时间），也可手动指定。默认保留3个版本（可通过配置调整），按时间戳倒序排列（读取时优先返回最新版本）。

二、物理存储结构：分布式存储的底层实现

HBase的物理存储基于HDFS（Hadoop Distributed File System），通过Region、RegionServer、MemStore、HFile等组件实现分布式、高可用的数据存储：

Region（区域）：表的水平分区单元，表初始时为1个Region，随数据增长（默认10GB）自动分裂（如[0-1000)、[1000-2000)）。每个Region负责一段连续的RowKey范围，是分布式存储和负载均衡的基本单位。
RegionServer（区域服务器）：运行在CentOS节点上的核心服务，托管多个Region（如RegionServer1管理Region1、Region2）。其主要职责包括：处理客户端的读写请求、管理MemStore和HFile、执行Region分裂与合并。
MemStore（内存存储）：RegionServer的内存缓存，用于临时存储新写入的数据（如put操作）。写入数据时，先进入MemStore（按RowKey排序），当MemStore大小达到阈值（默认128MB）时，异步刷写到HDFS形成HFile。
HFile（HBase文件）：HBase的底层存储文件，基于HDFS存储（默认3副本，保障容错性）。HFile是**有序的键值对（Key-Value）**集合，键为{RowKey, Column Family:Column Qualifier, Timestamp}，值为数据内容。HFile会定期合并（Compaction），减少文件数量（如Minor Compaction合并小文件，Major Compaction清理过期版本）。
WAL（预写日志）：位于HDFS上的日志文件，用于故障恢复。每次写入操作先写入WAL（记录未持久化的数据），再写入MemStore。若RegionServer崩溃，重启后可通过WAL重放未刷写的操作，确保数据不丢失。

三、数据写入流程：从客户端到持久化

在CentOS上，HBase的数据写入遵循**“WAL+MemStore+HFile”的流程，确保数据持久性和写入性能**：

客户端写入：客户端通过HBase Shell或API发送put请求（如put 'test_table', 'row1', 'cf1:name', 'Alice'），请求首先到达对应的RegionServer。
写入WAL：RegionServer将数据写入HDFS上的WAL文件（位于hdfs://namenode:9000/hbase/WALs/），确保数据不会因故障丢失。
写入MemStore：数据同时写入RegionServer内存中的MemStore（按RowKey排序），此时数据尚未持久化。
MemStore刷写：当MemStore大小达到阈值（hbase.hregion.memstore.flush.size，默认128MB），RegionServer将MemStore中的数据异步刷写到HDFS，生成新的HFile（如/hbase/data/default/test_table/region1/cf1/000001.hfile）。
清理WAL：HFile生成后，WAL中对应的记录会被标记为“已持久化”，后续可通过Compaction清理（避免WAL无限增长）。

四、数据读取流程：从请求到结果返回

读取数据时，HBase通过**“MemStore+HFile+缓存”的组合，实现快速响应**：

客户端请求：客户端发送get或scan请求（如get 'test_table', 'row1'），请求到达对应的RegionServer。
检查MemStore：RegionServer首先检查MemStore中是否有最新数据（因MemStore存储了未刷写的写入数据）。
检查BlockCache：若MemStore中没有，检查BlockCache（读缓存，内存中存储频繁读取的数据）。若BlockCache中有，则直接返回。
读取HFile：若MemStore和BlockCache都没有，从HDFS中读取对应的HFile（如/hbase/data/default/test_table/region1/cf1/000001.hfile），查找目标数据。
合并结果：将从MemStore、BlockCache、HFile中读取的数据合并（如解决版本冲突，取最新版本），返回给客户端。
缓存热点数据：读取的数据若符合缓存策略（如频繁访问），会被放入BlockCache，提升后续读取性能。

五、关键技术组件：支撑存储结构的核心

在CentOS上，HBase的存储结构依赖以下组件实现高可用、高性能：

HDFS（Hadoop Distributed File System）：HBase的底层存储系统，提供多副本（默认3副本）、容错性、分布式存储能力。HFile存储在HDFS上，确保数据不会因节点故障丢失。
Zookeeper：协调HBase集群的服务，负责Master选举（高可用）、RegionServer监控（故障转移）、元数据管理（如hbase:meta表存储Region位置信息）。
LSM树（Log-Structured Merge Tree）：HBase的存储模型，将离散的随机写转化为批量的顺序写（MemStore→HFile），大幅提升写入性能（比传统B+树高10倍以上）。

通过以上结构，HBase在CentOS上实现了海量数据存储（PB级）、低延迟读取（毫秒级）、高并发写入（每秒数千次）的能力，适用于实时分析、日志存储、用户画像等场景。

HBase数据存储结构在CentOS上如何理解