HBase #

文档结构 #

本指南按以下结构组织,适合初学者按顺序学习:

1. 基础入门 #

主题 描述 文档链接
HBase简介 HBase的发展历史、特点、应用领域 hbase-intro.md
安装与配置 单机模式、伪分布式、完全分布式安装 hbase-install.md
基础语法 Shell操作、基本命令、命名规范 hbase-syntax.md
数据类型 数据模型、列族、单元格、版本控制 data-types.md

2. 架构原理 #

主题 描述 文档链接
分布式架构 Master-Slave架构、HDFS存储、ZooKeeper协调 distributed-architecture.md
数据存储模型 LSM Tree、MemStore、StoreFile、HFile storage-model.md
Region与RegionServer Region切分、RegionServer角色、负载均衡 region.md
读写流程 写路径、读路径、WAL机制、BlockCache read-write-flow.md

3. 表操作 #

主题 描述 文档链接
创建表 CREATE语法、列族定义、表属性配置 create-table.md
修改表 ALTER语法、添加/删除列族、属性修改 alter-table.md
删除表 DROP语法、TRUNCATE清空表、注意事项 drop-table.md
表设计原则 RowKey设计、列族规划、预分区策略 table-design.md

4. 数据操作 #

主题 描述 文档链接
插入数据 PUT语法、批量插入、版本控制 put.md
查询数据 GET语法、精确查询、版本查询 get.md
删除数据 DELETE语法、条件删除、版本删除 delete.md
扫描数据 SCAN语法、范围查询、过滤器使用 scan.md

5. 高级特性 #

主题 描述 文档链接
过滤器 Filter语法、常用过滤器、自定义过滤器 filters.md
协处理器 Observer、Endpoint、开发实践 coprocessor.md
Phoenix集成 Phoenix安装、SQL查询、索引优化 phoenix.md
二级索引 索引方案、Phoenix索引、Lucene集成 secondary-index.md

6. 管理与运维 #

主题 描述 文档链接
集群管理 集群规划、部署配置、容量规划 cluster-management.md
备份与恢复 快照备份、Export工具、恢复策略 backup-restore.md
性能优化 读写优化、内存调优、压缩策略 performance-tuning.md
监控与诊断 Master UI、RegionServer监控、日志分析 monitoring.md

学习路线 #

text
入门阶段
├── HBase简介
├── 安装配置
├── 基础语法
└── 数据模型

基础阶段
├── 理解分布式架构
├── 表操作
├── 基本CRUD
└── 数据扫描

进阶阶段
├── RowKey设计
├── 过滤器使用
├── 协处理器
└── Phoenix集成

高级阶段
├── 二级索引
├── 性能优化
├── 集群运维
└── 故障排查

适用人群 #

人群 建议
初学者 从基础入门开始,按顺序学习
开发者 重点学习数据操作和表设计
DBA 重点学习架构原理和运维管理
架构师 全面掌握,重点关注分布式架构设计

学习建议 #

  1. 理解架构:HBase基于Hadoop生态,先理解其Master-Slave架构
  2. 数据建模:学会基于访问模式设计RowKey,这是HBase的核心
  3. 动手实践:搭建集群环境,多写Shell命令
  4. 性能优化:理解读写路径,掌握调优技巧
  5. 生态整合:学习与MapReduce、Spark、Phoenix的整合

版本说明 #

本教程基于 Apache HBase 2.x 版本编写,同时兼顾 1.x 版本的兼容性说明。

开始你的HBase学习之旅吧!

最后更新:2026-03-27