HBase表设计原则 #

一、设计原则概述 #

HBase表设计与传统关系型数据库有显著区别，需要基于访问模式进行设计。

1.1 核心设计原则 #

text

HBase表设计核心原则
├── 基于查询设计
│   └── 根据访问模式设计表结构
│
├── RowKey设计
│   ├── 唯一性
│   ├── 散列性
│   └── 有序性
│
├── 列族设计
│   ├── 数量控制
│   └── 访问模式分组
│
└── 预分区
    └── 数据均匀分布

1.2 与关系型数据库的区别 #

text

┌─────────────────────────────────────────────────────────────────────┐
│                    HBase vs 关系型数据库设计                         │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  关系型数据库                        HBase                          │
│  ─────────────                       ─────                          │
│  基于数据模型设计                    基于查询模式设计                │
│  支持JOIN                           不支持JOIN                      │
│  索引灵活                           索引有限                        │
│  事务支持                           行级原子性                      │
│  范式化                             反范式化                        │
│                                                                     │
│  设计思路：                                                         │
│  关系型：先设计表结构，再写SQL查询                                  │
│  HBase：先确定查询需求，再设计RowKey和表结构                        │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

二、RowKey设计 #

2.1 RowKey设计原则 #

text

RowKey设计三原则
├── 唯一性
│   └── 每行数据有唯一标识
│
├── 散列性
│   └── 避免热点问题
│
└── 有序性
    └── 支持范围查询

2.2 唯一性设计 #

text

唯一性设计
├── 使用业务唯一标识
│   ├── 用户ID
│   ├── 订单ID
│   └── 设备ID
│
├── 组合键
│   └── 多个字段组合保证唯一
│
└── 时间戳+序列号
    └── 保证时序唯一

2.3 散列性设计 #

方式一：反转 #

ruby

# 适用场景：手机号、身份证等固定前缀
# 原始：13812345678
# 反转：87654321831

# 示例
put 'user', '87654321831', 'info:name', '张三'

text

优势：
├── 分散热点
└── 实现简单

劣势：
├── 不支持范围查询
└── 顺序被打乱

方式二：加盐 #

ruby

# 适用场景：写入热点
# 原始：user001
# 加盐：a-user001, b-user001, c-user001

# 示例
put 'user', 'a-user001', 'info:name', '张三'
put 'user', 'b-user001', 'info:name', '李四'

text

优势：
├── 分散写入压力
└── 可控的散列程度

劣势：
├── 读取需要扫描多个前缀
└── 增加复杂度

方式三：哈希 #

ruby

# 适用场景：需要均匀分布
# 原始：user001
# 哈希：md5(user001).substring(0,4)_user001

# 示例
# 假设 md5(user001) = a1b2c3d4e5f6...
put 'user', 'a1b2_user001', 'info:name', '张三'

text

优势：
├── 数据均匀分布
└── 散列效果好

劣势：
├── 不支持范围查询
└── RowKey变长

2.4 有序性设计 #

方式一：时间戳正序 #

ruby

# 格式：用户ID_时间戳
# 示例：user001_1704067200

put 'order', 'user001_1704067200', 'd:amount', '100'
put 'order', 'user001_1704067300', 'd:amount', '200'

# 查询用户订单（按时间正序）
scan 'order', {STARTROW => 'user001_', STOPROW => 'user001_~'}

方式二：时间戳倒序 #

ruby

# 格式：用户ID_(Long.MAX_VALUE - 时间戳)
# 示例：user001_9223372036854775807-1704067200

# 倒序时间戳计算
# reverse_ts = Long.MAX_VALUE - timestamp

put 'order', 'user001_9223372036854775807-1704067200', 'd:amount', '100'

# 查询用户最近订单（按时间倒序）
scan 'order', {STARTROW => 'user001_', STOPROW => 'user001_~', LIMIT => 10}

2.5 RowKey设计模式 #

text

┌─────────────────────────────────────────────────────────────────────┐
│                    RowKey 设计模式                                   │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  模式一：反转模式                                                    │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │  适用：手机号、固定前缀数据                                   │   │
│  │  格式：reverse(原始Key)                                      │   │
│  │  示例：13812345678 → 87654321831                             │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
│  模式二：加盐模式                                                    │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │  适用：写入热点场景                                           │   │
│  │  格式：prefix_原始Key                                        │   │
│  │  示例：user001 → a-user001, b-user001                        │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
│  模式三：哈希模式                                                    │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │  适用：均匀分布场景                                           │   │
│  │  格式：hash(原始Key)_原始Key                                 │   │
│  │  示例：user001 → a1b2_user001                                │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
│  模式四：组合键模式                                                  │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │  适用：多维查询场景                                           │   │
│  │  格式：分区键_排序键_时间戳                                   │   │
│  │  示例：user001_20240101_1704067200                           │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
│  模式五：时序模式                                                    │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │  适用：时序数据场景                                           │   │
│  │  格式：实体ID_倒序时间戳                                      │   │
│  │  示例：device001_9223372036854775807-1704067200              │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

2.6 RowKey长度建议 #

text

RowKey长度建议
├── 推荐长度：10-100字节
│
├── 过长影响
│   ├── 增加存储开销
│   ├── 降低缓存效率
│   └── 增加网络传输
│
└── 过短影响
    └── 可能导致冲突

三、列族设计 #

3.1 列族设计原则 #

text

列族设计原则
├── 数量控制
│   └── 建议1-3个列族
│
├── 访问模式分组
│   └── 经常一起访问的列放在同一列族
│
├── 数据类型分组
│   └── 不同类型数据考虑分列族
│
└── 压缩策略
    └── 不同压缩需求分列族

3.2 列族数量影响 #

text

列族数量影响
├── 过多列族
│   ├── Flush放大
│   ├── 内存占用增加
│   ├── 文件数量增加
│   └── 性能下降
│
└── 推荐数量
    └── 1-3个

3.3 列族设计示例 #

ruby

# 用户表
# 列族设计：
# - i (info): 基本信息，访问频繁
# - s (settings): 设置信息，访问较少
# - h (history): 历史记录，数据量大

create 'user',
    {NAME => 'i', VERSIONS => 1, BLOOMFILTER => 'ROW'},
    {NAME => 's', VERSIONS => 1},
    {NAME => 'h', VERSIONS => 10, COMPRESSION => 'SNAPPY', TTL => 2592000}

# 订单表
# 列族设计：
# - d (detail): 订单详情
# - i (items): 商品信息

create 'order',
    {NAME => 'd', VERSIONS => 1},
    {NAME => 'i', VERSIONS => 1, COMPRESSION => 'SNAPPY'}

四、预分区策略 #

4.1 预分区的重要性 #

text

预分区重要性
├── 避免初始热点
├── 提高写入性能
├── 均衡RegionServer负载
└── 减少Region切分开销

4.2 预分区计算 #

text

预分区计算方法
├── 根据数据量估算
│   └── Region数 = 总数据量 / Region大小(10GB)
│
├── 根据RowKey分布
│   └── 分析数据分布，设计分区点
│
└── 根据写入压力
    └── 考虑写入并发度

4.3 预分区示例 #

ruby

# 用户表预分区
# 假设用户ID为数字，范围1-1000000
# 预计数据量100GB，每个Region 10GB
# 需要10个Region

create 'user', 'info', SPLITS => ['100000', '200000', '300000', '400000', '500000', '600000', '700000', '800000', '900000']

# 订单表预分区
# 按时间分区，每月一个Region

create 'order', 'detail', SPLITS => [
    '202401', '202402', '202403', '202404',
    '202405', '202406', '202407', '202408',
    '202409', '202410', '202411', '202412'
]

# 日志表预分区
# 使用16进制分区

create 'log', 'data', {NUMREGIONS => 16, SPLITALGO => 'HexStringSplit'}

五、反范式化设计 #

5.1 反范式化概念 #

text

反范式化设计
├── 冗余存储数据
├── 减少查询次数
├── 提高读取性能
└── 牺牲写入性能和存储空间

5.2 反范式化示例 #

ruby

# 场景：订单查询需要用户信息
# 传统设计（需要多次查询）：
# 1. 查询订单表获取用户ID
# 2. 查询用户表获取用户信息

# 反范式化设计（冗余存储）：
create 'order', 'd', 'u'

# 存储订单信息
put 'order', 'order001', 'd:amount', '100'
put 'order', 'd:status', 'paid'

# 冗余存储用户信息
put 'order', 'order001', 'u:name', '张三'
put 'order', 'order001', 'u:phone', '13812345678'

# 一次查询获取所有信息
get 'order', 'order001'

5.3 反范式化权衡 #

text

反范式化权衡
├── 优势
│   ├── 减少查询次数
│   ├── 提高读取性能
│   └── 简化应用逻辑
│
└── 劣势
    ├── 数据冗余
    ├── 更新复杂
    └── 一致性维护

六、表设计示例 #

6.1 用户表设计 #

text

场景：用户信息管理
访问模式：
1. 根据用户ID查询用户信息
2. 更新用户信息
3. 查询用户历史记录

设计：
├── RowKey：用户ID反转
├── 列族：
│   ├── i (info): 基本信息
│   ├── s (settings): 设置
│   └── h (history): 历史记录
└── 预分区：按用户ID前缀分区

ruby

# 创建表
create 'user',
    {NAME => 'i', VERSIONS => 1, BLOOMFILTER => 'ROW'},
    {NAME => 's', VERSIONS => 1},
    {NAME => 'h', VERSIONS => 10, TTL => 2592000},
    SPLITS => ['1', '2', '3', '4', '5', '6', '7', '8', '9']

# 插入数据
put 'user', '1001', 'i:n', '张三'
put 'user', '1001', 'i:a', '25'
put 'user', '1001', 'i:e', 'zhangsan@example.com'
put 'user', '1001', 's:theme', 'dark'
put 'user', '1001', 'h:login', '2024-01-01 10:00:00'

6.2 订单表设计 #

text

场景：订单管理
访问模式：
1. 根据用户ID查询订单列表（按时间倒序）
2. 根据订单ID查询订单详情
3. 更新订单状态

设计：
├── RowKey：用户ID_倒序时间戳_订单ID
├── 列族：
│   ├── d (detail): 订单详情
│   └── i (items): 商品信息
└── 预分区：按用户ID前缀分区

ruby

# 创建表
create 'order',
    {NAME => 'd', VERSIONS => 1},
    {NAME => 'i', VERSIONS => 1, COMPRESSION => 'SNAPPY'},
    SPLITS => ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f']

# 插入数据
put 'order', 'user001_9223372036854775807-1704067200_order001', 'd:amount', '100'
put 'order', 'd:status', 'paid'
put 'order', 'i:prod001', '商品A'

6.3 时序数据表设计 #

text

场景：设备传感器数据
访问模式：
1. 根据设备ID查询最近数据
2. 根据设备ID和时间范围查询
3. 批量写入数据

设计：
├── RowKey：设备ID_倒序时间戳
├── 列族：
│   └── d (data): 传感器数据
└── 预分区：按设备ID哈希分区

ruby

# 创建表
create 'sensor_data',
    {NAME => 'd', VERSIONS => 1, COMPRESSION => 'SNAPPY', TTL => 604800},
    {NUMREGIONS => 32, SPLITALGO => 'HexStringSplit'}

# 插入数据
put 'sensor_data', 'device001_9223372036854775807-1704067200', 'd:temp', '25.5'
put 'sensor_data', 'device001_9223372036854775807-1704067200', 'd:humidity', '60'

七、设计检查清单 #

7.1 RowKey检查 #

text

RowKey检查清单
├── 是否唯一？
├── 是否避免热点？
├── 是否支持主要查询模式？
├── 长度是否合理？
└── 是否考虑了排序需求？

7.2 列族检查 #

text

列族检查清单
├── 列族数量是否合理（1-3个）？
├── 是否按访问模式分组？
├── 版本数是否合理？
├── TTL是否合理？
├── 压缩算法是否合适？
└── 布隆过滤器是否配置？

7.3 预分区检查 #

text

预分区检查清单
├── Region数量是否合理？
├── 分区点是否覆盖数据分布？
├── 是否考虑了数据增长？
└── 是否避免了热点？

八、总结 #

本节介绍了HBase表设计原则：

设计要点	核心原则
RowKey	唯一性、散列性、有序性
列族	数量控制、访问模式分组
预分区	数据均匀分布、避免热点
反范式化	冗余存储、提高读取性能

下一步，让我们学习数据操作！