添加ziplist (#15)

2022-12-03 21:57:03 +08:00 · 2022-12-03 21:57:03 +08:00 · 1125276577
commit 1125276577
parent 9d96f2af2e
2 changed files with 146 additions and 7 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1 +1,2 @@
 *.backup
 *.html
--- a/ziplist/readme.md
+++ b/ziplist/readme.md
@ -1,11 +1,11 @@
-## 简介
+# 简介
 压缩列表ziplist本质上就是一个字节数组，是Redis为了节约内存而设计的一种线性数据结构，可以包含多个元素，每个元素可以是一个字节数组或一个整数。
 Redis的有序集合、散列和列表都直接或者间接使用了压缩列表。当有序集合或散列表的元素个数比较少，且元素都是短字符串时，Redis便使用压缩列表作为其底层数据存储结构。列表使用快速链表（quicklist）数据结构存储，而快速链表就是双向链表与压缩列表的组合。
 ziplist 压缩列表是一个特殊编码的双端链表（内存上连续），为了尽可能节省内存而设计的。ziplist 可以存储字符串或者整数值，其中整数被编码保存为实际的整数，而不是字符数组。ziplist 支持 O(1) 的时间复杂度在列表的两端进行 push 和 pop 操作。然而因为这些操作都需要对整个 ziplist 进行内存重分配（因为是一块连续的内存），所以操作的实际复杂度和 ziplist 占用的内存大小有关。在 7.0 版本里，ziplist 已经全面被 listpack 替换了（主要是因为连锁更新较影响性能）
-## 压缩列表的存储结构
+# 压缩列表的存储结构
 Redis使用字节数组表示一个压缩列表，压缩列表结构如下所示：
@ -21,7 +21,7 @@ Redis使用字节数组表示一个压缩列表，压缩列表结构如下所示
 - entryX：压缩列表存储的元素，可以是字节数组或者整数，长度不限。entry的编码结构将在后面详细介绍。
 - zlend： 是一个 8 位无符号整数（1 byte），是一个特殊的标志位来标记压缩列表的结尾，0xFF(十进制表示为: 255)。其它正常节点不会有以这个字节开头的，在遍历 ziplist 的时候通过这个标记来判断是否遍历结束。
-### 元素的存储结构
+## 元素的存储结构
 压缩列表元素的存储结构如下所示：
 ```
@ -83,7 +83,7 @@ Redis 常见的encoding：
 #define ZIP_INT_8B 0xfe
 ```
-## 解码结构体
+# 解码结构体
 对于压缩列表中的任意元素，获取前一个元素的长度、判断存储的数据类型、获取数据内容等都需要经过复杂的解码运算。解码后的结果应该被缓存起来，为此定义了结构体zlentry，用于表示解码后的压缩列表元素，单纯的用来临时存储解码之后的元素信息。
 ```c
@ -120,7 +120,7 @@ static inline void zipEntry(unsigned char *p, zlentry *e) {
 解码主要分为下面几个步骤：
-### 解码前节点长度
+## 解码前节点长度
 根据 p 目前的指针，获取 entry 的 prevlen 的值；
 - 如果prevlen一个字节编码，对应字节 (ptr)[0] 的值就是 prevlen。
 - 如果prevlen五个字节编码，具体的 prevlen 是存储在后四个字节，后四个字节进行位运算获得实际的 prevlen
@ -149,9 +149,147 @@ static inline void zipEntry(unsigned char *p, zlentry *e) {
  } while(0)
 ```
-### 解码encoding
+## 解码encoding
 p+prevrawlensize 位置的第一个字节，获取 entry 当前的 encoding 属性，保存在 encoding 变量中时间复杂度 O(1)。
 ```c
 #define ZIP_ENTRY_ENCODING(ptr, encoding) do {  \
    (encoding) = ((ptr)[0]); \
    if ((encoding) < ZIP_STR_MASK) (encoding) &= ZIP_STR_MASK; \
 } while(0)
 ```
 ## 解码长度
 p+prevrawlensize 根据 encoding 获取 entry 的 len 相关属性。 `ptr[0]<11000000`说明是字节数组，前两个比特为字节数组编码类型
 > 进制转换：echo "ibase=16;obase=2;C0" | bc
 > 
 ```c
 #define ZIP_DECODE_LENGTH(ptr, encoding, lensize, len) do {                    \
    if ((encoding) < ZIP_STR_MASK) {                                           \
        if ((encoding) == ZIP_STR_06B) {                                       \
            (lensize) = 1;                                                     \
            (len) = (ptr)[0] & 0x3f;                                           \
        } else if ((encoding) == ZIP_STR_14B) {                                \
            (lensize) = 2;                                                     \
            (len) = (((ptr)[0] & 0x3f) << 8) | (ptr)[1];                       \
        } else if ((encoding) == ZIP_STR_32B) {                                \
            (lensize) = 5;                                                     \
            (len) = ((uint32_t)(ptr)[1] << 24) |                               \
                    ((uint32_t)(ptr)[2] << 16) |                               \
                    ((uint32_t)(ptr)[3] <<  8) |                               \
                    ((uint32_t)(ptr)[4]);                                      \
        } else {                                                               \
            (lensize) = 0;                                                     \
            (len) = 0;                                                         \
        }                                                                      \
    } else {                                                                   \
        (lensize) = 1;                                                         \
        if ((encoding) == ZIP_INT_8B)  (len) = 1;                              \
        else if ((encoding) == ZIP_INT_16B) (len) = 2;                         \
        else if ((encoding) == ZIP_INT_24B) (len) = 3;                         \
        else if ((encoding) == ZIP_INT_32B) (len) = 4;                         \
        else if ((encoding) == ZIP_INT_64B) (len) = 8;                         \
        else if (encoding >= ZIP_INT_IMM_MIN && encoding <= ZIP_INT_IMM_MAX)   \
            (len) = 0;                                                         \
        else                                                                   \
            (lensize) = (len) = 0;                                             \
    }                                                                          \
 } while(0)
 ```
 # 基本操作
 主要介绍压缩列表的基本操作，包括创建压缩列表，遍历元素，插入元素，删除元素，修改元素等。
 ## 创建压缩列表
 创建一个空的压缩列表:只对 `lbytes、zltail、zllen、zlend`四个字段进行初始化。初始化过程如下：
 - 计算空ziplist的长度并且申请内存，`zlbytes`和`zltail`的类型是32位无符号整数，`zllen`是16位无符号整数，所以总长度为：`zlbytes(4) + zltail(4) + zllen(2) = 10 bytes`
 - 将总字节数写入内存。zl 既为 ziplist 的起始地址，其中值又负责记录 ziplist 的总字节长度，zlbytes 编码存储固定 4 字节，也就代表了一个 ziplist 总字节最大为为 (2^32)-1 字节。
 - 将到尾节点的偏移量写进内存，因为是刚初始化的 ziplist，偏移量其实就是 HEADER_SIZE 值，此时它刚好指向 zlend，因此能够以 O(1) 时间复杂度快速在尾部进行 push 或 pop 操作。
 - 写入节点数量：0
 - 最后一个字节设置为 ZIP_END，标识 ziplist 结尾。
 实现代码如下：
 ```c
 unsigned char *ziplistNew(void) {
    unsigned int bytes = ZIPLIST_HEADER_SIZE+ZIPLIST_END_SIZE;
    unsigned char *zl = zmalloc(bytes);
    ZIPLIST_BYTES(zl) = intrev32ifbe(bytes);
    ZIPLIST_TAIL_OFFSET(zl) = intrev32ifbe(ZIPLIST_HEADER_SIZE);
    ZIPLIST_LENGTH(zl) = 0;
    zl[bytes-1] = ZIP_END;
    return zl;
 }
 ```
 ## 插入元素
 压缩列表实现函数如下,其中：
 - zl：压缩列表。
 - p: 元素插入位置
 - s: 插入元素内容
 - slen: 元素数据长度。
 ```c
 unsigned char *__ziplistInsert(unsigned char *zl, unsigned char *p, unsigned char *s, unsigned int slen)
 ```
 插入元素可以简要分为3个步骤：① 将元素内容编码；② 重新分配空间；③ 复制数据。
-### 解码长度
+### 编码
 编码就是计算前节点的prelen字段，encoding字段和content字段的内容。计算prelen的前提条件就是明确元素的插入位置。
 元素的插入位置主要包含两种场景：
 - 元素插入到中间位置。
 - 元素插入到末尾。
 #### 场景一：元素插入到中间位置
 当插入到ziplist的中间节点时,解码插入节点`p`的prevlen（函数`ZIP_DECODE_PREVLEN`）。
 #### 场景二：元素插入到末尾
 当插入到ziplist的尾部时，通过zltail计算出ziplist的最后一个节点，再计算prevlen。首先我们应当获取最后一个节点。
 可以通过zltail获取最后一个节点的内容。zl偏移zltail的偏移量就可以获取最后一个节点的指针。
 ```c
 #define ZIPLIST_ENTRY_TAIL(zl)  ((zl)+intrev32ifbe(ZIPLIST_TAIL_OFFSET(zl)))
 ```
 取出最后一个节点的长度，作为新插入节点`p`的`prevlen`,最后一个节点的prevlen是节点headersize和将节点内容长度之和。
 ```c
 static inline unsigned int zipRawEntryLengthSafe(unsigned char* zl, size_t zlbytes, unsigned char *p) {
    zlentry e;
    assert(zipEntrySafe(zl, zlbytes, p, &e, 0));
    return e.headersize + e.len;
 }
 ```
 #### 元素编码
 编码时尝试将输入字符串转为整数：若可以转为整数，则按照压缩列表整数类型编码存储，reqlen根据encoding确定保存节点值需要的字节数；
 若不可以转为整数，则按照字节数组方式存储，reqlen为字符串的长度。
 reqlen字段为存储当前元素需要的空间大小，所以由prevlen占用空间、当前节点的encoding和length、当前节点值占用的空间三部分之和构成。
 计算公式：`reqlen = prevlenSize + encodingSize + dataSize`
 ```c
 if (zipTryEncoding(s,slen,&value,&encoding)) {
  reqlen = zipIntSize(encoding);
 } else {
  reqlen = slen;
 }
 reqlen += zipStorePrevEntryLength(NULL,prevlen);
 reqlen += zipStoreEntryEncoding(NULL,encoding,slen);
 ```
 ### 重新分配空间
 当向ziplist中插入数据时，空间变化下面几种可能：
 ## 删除元素
 ## 遍历元素