B+ 树的概念
基本概念
在 B+ 树中,关键字只存储在叶子结点,非叶子结点存储的是叶子结点所存储关键字的部分拷贝,所有的叶子结点也都在相同的高度,叶子结点本身按关键字大小从小到大链接。
特性
B+ 树的非叶子结点不直接存储数据的指针,所有数据的指针都存储在叶子结点
B+ 树叶子结点存储的数据从小到大有序排列,且相邻叶子结点之间具有链接
与 B 树的区别
与 B 树相比较,B+ 树具有以下特点:
B+ 树的非叶子结点不直接存储数据,存储的索引更多,树的层级更少,查询的速度更快
B+ 树所有数据的指针都存储在叶子结点,因此每次查找到数据的次数都相同,查询速度更稳定
B+ 树所有的叶子结点之间具有链接,构成了一个有序链表,查询范围区间的数据更方便
B+ 树遍历所有数据时只需要遍历所有叶子结点即可,相对 B 树遍历更快
为什么使用 B+ 树作为索引结构
每一种索引结构都有其对应的应用场景,易用性也是选择的标准之一,这里讨论一下为什么选用 B+ 树作为索引存储结构。
为什么不采用二叉查找树?
\(O(\log n\ 退化到 \(O(n\。
为什么不采用平衡二叉树?
红黑树常见的一种自平衡二叉查找树,但是也有一个问题:红黑树是一个近似平衡的二叉树,当数据量较大的时候,会出现树层级较大的情况。
因此,红黑树不适合作为存储在磁盘上的索引结构。
为什么不采用哈希表?
\(O(1\,其也是最常见的索引存储结构之一。
当然,如果是具有排序功能的哈希表,会非常适合作为存储在内存中的索引结果,如 Java 中的 TreeMap 对象。
为什么不采用 B 树?
而且,通过给一个结点存储一页的数据量,最大化地优化操作系统和磁盘的交互,解决了多次磁盘 IO 的问题。
当然,也有使用 B 树作为索引结构的数据库,如 MongoDB 等。