聚集索引(InnoDB,使用B+Tree作为索引结构)
在一个结构中保存了b-tree索引和数据行;按照主键的顺序存储在叶子页上;
主键索引:叶节点存储key-value为(主键数据:所有剩余列数据)
二级索引(非聚簇索引):叶节点存储key-value为(索引列数据:主键数据)
非叶节点只存储 索引列
优点:
可以把相关数据保存在一起,如根据用户id聚集电子邮箱信息,只需要读取少数的数据页就能获取某个id用户的全部邮件;
数据访问更快,将索引和数据保存在同一个b-tree中;
使用覆盖索引扫描的查询可以直接使用叶节点中的主键值;
缺点:
插入速度严重依赖于插入顺序,按照主键的顺序插入是加载数据到innodb表中速度最快的方式;
插入新行可能面临页分裂的问题,页分裂导致表占用更多磁盘空间;
通过二级索引需要两次查找,存储引擎找到二级索引的叶子节点获得对应的主键值,根据这个值去聚簇索引中找到对应的行
主键:
如果表没有什么数据需要被聚集(如上述邮件用户id),那么可以定义一个代理键作为主键,使用auto_increment自增列;
非聚集索引(MyISAM使用B+Tree作为索引结构)
按照数据插入顺序存储在磁盘上,访问数据需要一次系统调用;
主键索引/二级索引:叶节点存储(索引列数据:数据在磁盘上的行号)
对比:
InnoDB提供事务支持事务,外键等功能;MyISAM不支持。
InnoDB支持行级锁;MyISAM只支持表级锁
InnoDB要求必须有主键;MyISAM允许没有任何索引和主键的表存在,索引都是保存行的地址。
覆盖索引
一个索引包含(或者说覆盖)所有需要查询的字段的值
覆盖索引要存储索引列的值,只能用b-tree索引做覆盖索引(不能用哈希索引,全文索引等)
优点
1. MyISAM存储引擎在内存中只存储索引,覆盖索引不需要进行系统调用;
2. innodb存储引擎的聚簇索引机制,二级主键如果能覆盖查询,可以避免对主键索引的二次查询;
全文索引
希望通过关键字的匹配来进行查询过滤,而不是通过常规的数值比较,范围过滤操作;
MyISAM的全文索引是一类特殊的B-Tree索引,共有两层,第一层是所有关键字,对于每一个关键字的第二层,包含的是一组相关的“文档指针”;
对于文档对象中的所有词语的过滤条件:
1. 停用词列表中的词语都不会被索引
2. 长度大于指定范围和小于指定范围的词语不会被索引
另外,全文索引不会存储关键字具体匹配在哪一列。
1. 自然语言全文索引
根据where子句中的MATCH AGAINST区分是否使用全文索引
Eg.在表file_text的字段title,description上建立fulltext全文索引
Select film_id,title,right(description,25)
Match(title,description) against(‘factory casualties’) as relevance
From file_text where Match(title,description) against(‘factory casualties’);
结果:
Film_id title right(description,25) relevance
831 spirited casualties a car is a baloon factory 8.4692449702
126 casualties encino face a boy in a monastery 5.2615661621
... ...
函数match()将返回关键词的匹配相关度,是一个浮点数。
2. 布尔全文索引
用户可以自定义被搜索词语的相关性;用户可以通过一些前置修饰符定制搜索:
example meaning
Dinosaur 包含dinosaur的行rank值更高
-dinosaur 包含dinosaur的行rank值更低
+dinosaur 行记录必须包含dinosaur
-dinosaur 行记录不能包含dinosaur
Dino* 包含以dino开头的单词的行rank值更高
Eg. Select film_id,title,right(description,25)
From file_text where Match(title,description) against(‘+factory +casualties’ in boolean mood);
结果:
Film_id title right(description,25)
831 spirited casualties a car is a baloon factory
搜索的关键词是不常见的词语时,比LIKE操作要快得多,因为是直接从索引中过滤记录。
全文索引的限制:
1. mysql的全文索引只有一种判断相关性的方法:词频。没有其他相关性排序算法,如存储的位置。
2. 只有全文索引全部在内存中时,性能才能非常好
3. 其他的where条件,只能在mysql完成全文搜索返回记录后才能进行
4. 全文索引不能存储列的实际值,不能用作覆盖扫描
5. 除了相关性排序,不能用作其他排序
配置和优化
1. 停用词表
2. 允许最小词长
在搜索的精度和搜索的效率之间找到合适的平衡点。
索引和锁
索引可以让查询锁定更少的行,innodb只有在访问行时才会对其加锁,而索引可以减少innodb访问的行数,从而减少锁的数量;
但是,只有当innodb在存储引擎层能够过滤掉不需要的行时才有效,如果无法过滤,那么在innodb检索到数据并返回给服务器层,mysql才能应用where语句进行过滤,而innodb已经锁住了这些行,直到服务器层过滤完成后释放锁;
如:select actor_id from sakila.actor where actor_id < 5 (范围)and actor_id <> 1 (过滤) for update;
执行explain命令,显示type为range,表示mysql为该查询选择的执行计划是索引范围查询,即在存储引擎层只执行了actor_id < 5的条件,查询结果:2,3,4;而被锁定的数据行:1,2,3,4;
即使使用索引,也可能锁住一些不需要的行,但是不使用索引查找的话mysql会全表扫描并锁住所有的行。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。