MySQL DISTINCT 的基本实现原理详解
前言
DISTINCT实际上和GROUPBY操作的实现非常相似,只不过是在GROUPBY之后的每组中只取出一条记录而已。所以,DISTINCT的实现和GROUPBY的实现也基本差不多,没有太大的区别。同样可以通过松散索引扫描或者是紧凑索引扫描来实现,当然,在无法仅仅使用索引即能完成DISTINCT的时候,MySQL只能通过临时表来完成。
但是,和GROUPBY有一点差别的是,DISTINCT并不需要进行排序。也就是说,在仅仅只是DISTINCT操作的Query如果无法仅仅利用索引完成操作的时候,MySQL会利用临时表来做一次数据的“缓存”,但是不会对临时表中的数据进行filesort操作。
当然,如果我们在进行DISTINCT的时候还使用了GROUPBY并进行了分组,并使用了类似于MAX之类的聚合函数操作,就无法避免filesort了。
下面我们就通过几个简单的Query示例来展示一下DISTINCT的实现。
1.首先看看通过松散索引扫描完成DISTINCT的操作:
sky@localhost:example11:03:41>EXPLAINSELECTDISTINCTgroup_id ->FROMgroup_messageG ***************************1.row*************************** id:1 SELECT_type:SIMPLE table:group_message type:range possible_keys:NULL key:idx_gid_uid_gc key_len:4 ref:NULL rows:10 Extra:Usingindexforgroup-by 1rowinset(0.00sec)
我们可以很清晰的看到,执行计划中的Extra信息为“Usingindexforgroup-by”,这代表什么意思?为什么我没有进行GROUPBY操作的时候,执行计划中会告诉我这里通过索引进行了GROUPBY呢?
其实这就是于DISTINCT的实现原理相关的,在实现DISTINCT的过程中,同样也是需要分组的,然后再从每组数据中取出一条返回给客户端。而这里的Extra信息就告诉我们,MySQL利用松散索引扫描就完成了整个操作。
当然,如果MySQLQueryOptimizer要是能够做的再人性化一点将这里的信息换成“Usingindexfordistinct”那就更好更容易让人理解了,呵呵。
2.我们再来看看通过紧凑索引扫描的示例:
sky@localhost:example11:03:53>EXPLAINSELECTDISTINCTuser_id ->FROMgroup_message ->WHEREgroup_id=2G ***************************1.row*************************** id:1 SELECT_type:SIMPLE table:group_message type:ref possible_keys:idx_gid_uid_gc key:idx_gid_uid_gc key_len:4 ref:const rows:4 Extra:UsingWHERE;Usingindex 1rowinset(0.00sec)
这里的显示和通过紧凑索引扫描实现GROUPBY也完全一样。实际上,这个Query的实现过程中,MySQL会让存储引擎扫描group_id=2的所有索引键,得出所有的user_id,然后利用索引的已排序特性,每更换一个user_id的索引键值的时候保留一条信息,即可在扫描完所有gruop_id=2的索引键的时候完成整个DISTINCT操作。
3.下面我们在看看无法单独使用索引即可完成DISTINCT的时候会是怎样:
sky@localhost:example11:04:40>EXPLAINSELECTDISTINCTuser_id ->FROMgroup_message ->WHEREgroup_id>1ANDgroup_id<10G ***************************1.row*************************** id:1 SELECT_type:SIMPLE table:group_message type:range possible_keys:idx_gid_uid_gc key:idx_gid_uid_gc key_len:4 ref:NULL rows:32 Extra:UsingWHERE;Usingindex;Usingtemporary 1rowinset(0.00sec)
当MySQL无法仅仅依赖索引即可完成DISTINCT操作的时候,就不得不使用临时表来进行相应的操作了。但是我们可以看到,在MySQL利用临时表来完成DISTINCT的时候,和处理GROUPBY有一点区别,就是少了filesort。
实际上,在MySQL的分组算法中,并不一定非要排序才能完成分组操作的,这一点在上面的GROUPBY优化小技巧中我已经提到过了。实际上这里MySQL正是在没有排序的情况下实现分组最后完成DISTINCT操作的,所以少了filesort这个排序操作。
4.最后再和GROUPBY结合试试看:
sky@localhost:example11:05:06>EXPLAINSELECTDISTINCTmax(user_id) ->FROMgroup_message ->WHEREgroup_id>1ANDgroup_id<10 ->GROUPBYgroup_idG ***************************1.row*************************** id:1 SELECT_type:SIMPLE table:group_message type:range possible_keys:idx_gid_uid_gc key:idx_gid_uid_gc key_len:4 ref:NULL rows:32 Extra:UsingWHERE;Usingindex;Usingtemporary;Usingfilesort 1rowinset(0.00sec)
最后我们再看一下这个和GROUPBY一起使用带有聚合函数的示例,和上面第三个示例相比,可以看到已经多了filesort排序操作了,正是因为我们使用了MAX函数的缘故。要取得分组后的MAX值,又无法使用索引完成操作,只能通过排序才行了。
由于DISTINCT的实现基本上和GROUPBY的实现差不多,所以这篇文章就不再画图展示实现过程了
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。