深度解析MySQL 5.7之中文全文检索
前言
其实全文检索在MySQL里面很早就支持了,只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行分词。这不,从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。
在使用中文检索分词插件ngram之前,先得在MySQL配置文件里面设置他的分词大小,比如,
[mysqld] ngram_token_size=2
这里把分词大小设置为2。要记住,分词的SIZE越大,索引的体积就越大,所以要根据自身情况来设置合适的大小。
示例表结构:
CREATETABLEarticles( idINTUNSIGNEDAUTO_INCREMENTNOTNULLPRIMARYKEY, titleVARCHAR(200), bodyTEXT, FULLTEXT(title,body)WITHPARSERngram )ENGINE=InnoDBCHARACTERSETutf8mb4;
示例数据,有6行记录。
mysql>select*fromarticles\G ***************************1.row*************************** id:1 title:数据库管理 body:在本教程中我将向你展示如何管理数据库 ***************************2.row*************************** id:2 title:数据库应用开发 body:学习开发数据库应用程序 ***************************3.row*************************** id:3 title:MySQL完全手册 body:学习MySQL的一切 ***************************4.row*************************** id:4 title:数据库与事务处理 body:系统的学习数据库的事务概论 ***************************5.row*************************** id:5 title:NoSQL精髓 body:学习了解各种非结构化数据库 ***************************6.row*************************** id:6 title:SQL语言详解 body:详细了解如果使用各种SQL 6rowsinset(0.00sec)
显式指定全文检索表源
mysql>SETGLOBALinnodb_ft_aux_table="new_feature/articles"; QueryOK,0rowsaffected(0.00sec)
通过系统表,就可以查看到底是怎么划分articles里的数据。
mysql>SELECT*FROMinformation_schema.INNODB_FT_INDEX_CACHELIMIT20,10; +------+--------------+-------------+-----------+--------+----------+ |WORD|FIRST_DOC_ID|LAST_DOC_ID|DOC_COUNT|DOC_ID|POSITION| +------+--------------+-------------+-----------+--------+----------+ |中我|2|2|1|2|28| |习m|4|4|1|4|21| |习了|6|6|1|6|16| |习开|3|3|1|3|25| |习数|5|5|1|5|37| |了解|6|7|2|6|19| |了解|6|7|2|7|23| |事务|5|5|1|5|12| |事务|5|5|1|5|40| |何管|2|2|1|2|52| +------+--------------+-------------+-----------+--------+----------+ 10rowsinset(0.00sec)
这里可以看到,把分词长度设置为2,所有的数据都只有两个一组。上面数据还包含了行的位置,ID等等信息。
接下来,我来进行一系列检索示范,使用方法和原来英文检索一致。
一、自然语言模式下检索:
1、得到符合条件的个数,
mysql>SELECTCOUNT(*)FROMarticles ->WHEREMATCH(title,body)AGAINST('数据库'INNATURALLANGUAGEMODE); +----------+ |COUNT(*)| +----------+ |4| +----------+ 1rowinset(0.05sec)
2、得到匹配的比率,
mysql>SELECTid,MATCH(title,body)AGAINST('数据库'INNATURALLANGUAGEMODE) ASscoreFROMarticles; +----+----------------------+ |id|score| +----+----------------------+ |1|0.12403252720832825| |2|0.12403252720832825| |3|0| |4|0.12403252720832825| |5|0.062016263604164124| |6|0| +----+----------------------+ 6rowsinset(0.00sec)
二、布尔模式下搜索,这个就相对于自然模式搜索来的复杂些:
1、匹配既有管理又有数据库的记录,
mysql>SELECT*FROMarticlesWHEREMATCH(title,body) ->AGAINST('+数据库+管理'INBOOLEANMODE); +----+------------+--------------------------------------+ |id|title|body| +----+------------+--------------------------------------+ |1|数据库管理|在本教程中我将向你展示如何管理数据库| +----+------------+--------------------------------------+ 1rowinset(0.00sec)
2、匹配有数据库,但是没有管理的记录,
mysql>SELECT*FROMarticlesWHEREMATCH(title,body) ->AGAINST('+数据库-管理'INBOOLEANMODE); +----+------------------+----------------------------+ |id|title|body| +----+------------------+----------------------------+ |2|数据库应用开发|学习开发数据库应用程序| |4|数据库与事务处理|系统的学习数据库的事务概论| |5|NoSQL精髓|学习了解各种非结构化数据库| +----+------------------+----------------------------+ 3rowsinset(0.00sec)
3、匹配MySQL,但是把数据库的相关性降低,
mysql>SELECT*FROMarticlesWHEREMATCH(title,body) ->AGAINST('>数据库+MySQL'INBOOLEANMODE); +----+---------------+-----------------+ |id|title|body| +----+---------------+-----------------+ |3|MySQL完全手册|学习MySQL的一切| +----+---------------+-----------------+ 1rowinset(0.00sec)
三、查询扩展模式,比如要搜索数据库,那么MySQL,oracle,DB2也都将会被搜索到,
mysql>SELECT*FROMarticles ->WHEREMATCH(title,body) ->AGAINST('数据库'WITHQUERYEXPANSION); +----+------------------+--------------------------------------+ |id|title|body| +----+------------------+--------------------------------------+ |1|数据库管理|在本教程中我将向你展示如何管理数据库| |4|数据库与事务处理|系统的学习数据库的事务概论| |2|数据库应用开发|学习开发数据库应用程序| |5|NoSQL精髓|学习了解各种非结构化数据库| |6|SQL语言详解|详细了解如果使用各种SQL| |3|MySQL完全手册|学习MySQL的一切| +----+------------------+--------------------------------------+ 6rowsinset(0.01sec)
当然,我这里只是功能演示,更多的性能测试,大家有兴趣可以进行详细测试。由于N-grm是中文检索常用的分词算法,已经在互联网大量使用,这次集成到MySQL中,想必效果上不会有太大的问题。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。