Django中使用Whoosh进行全文检索的方法
Whoosh是纯Python实现的全文搜索引擎,通过Whoosh可以很方便的给文档加上全文索引功能。
什么是全文检索
简单讲分为两块,一块是分词,一块是搜索。比如下面一段话:
上次舞蹈演出直接在上海路的弄堂里
比如我们现在想检索上次的演出,通常我们会直接搜索关键词:上次演出,但是使用传统的SQLlike查询并不能命中上面的这段话,因为在上次和演出中间还有舞蹈。然而全文搜索却将上文切成一个个Token,类似:
上次/舞蹈/演出/直接/在/上海路/的/弄堂/里
切分成Token后做反向索引(invertedindexing),这样我们就可以通过关键字很快查询到了结果了。
解决分词问题
分词是个很有技术难度的活,比如上面的语句中一个难点就是到底是上海路还是上海呢?Python有个中文分词库:结巴分词,我们可以通过结巴分词来完成索引中分词工作,结巴分词提供了Whoosh的组件可以直接集成,代码示例
遇到的问题
如果是在一些VPS上测试的时候非常慢的话可能是内存不足,比如512MB做一个博客索引非常慢,尝试升级到1GB后可以正常使用了。
代码
importlogging importos importshutil fromdjango.confimportsettings fromwhoosh.fieldsimportSchema,ID,TEXT,NUMERIC fromwhoosh.indeximportcreate_in,open_dir fromwhoosh.qparserimportMultifieldParser fromjieba.analyseimportChineseAnalyzer from.modelsimportArticle log=logging.getLogger(__name__) index_dir=os.path.join(settings.BASE_DIR,"whoosh_index") indexer=open_dir(index_dir) defarticles_search(keyword): mp=MultifieldParser( ['content','title'],schema=indexer.schema,fieldboosts={'title':5.0}) query=mp.parse(keyword) withindexer.searcher()assearcher: results=searcher.search(query,limit=15) articles=[] forhitinresults: log.debug(hit) articles.append({ 'id':hit['id'], 'slug':hit['slug'], }) returnarticles defrebuild(): ifos.path.exists(index_dir): shutil.rmtree(index_dir) os.makedirs(index_dir) analyzer=ChineseAnalyzer() schema=Schema( id=ID(stored=True,unique=True), slug=TEXT(stored=True), title=TEXT(), content=TEXT(analyzer=analyzer)) indexer=create_in(index_dir,schema) __index_all_articles() def__index_all_articles(): writer=indexer.writer() published_articles=Article.objects.exclude(is_draft=True) forarticleinpublished_articles: writer.add_document( id=str(article.id), slug=article.slug, title=article.title, content=article.content, ) writer.commit() defarticle_update_index(article): ''' updatinganarticletoindexer,addingifnot. ''' writer=indexer.writer() writer.update_document( id=str(article.id), slug=article.slug, title=article.title, content=article.content, ) writer.commit() defarticle_delete_index(article): writer=indexer.writer() writer.delete_by_term('id',str(article.id)) writer.commit()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。