python 文本单词提取和词频统计的实例
这些对文本的操作经常用到,那我就总结一下。陆续补充。。。
操作:
strip_html(cls,text)去除html标签
separate_words(cls,text,min_lenth=3)文本提取
get_words_frequency(cls,words_list)获取词频
源码:
classDocProcess(object): @classmethod defstrip_html(cls,text): """ Deletehtmltagsintext. textisString """ new_text="" is_html=False forcharacterintext: ifcharacter=="<": is_html=True elifcharacter==">": is_html=False new_text+="" elifis_htmlisFalse: new_text+=character returnnew_text @classmethod defseparate_words(cls,text,min_lenth=3): """ Separatetextintowordsinlist. """ splitter=re.compile("\\W+") return[s.lower()forsinsplitter.split(text)iflen(s)>min_lenth] @classmethod defget_words_frequency(cls,words_list): """ Getfrequencyofwordsinwords_list. returnadict. """ num_words={} forwordinwords_list: num_words[word]=num_words.get(word,0)+1 returnnum_words
以上这篇python文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。