python统计文章中单词出现次数实例
python统计单词出现次数
做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key,单词出现的次数作为字典的value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。
下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。
#-*-coding:utf-8-*-
importio
importre
classCounter:
def__init__(self,path):
"""
:parampath:文件路径
"""
self.mapping=dict()
withio.open(path,encoding="utf-8")asf:
data=f.read()
words=[s.lower()forsinre.findall("\w+",data)]
forwordinwords:
self.mapping[word]=self.mapping.get(word,0)+1
defmost_common(self,n):
assertn>0,"nshouldbelargethan0"
returnsorted(self.mapping.items(),key=lambdaitem:item[1],reverse=True)[:n]
if__name__=='__main__':
most_common_5=Counter("importthis.txt").most_common(5)
foriteminmost_common_5:
print(item)
执行效果:
('is',10)
('better',8)
('than',8)
('the',6)
('to',5)
知识点补充:
1、如何正确读写文件
2、如何对数据进行排序
3、字典数据类型的运用
4、正则表达式的运用
到此这篇关于python统计文章中单词出现次数实例的文章就介绍到这了,更多相关python统计单词出现次数内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。