python实现的读取网页并分词功能示例
本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:
这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba
或点击此处本站下载jieba库。
代码:
importrequests frombs4importBeautifulSoup importjieba #获取html url="http://finance.ifeng.com/a/20180328/16049779_0.shtml" res=requests.get(url) res.encoding='utf-8' content=res.text #添加至bs4 soup=BeautifulSoup(content,'html.parser') div=soup.find(id='main_content') #写入文件 filename='news.txt' withopen(filename,'w',encoding='utf-8')asfile_object: #标签的处理 forlineindiv.findChildren(): file_object.write(line.get_text()+'\n') #使用分词工具 seg_list=jieba.cut("我来到北京清华大学",cut_all=True) print("FullMode:"+"/".join(seg_list))#全模式 seg_list=jieba.cut("我来到北京清华大学",cut_all=False) print("DefaultMode:"+"/".join(seg_list))#精确模式 seg_list=jieba.cut("他来到了网易杭研大厦")#默认是精确模式 print(",".join(seg_list)) withopen(filename,'r',encoding='utf-8')asfile_object: withopen('cut_news.txt','w',encoding='utf-8')asfile_cut_object: forlineinfile_object.readlines(): seg_list=jieba.cut(line,cut_all=False) file_cut_object.write('/'.join(seg_list))
爬取结果:
分词结果:
更多关于Python相关内容感兴趣的读者可查看本站专题:《Python数学运算技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。