微客导航 » 文章资讯 » python实现的读取网页并分词功能示例

python实现的读取网页并分词功能示例

2023-08-10 05:51:04 382

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考，具体如下：

这里使用分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba

或点击此处本站下载jieba库。

代码：

importrequests
frombs4importBeautifulSoup
importjieba
#获取html
url="http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res=requests.get(url)
res.encoding='utf-8'
content=res.text
#添加至bs4
soup=BeautifulSoup(content,'html.parser')
div=soup.find(id='main_content')
#写入文件
filename='news.txt'
withopen(filename,'w',encoding='utf-8')asfile_object:
#标签的处理
forlineindiv.findChildren():
file_object.write(line.get_text()+'\n')
#使用分词工具
seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
print("FullMode:"+"/".join(seg_list))#全模式
seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
print("DefaultMode:"+"/".join(seg_list))#精确模式
seg_list=jieba.cut("他来到了网易杭研大厦")#默认是精确模式
print(",".join(seg_list))
withopen(filename,'r',encoding='utf-8')asfile_object:
withopen('cut_news.txt','w',encoding='utf-8')asfile_cut_object:
forlineinfile_object.readlines():
seg_list=jieba.cut(line,cut_all=False)
file_cut_object.write('/'.join(seg_list))

爬取结果：

分词结果：

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python数学运算技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

python实现的读取网页并分词功能示例

热门推荐

随机推荐