Python爬取数据并实现可视化代码解析

2023-07-18 22:07:04 419

这次主要是爬了京东上一双鞋的相关评论：将数据保存到excel中并可视化展示相应的信息

主要的python代码如下：

文件1

#将excel中的数据进行读取分析
importopenpyxl
importmatplotlib.pyplotaspit#数据统计用的
wk=openpyxl.load_workbook('销售数据.xlsx')
sheet=wk.active#获取活动表
#获取最大行数和最大列数
rows=sheet.max_row
cols=sheet.max_column
lst=[]#用于存储鞋子码数
foriinrange(2,rows+1):
size=sheet.cell(i,3).value
lst.append(size)
#以上已经将excel中的数据读取完毕
#一下操作就你行统计不同码数的数量
'''python中有一个数据结构叫做字典，使用鞋码做key，使用销售数量做value'''
dic_size={}
foriteminlst:
dic_size[item]=0

foriteminlst:
forsizeindic_size:
#遍历字典
ifitem==size:
dic_size[size]+=1
break
foritemindic_size:
print(item,dic_size[item])
#弄成百分比的形式
lst_total=[]
foritemindic_size:
lst_total.append([item,dic_size[item],dic_size[item]/160*1.0])

#接下来进行数据的可视化(进行画饼操作)
labels=[item[0]+'码'foriteminlst_total]#使用列表生成式，得到饼图的标签
fraces=[item[2]foriteminlst_total]#饼图中的数据源
pit.rcParams['font.family']=['SimHei']#单独的表格乱码的处理方式
pit.pie(x=fraces,labels=labels,autopct='%1.1f%%')
#pit.show()进行结果的图片的展示
pit.savefig('图.jpg')

文件2

#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化
#静态数据点击element中点击发现在html中，服务器已经渲染好的内容，直接发给浏览器，浏览器解释执行，
#动态数据：如果点击下一页。我们的地址栏（加后缀但是前面的地址栏没变也算）（也可以点击2和3页）没有发生任何变化说明是动态数据，说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。
#动态查看network然后用的url是network里面的headers
#安装第三方模块输入cmd之后pipinstall加名字例如requests
importrequests
importre
importtime
importjson
importopenpyxl#用于操作excel文件的
headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.131Safari/537.36'}#创建头部信息
defget_comments(productId,page):
url="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1".format(productId,page)
resp=requests.get(url,headers=headers)
s=resp.text.replace('fetchJSON_comment98(','')#进行替换操作。获取到所需要的相应的json，也就是去掉前后没用的东西
s=s.replace(');','')
json_data=json.loads(s)#进行数据json转换
returnjson_data

#获取最大页数
defget_max_page(productId):
dis_data=get_comments(productId,0)#调用刚才写的函数进行向服务器的访问请求，获取字典数据
returndis_data['maxPage']#获取他的最大页数。每一页都有最大页数

#进行数据提取
defget_info(productId):
max_page=get_max_page(productId)
lst=[]#用于存储提取到的商品数据
forpageinrange(1,max_page+1):
#获取没页的商品评论
comments=get_comments(productId,page)
comm_list=comments['comments']#根据comnents获取到评论的列表(每页有10条评论)
#遍历评论列表，获取其中的相应的数据
foritemincomm_list:
#每条评论分别是一字典。在继续通过key来获取值
content=item['content']
color=item['productColor']
size=item['productSize']
lst.append([content,color,size])#将每条评论添加到列表当中
time.sleep(3)#防止被京东封ip进行一个时间延迟。防止访问次数太频繁
save(lst)

defsave(lst):
#把爬取到的数据进行存储,保存到excel中
wk=openpyxl.Workbook()#用于创建工作簿对象
sheet=wk.active#获取活动表（一个工作簿有三个表）
#遍历列表将数据添加到excel中。列表中的一条数据在表中是一行
biaotou='评论','颜色','大小'
sheet.append(biaotou)
foriteminlst:
sheet.append(item)
#将excel保存到磁盘上
wk.save('销售数据.xlsx')


if__name__=='__main__':
productId='66749071789'
get_info(productId)
print("ok")

实现的效果如下：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

Python爬取数据并实现可视化代码解析

热门推荐

随机推荐