Python实现爬取需要登录的网站完整示例
本文实例讲述了Python爬取需要登录的网站实现方法。分享给大家供大家参考,具体如下:
importrequests fromlxmlimporthtml #创建session对象。这个对象会保存所有的登录会话请求。 session_requests=requests.session() #提取在登录时所使用的csrf标记 login_url="https://bitbucket.org/account/signin/?next=/" result=session_requests.get(login_url) tree=html.fromstring(result.text) authenticity_token=list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0] payload={ "username":"<你的用户名>", "password":"<你的密码>", "csrfmiddlewaretoken":authenticity_token#在源代码中,有一个名为“csrfmiddlewaretoken”的隐藏输入标签。 } #执行登录 result=session_requests.post( login_url, data=payload, headers=dict(referer=login_url) ) #已经登录成功了,然后从bitbucketdashboard页面上爬取内容。 url='https://bitbucket.org/dashboard/overview' result=session_requests.get( url, headers=dict(referer=url) ) #测试爬取的内容 tree=html.fromstring(result.content) bucket_elems=tree.findall(".//span[@class='repo-name']/") bucket_names=[bucket.text_content.replace("n","").strip()forbucketinbucket_elems] print(bucket_names)
更多关于Python相关内容可查看本站专题:《PythonSocket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。