Python常用爬虫代码总结方便查询

2023-08-28 14:56:04 442
beautifulsoup解析页面
frombs4importBeautifulSoup
soup=BeautifulSoup(htmltxt,"lxml")
#三种装载器
soup=BeautifulSoup("","html.parser")
###只有起始标签的会自动补全，只有结束标签的会自动忽略
###结果为：
soup=BeautifulSoup("","lxml")
###结果为：
soup=BeautifulSoup("","html5lib")
###html5lib则出现一般的标签都会自动补全
###结果为：
#根据标签名、id、class、属性等查找标签
###根据class、id、以及属性alog-action的值和标签类别查询
soup.find("a",class_="title",id="t1",attrs={"alog-action":"qb-ask-uname"}))
###查询标签内某属性的值
pubtime=soup.find("meta",attrs={"itemprop":"datePublished"}).attrs['content']
###获取所有class为title的标签
foriinsoup.find_all(class_="title"):
print(i.get_text())
###获取特定数量的class为title的标签
foriinsoup.find_all(class_="title",limit=2):
print(i.get_text())
###获取文本内容时可以指定不同标签之间的分隔符，也可以选择是否去掉前后的空白。
soup=BeautifulSoup('TheDormousesstory
TheDormousesstory',"html5lib")
soup.find(class_="title").get_text("|",strip=True)
#结果为：TheDormousesstory|TheDormousesstory
###获取class为title的p标签的id
soup.find(class_="title").get("id")
###对class名称正则：
soup.find_all(class_=re.compile("tit"))
###recursive参数，recursive=False时，只find当前标签的第一级子标签的数据
soup=BeautifulSoup('abc','lxml')
soup.html.find_all("title",recursive=False)</pre>
<p><strong>unicode编码转中文</strong></p>
<pre>
content="\u65f6\u75c7\u5b85"
content=content.encode("utf8","ignore").decode('unicode_escape')</pre>
<p><strong>urlencode的解码与解码</strong></p>
<pre>
fromurllibimportparse
#编码
x="中国你好"
y=parse.quote(x)
print(y)
#解码
x=parse.unquote(y)
print(x)</pre>
<p><strong>html转义字符的解码</strong></p>
<pre>
fromhtml.parserimportHTMLParser
htmls="<div><p>"
txt=HTMLParser().unescape(htmls)
print(txt).#输出<div><p></pre>
<p><strong>base64的编码与解码</strong></p>
<pre>
importbase64
#编码
content="测试转码文本123"
contents_base64=base64.b64encode(content.encode('utf-8','ignore')).decode("utf-8")
#解码
contents=base64.b64decode(contents_base64)</pre>
<p><strong>过滤emoji表情</strong></p>
<pre>
deffilter_emoji(desstr,restr=''):
try:
co=re.compile(u'[\U00010000-\U0010ffff]')
exceptre.error:
co=re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
returnco.sub(restr,desstr)</pre>
<p><strong>完全过滤script和style标签</strong></p>
<pre>
importrequests
frombs4importBeautifulSoup
soup=BeautifulSoup(htmls,"lxml")
forscriptinsoup(["script","style"]):
script.extract()
print(soup)</pre>
<p><strong>过滤html的标签，但保留标签里的内容</strong></p>
<pre>
importre
htmls="<p>abc</p>"
dr=re.compile(r'<[^>]+>',re.S)
htmls2=dr.sub('',htmls)
print(htmls2)#abc
正则提取内容（一般处理json）
rollback({
"response":{
"code":"0",
"msg":"Success",
"dext":""
},
"data":{
"count":3,
"page":1,
"article_info":[{
"title":"“小库里”：适应比赛是首要任务投篮终会找到节奏",
"url":"http:\/\/sports.qq.com\/a\/20180704\/035378.htm",
"time":"2018-07-0416:58:36",
"column":"NBA",
"img":"",
"desc":""
},{
"title":"首钢体育助力国家冰球集训队中国冰球联赛年底启动",
"url":"http:\/\/sports.qq.com\/a\/20180704\/034698.htm",
"time":"2018-07-0416:34:44",
"column":"综合体育",
"img":"",
"desc":""
}...]
}
})
importre
#提取这个json中的每条新闻的title、url
#(.*?)为要提取的内容，可以在正则字符串中加入.*？表示中间省略若干字符
reg_str=r'"title":"(.*?)",.*?"url":"(.*?)"'
pattern=re.compile(reg_str,re.DOTALL)
items=re.findall(pattern,htmls)
foriinitems:
tilte=i[0]
url=i[1]</pre>
<p><strong>时间操作</strong></p>
<pre>
#获取当前日期
today=datetime.date.today()
print(today)#2018-07-05
#获取当前时间并格式化
time_now=time.strftime("%Y-%m-%d%H:%M:%S",time.localtime(time.time()))
print(time_now)#2018-07-0514:20:55
#对时间戳格式化
a=1502691655
time_a=time.strftime("%Y-%m-%d%H:%M:%S",time.localtime(int(a)))
print(time_a)#2017-08-1414:20:55
#字符串转为datetime类型
str="2018-07-0100:00:00"
datetime.datetime.strptime(st,"%Y-%m-%d%H:%M:%S")
#将时间转化为时间戳
time_line="2018-07-1610:38:50"
time_tuple=time.strptime(time_line,"%Y-%m-%d%H:%M:%S")
time_line2=int(time.mktime(time_tuple))
#明天的日期
today=datetime.date.today()
tomorrow=today+datetime.timedelta(days=1)
print(tomorrow)#2018-07-06
#三天前的时间
today=datetime.datetime.today()
tomorrow=today+datetime.timedelta(days=-3)
print(tomorrow)#2018-07-0213:37:00.107703
#计算时间差
start="2018-07-0300:00:00"
time_now=datetime.datetime.now()
b=datetime.datetime.strptime(start,'%Y-%m-%d%H:%M:%S')
minutes=(time_now-b).seconds/60
days=(time_now-b).days
all_minutes=days*24*60+minutes
print(minutes)#821.7666666666667
print(days)#2
print(all_minutes)#3701.7666666666664</pre>
<p><strong>数据库操作</strong></p>
<pre>
importpymysql
conn=pymysql.connect(host='10.0.8.81',port=3306,user='root',passwd='root',db='xxx',charset='utf8')
cur=conn.cursor()
insert_sql="insertintotbl_name(id,name,age)values(%s,%s,%s)
id=1
name="like"
age=26
data_list=[]
data=(id,name,age)
#单条插入
cur.execute(insert_sql,data)
conn.commit()
#批量插入
data_list.append(data)
cur.executemany(insert_sql,data_list)
conn.commit()
#特殊字符处理(name中含有特殊字符)
data=(id,pymysql.escape_string(name),age)
#更新
update_sql="updatetbl_namesetcontent='%s'whereid="+str(id)
cur.execute(update_sql%(pymysql.escape_string(content)))
conn.commit()
#批量更新
update_sql="UPDATEtbl_recieveSETcontent=%s,title=%s,is_spider=%sWHEREid=%s"
update_data=(contents,title,is_spider,one_new[0])
update_data_list.append(update_data)
iflen(update_data_list)>500:
try:
cur.executemany(update_sql,update_data_list)
conn.commit()</pre>
<p><strong>总结</strong></p>
<p>以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接</p></section>
                </div>
            </div>
            <!--文章阅读上下按钮-->  
            <nav>
                                    <span class="meta-nav"><a href="/article/194957.html" title="C语言和C++的6点区别" se_prerender_url="complete">上一篇<br>C语言和C++的6点区别</a></span>
                
                                    <span class="meta-nav"><a href="/article/194954.html" title="Python使用paramiko操作linux的方法讲解" se_prerender_url="complete">下一篇<br>Python使用paramiko操作linux的方法讲解</a></span>
                            <div class="clear"></div>
            </nav>
            <!-- 文章推荐 -->
            <div class="article-recommend">         
                <h3>热门推荐</h3> 
                                        <div class="title"><span class="s-1">1</span> <a href="/article/371012.html" title="新春进门祝福语大全简短">新春进门祝福语大全简短</a></div>  
                                        <div class="title"><span class="s-2">2</span> <a href="/article/371009.html" title="新郎表白成语祝福语简短">新郎表白成语祝福语简短</a></div>  
                                        <div class="title"><span class="s-3">3</span> <a href="/article/371059.html" title="参加儿子大学祝福语简短">参加儿子大学祝福语简短</a></div>  
                                        <div class="title"><span class="s-4">4</span> <a href="/article/371079.html" title="订婚新发言简短祝福语">订婚新发言简短祝福语</a></div>  
                                        <div class="title"><span class="s-5">5</span> <a href="/article/370995.html" title="日语送考祝福语简短">日语送考祝福语简短</a></div>  
                                        <div class="title"><span class="s-6">6</span> <a href="/article/370996.html" title="夸赞老师祝福语搞笑简短">夸赞老师祝福语搞笑简短</a></div>  
                                        <div class="title"><span class="s-7">7</span> <a href="/article/371207.html" title="老师对学校祝福语简短">老师对学校祝福语简短</a></div>  
                                        <div class="title"><span class="s-8">8</span> <a href="/article/371222.html" title="祝福语怎么写大全简短">祝福语怎么写大全简短</a></div>  
                                        <div class="title"><span class="s-9">9</span> <a href="/article/371192.html" title="对疫情的简短祝福语">对疫情的简短祝福语</a></div>  
                                        <div class="title"><span class="s-10">10</span> <a href="/article/371166.html" title="小红书平安祝福语简短">小红书平安祝福语简短</a></div>  
                                        <div class="title"><span class="s-11">11</span> <a href="/article/371237.html" title="生日祝福语大全女孩简短">生日祝福语大全女孩简短</a></div>  
                                        <div class="title"><span class="s-12">12</span> <a href="/article/371258.html" title="收生日红包祝福语 简短">收生日红包祝福语 简短</a></div>  
                                        <div class="title"><span class="s-13">13</span> <a href="/article/371270.html" title="领证幽默祝福语简短">领证幽默祝福语简短</a></div>  
                                        <div class="title"><span class="s-14">14</span> <a href="/article/371019.html" title="法考面试祝福语简短">法考面试祝福语简短</a></div>  
                                        <div class="title"><span class="s-15">15</span> <a href="/article/371017.html" title="老哥出门祝福语简短语">老哥出门祝福语简短语</a></div>  
                                        <div class="title"><span class="s-16">16</span> <a href="/article/371212.html" title="送灯祝福语简短独特">送灯祝福语简短独特</a></div>  
                                        <div class="title"><span class="s-17">17</span> <a href="/article/371124.html" title="幼儿狗年祝福语大全简短">幼儿狗年祝福语大全简短</a></div>  
                                        <div class="title"><span class="s-18">18</span> <a href="/article/371206.html" title="好听的元旦简短祝福语">好听的元旦简短祝福语</a></div>  
                     
            </div>
            <div class="add-gg">
                <!-- 文章内页广告 -->
                <ins class="adsbygoogle"
                     style="display:block"
                     data-ad-client="ca-pub-4387516810452807"
                     data-ad-slot="9131157744"
                     data-ad-format="auto"
                     data-full-width-responsive="true"></ins>
                <script>
                     (adsbygoogle = window.adsbygoogle || []).push({});
                </script>
            </div>
        </div>
        <!--侧边栏-->
        <div id="sidebar">
            <li class="sidebar-box">
                <h3 class="widget-title">随机推荐</h3>
                <ul>
                                            <li>
                            <a href="/article/371272.html" title="参加婚礼祝福语大全简短">参加婚礼祝福语大全简短</a>
                        </li>
                                            <li>
                            <a href="/article/371271.html" title="生日祝福语大全女生简短">生日祝福语大全女生简短</a>
                        </li>
                                            <li>
                            <a href="/article/371270.html" title="领证幽默祝福语简短">领证幽默祝福语简短</a>
                        </li>
                                            <li>
                            <a href="/article/371269.html" title="学生节祝福语简短大全">学生节祝福语简短大全</a>
                        </li>
                                            <li>
                            <a href="/article/371268.html" title="中秋快乐祝福语简短的">中秋快乐祝福语简短的</a>
                        </li>
                                            <li>
                            <a href="/article/371267.html" title="新年祝福语和语句简短">新年祝福语和语句简短</a>
                        </li>
                                            <li>
                            <a href="/article/371266.html" title="孙子结婚祝福语大全简短">孙子结婚祝福语大全简短</a>
                        </li>
                                            <li>
                            <a href="/article/371264.html" title="新婚祝福语大全简短精炼">新婚祝福语大全简短精炼</a>
                        </li>
                                            <li>
                            <a href="/article/371263.html" title="早晨好正能量祝福语简短">早晨好正能量祝福语简短</a>
                        </li>
                                            <li>
                            <a href="/article/371262.html" title="弟弟生日祝福语简短的话">弟弟生日祝福语简短的话</a>
                        </li>
                                            <li>
                            <a href="/article/371261.html" title="锡婚祝福语简短霸气">锡婚祝福语简短霸气</a>
                        </li>
                                            <li>
                            <a href="/article/371260.html" title="师生聚餐的祝福语简短">师生聚餐的祝福语简短</a>
                        </li>
                                            <li>
                            <a href="/article/371259.html" title="药店祝福语简短10字">药店祝福语简短10字</a>
                        </li>
                                            <li>
                            <a href="/article/371258.html" title="收生日红包祝福语 简短">收生日红包祝福语 简短</a>
                        </li>
                                            <li>
                            <a href="/article/371257.html" title="3岁孩子祝福语简短">3岁孩子祝福语简短</a>
                        </li>
                                            <li>
                            <a href="/article/371255.html" title="简短56岁生日祝福语">简短56岁生日祝福语</a>
                        </li>
                                    </ul>
            </li>
            <li class="sidebar-box">

                 <!-- google文章侧边 -->
                <ins class="adsbygoogle"
                     style="display:block"
                     data-ad-client="ca-pub-4387516810452807"
                     data-ad-slot="8604338277"
                     data-ad-format="auto"
                     data-full-width-responsive="true"></ins>
                <script>
                     (adsbygoogle = window.adsbygoogle || []).push({});
                </script>
            </li>
        </div>
    </div>
</div>

<ul class="suspend">
    <li class="back-top" onclick="backTop()">
        <i class="fa fa-chevron-up"></i>
        <span class="more">返回顶部</span>
    </li>
    <li>
        <a href="http://wpa.qq.com/msgrd?v=3&uin=3162201930&site=qq&menu=yes">
            <i class="fa fa-qq"></i>
            <span class="more">3162201930</span>
        </a>
    </li>
    <li>
        <a href="mailto:czq8825@qq.com">
            <i class="fa fa-envelope"></i>
            <span class="more">czq8825@qq.com</span>
        </a>
    </li>
<!--     <li>
        <i class="fa fa-weixin"></i>
        <span class="more weixin"><img src="https://www.haoziyuan.cc/Uploads/20210427/6087c019e1f1f.jpg" alt="微信二维码"></span>
    </li> -->
</ul>

<footer class="footer clearfix">
    <p>免责声明：网站资源来源于网络，如有侵权，请及时联系删除。</p>
    <p>Copyright © 2026 <a href="/">微客导航网</a>. All Rights Reserved.</p>
    <p>
        <a href="https://beian.miit.gov.cn">蜀ICP备2021004611号-4</a>
        <a href="/sitemap.html">网站地图</a>
        <script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id:"KzuJqBC7sskDeRpE",ck:"KzuJqBC7sskDeRpE"})</script>    </p>
</footer>
<script src="/Public/Home/js/main.js"></script>
<script type="text/javascript" src="/Public/Home/js/z_stat.js"></script>
</body>
</html>