python脚本爬取字体文件的实现方法
前言
大家应该都有所体会,为了提高验证码的识别准确率,我们当然要首先得到足够多的测试数据。验证码下载下来容易,但是需要人脑手工识别着实让人受不了,于是我就想了个折衷的办法——自己造验证码。
为了保证多样性,首先当然需要不同的字模了,直接用类似ttf格式的字体文件即可,网上有很多ttf格式的字体包供我们下载。当然,我不会傻到手动下载解压缩,果断要写个爬虫了。
实现方法
网站一:fontsquirrel.com
这个网站的字体可以免费下载,但是有很多下载点都是外链连接到其他网站的,这部分得忽略掉。
#coding:utf-8 importurllib2,cookielib,sys,re,os,zipfile importnumpyasnp #网站登陆 cj=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) opener.addheaders=[('User-agent','Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/47.0.2526.106Safari/537.36))')] urllib2.install_opener(opener) #搜索可下载连接 defsearch(path): request=urllib2.Request(path) response=urllib2.urlopen(request) html=response.read() html=html.replace('\n','')#将所有的回车去掉,因为正则表达式是单行匹配。。。。。。 urls=re.findall(r'(.*?)',html) foriinurls: url,inner=i ifnotre.findall(r'Download',inner)==[]andre.findall(r'offsite',inner)==[]andurlnotinitems: items.append(url) items=[]#保存下载地址 foriinxrange(15): host='http://www.fontsquirrel.com/fonts/list/find_fonts/'+str(i*50)+'?filter%5Bdownload%5D=local' search(host) ifnotos.path.exists('ttf'): os.mkdir('ttf') os.chdir('ttf') defunzip(rawfile,outputdir): ifzipfile.is_zipfile(rawfile): print'yes' fz=zipfile.ZipFile(rawfile,'r') forfilesinfz.namelist(): print(files)#打印zip归档中目录 fz.extract(files,outputdir)#解压缩文件 else: print'no' foriinitems: printi request=urllib2.Request('http://www.fontsquirrel.com'+i) response=urllib2.urlopen(request) html=response.read() name=i.split('/')[-1]+'.zip' f=open(name,'w') f.write(html) f.close()#文件记得关闭,否则下面unzip会出错 unzip(name,'./') os.remove(name) os.listdir(os.getcwd()) os.chdir('../') files=os.listdir('ttf/') foriinfiles:#删除无用文件 ifnot(i.split('.')[-1]=='ttf'ori.split('.')[-1]=='otf'): ifos.path.isdir(i): os.removedirs('ttf/'+i) else: os.remove('ttf/'+i) printlen(os.listdir('ttf/'))
搞到了2000+个字体,种类也挺多的,蛮好。
网站二:dafont.com
这个网站的字体花样比较多,下载起来也比较方便,恶心的是他的文件名的编码好像有点问题。
#coding:utf-8 importurllib2,cookielib,sys,re,os,zipfile importshutil importnumpyasnp cj=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) opener.addheaders=[('User-agent','Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/47.0.2526.106Safari/537.36))')] urllib2.install_opener(opener) items=[] defsearch(path): request=urllib2.Request(path) response=urllib2.urlopen(request) html=response.read() html=html.replace('\n','') urls=re.findall(r'href=\"(http://dl.dafont.com/dl/\?f=.*?)\">',html) items.extend(urls) foriinxrange(117): host='http://www.dafont.com/new.php?page='+str(i+1) search(host) print'Page'+str(i+1)+'done' items=list(set(items)) printlen(items) ifnotos.path.exists('ttf2'): os.mkdir('ttf2') os.chdir('ttf2') defunzip(rawfile,outputdir): ifzipfile.is_zipfile(rawfile): print'yes' fz=zipfile.ZipFile(rawfile,'r') forfilesinfz.namelist(): print(files)#打印zip归档中目录 fz.extract(files,outputdir) else: print'no' foriinitems: printi request=urllib2.Request(i) response=urllib2.urlopen(request) html=response.read() name=i.split('=')[-1]+'.zip' f=open(name,'w') f.write(html) f.close() unzip(name,'./') os.remove(name) printos.listdir(os.getcwd()) forroot,dire,fisinos.walk('./'):#递归遍历文件夹 foriinfis: ifnot(i.split('.')[-1]=='ttf'ori.split('.')[-1]=='otf'): os.remove(root+i) printi foriinos.listdir('./'): ifos.path.isdir(i): os.rmdir(i) os.chdir('../')
总体操作跟之前的差不多,跑了几十分钟下了4000多的字体。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对毛票票的支持。