python脚本爬取字体文件的实现方法

2024-02-24 17:25:04 411

前言

大家应该都有所体会，为了提高验证码的识别准确率，我们当然要首先得到足够多的测试数据。验证码下载下来容易，但是需要人脑手工识别着实让人受不了，于是我就想了个折衷的办法——自己造验证码。

为了保证多样性，首先当然需要不同的字模了，直接用类似ttf格式的字体文件即可，网上有很多ttf格式的字体包供我们下载。当然，我不会傻到手动下载解压缩，果断要写个爬虫了。

实现方法

网站一：fontsquirrel.com

这个网站的字体可以免费下载，但是有很多下载点都是外链连接到其他网站的，这部分得忽略掉。

#coding:utf-8
importurllib2,cookielib,sys,re,os,zipfile
importnumpyasnp
#网站登陆
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/47.0.2526.106Safari/537.36))')]
urllib2.install_opener(opener)
#搜索可下载连接
defsearch(path):
request=urllib2.Request(path)
response=urllib2.urlopen(request)
html=response.read()
html=html.replace('\n','')#将所有的回车去掉，因为正则表达式是单行匹配。。。。。。
urls=re.findall(r'(.*?)',html)
foriinurls:
url,inner=i
ifnotre.findall(r'Download',inner)==[]andre.findall(r'offsite',inner)==[]andurlnotinitems:
items.append(url)
items=[]#保存下载地址
foriinxrange(15):
host='http://www.fontsquirrel.com/fonts/list/find_fonts/'+str(i*50)+'?filter%5Bdownload%5D=local'
search(host)
ifnotos.path.exists('ttf'):
os.mkdir('ttf')
os.chdir('ttf')
defunzip(rawfile,outputdir):
ifzipfile.is_zipfile(rawfile):
print'yes'
fz=zipfile.ZipFile(rawfile,'r')
forfilesinfz.namelist():
print(files)#打印zip归档中目录
fz.extract(files,outputdir)#解压缩文件
else:
print'no'
foriinitems:
printi
request=urllib2.Request('http://www.fontsquirrel.com'+i)
response=urllib2.urlopen(request)
html=response.read()
name=i.split('/')[-1]+'.zip'
f=open(name,'w')
f.write(html)
f.close()#文件记得关闭，否则下面unzip会出错
unzip(name,'./')
os.remove(name)
os.listdir(os.getcwd())
os.chdir('../')
files=os.listdir('ttf/')
foriinfiles:#删除无用文件
ifnot(i.split('.')[-1]=='ttf'ori.split('.')[-1]=='otf'):
ifos.path.isdir(i):
os.removedirs('ttf/'+i)
else:
os.remove('ttf/'+i)
printlen(os.listdir('ttf/'))

搞到了2000+个字体，种类也挺多的，蛮好。

网站二：dafont.com

这个网站的字体花样比较多，下载起来也比较方便，恶心的是他的文件名的编码好像有点问题。

#coding:utf-8
importurllib2,cookielib,sys,re,os,zipfile
importshutil
importnumpyasnp
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/47.0.2526.106Safari/537.36))')]
urllib2.install_opener(opener)
items=[]
defsearch(path):
request=urllib2.Request(path)
response=urllib2.urlopen(request)
html=response.read()
html=html.replace('\n','')
urls=re.findall(r'href=\"(http://dl.dafont.com/dl/\?f=.*?)\">',html)
items.extend(urls)
foriinxrange(117):
host='http://www.dafont.com/new.php?page='+str(i+1)
search(host)
print'Page'+str(i+1)+'done'
items=list(set(items))
printlen(items)
ifnotos.path.exists('ttf2'):
os.mkdir('ttf2')
os.chdir('ttf2')
defunzip(rawfile,outputdir):
ifzipfile.is_zipfile(rawfile):
print'yes'
fz=zipfile.ZipFile(rawfile,'r')
forfilesinfz.namelist():
print(files)#打印zip归档中目录
fz.extract(files,outputdir)
else:
print'no'
foriinitems:
printi
request=urllib2.Request(i)
response=urllib2.urlopen(request)
html=response.read()
name=i.split('=')[-1]+'.zip'
f=open(name,'w')
f.write(html)
f.close()
unzip(name,'./')
os.remove(name)
printos.listdir(os.getcwd())
forroot,dire,fisinos.walk('./'):#递归遍历文件夹
foriinfis:
ifnot(i.split('.')[-1]=='ttf'ori.split('.')[-1]=='otf'):
os.remove(root+i)
printi
foriinos.listdir('./'):
ifos.path.isdir(i):
os.rmdir(i)
os.chdir('../')

总体操作跟之前的差不多，跑了几十分钟下了4000多的字体。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对毛票票的支持。

python脚本爬取字体文件的实现方法

热门推荐

随机推荐