利用Python如何将数据写到CSV文件中
前言
我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文件、CSV文件、xls文件等。因为文件具备携带方便、查阅直观。
Python作为胶水语言,搞定这些当然不在话下。但在写数据过程中,经常因数据源中带有中文汉字而报错。最让人头皮发麻的编码问题。
我先说下编码相关的知识。编码方式有很多种:UTF-8,GBK,ASCII等。
ASCII码是美国在上个世纪60年代制定的一套字符编码。主要是规范英语字符和二进制位之间的关系。英语词汇组成简单,由26个字母构成。使用一个字节就能表示一个字母符号。外加各种符号,使用128个字符就满足编码要求。
不同国家有不同语言文字。同时,文字组成部分的数量相比英语字母要多很多。根据不完全统计,汉字的数量大约将近10万个,日常所使用的汉字有3000个。显然,ASCII编码无法满足需求。所以汉字采用GBK编码,使用两个字节表示一个汉字。简体中文的编码方式是GBK2312。
那UTF-8又是什么编码?这要先说Unicode了。Unicode目的是为了统一各种编码。因为各国都各自的编码方式。如果使用一种编码编码,使用另一种编码解码。这会造成出现乱码的情况。但Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。
因此,如果我们要写数据到文件中,最好指定编码形式为UTF-8。
Python标准库中,有个名为csv的库,专门处理csv的读写操作。
Pythoncsv模块封装了常用的功能,使用的简单例子如下:
#读取csv文件
importcsv
withopen('some.csv','rb')asf:#采用b的方式处理可以省去很多问题
reader=csv.reader(f)
forrowinreader:
#dosomethingwithrow,suchasrow[0],row[1]
importcsv
withopen('some.csv','wb')asf:#采用b的方式处理可以省去很多问题
writer=csv.writer(f)
writer.writerows(someiterable)
具体使用实例如下:
importcsv
importcodecs
#codecs是自然语言编码转换模块
fileName='PythonBook.csv'
#指定编码为utf-8,避免写csv文件出现中文乱码
withcodecs.open(fileName,'w','utf-8')ascsvfile:
#指定csv文件的头部显示项
filednames=['书名','作者']
writer=csv.DictWriter(csvfile,fieldnames=filednames)
books=[]
book={
'title':'笑傲江湖',
'author':'金庸',
}
books.append(book)
writer.writeheader()
forbookinbooks:
try:
writer.writerow({'书名':book['title'],'作者':book['author']})
exceptUnicodeEncodeError:
print("编码错误,该数据无法写到文件中,直接忽略该数据")
这种方式是逐行往CSV文件中写数据,所以效率会比较低。如果想批量将数据写到CSV文件中,需要用到pandas库。
pandas是第三方库,所以使用之前需要安装。通过pip方式安装是最简单、最方便的。
pipinstallpandas
使用pandas批量写数据的用法如下:
importpandasaspd
fileName='PythonBook.csv'
number=1
books=[]
book={
'title':'笑傲江湖',
'author':'金庸',
}
#如果book条数足够多的话,pandas会每次往文件中写50条数据。
books.append(book)
data=pd.DataFrame(books)
#写入csv文件,'a+'是追加模式
try:
ifnumber==1:
csv_headers=['书名','作者']
data.to_csv(fileName,header=csv_headers,index=False,mode='a+',encoding='utf-8')
else:
data.to_csv('fileName,header=False,index=False,mode='a+',encoding='utf-8')
number=number+1
exceptUnicodeEncodeError:
print("编码错误,该数据无法写到文件中,直接忽略该数据")
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对毛票票的支持。