Python3实现将本地JSON大数据文件写入MySQL数据库的方法
本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法。分享给大家供大家参考,具体如下:
最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直接使用本地文件,选择python来分析,那么效率是非常低的;另一方面使用SQL来储存文本文件最为安全,之前使用CSV,txt存储的文本文件最后莫名其妙地出现一些奇怪字符,导致读取数据分割时出现错乱。下面给出一个简单的代码,将本地JSON文件内容存入数据库。
说明:python版本为3.5,使用第三方库为pymysql。因为数据量比较大,不能一次性读取到内存(否则内存报错),这里使用逐行读取的方式。数据库先创建后再使用以下代码;
importjson
importpymysql
#读取review数据,并写入数据库
#导入数据库成功,总共4736897条记录
defprem(db):
cursor=db.cursor()
cursor.execute("SELECTVERSION()")
data=cursor.fetchone()
print("Databaseversion:%s"%data)#结果表明已经连接成功
cursor.execute("DROPTABLEIFEXISTSreview")#习惯性
sql="""CREATETABLEreview(
review_idVARCHAR(100),
user_idVARCHAR(100),
business_idVARCHAR(200),
starsINT,
textVARCHAR(10000)NOTNULL,
usefulINT,
funnyINT,
coolINT)"""
cursor.execute(sql)#根据需要创建一个表格
defreviewdata_insert(db):
withopen('E:/data/yelp_data/dataset/review.json',encoding='utf-8')asf:
i=0
whileTrue:
i+=1
print(u'正在载入第%s行......'%i)
try:
lines=f.readline()#使用逐行读取的方法
review_text=json.loads(lines)#解析每一行数据
result=[]
result.append((review_text['review_id'],review_text['user_id'],review_text['business_id'],review_text['stars'],review_text['text'],review_text['useful'],
review_text['funny'],review_text['cool']))
print(result)
inesrt_re="insertintoreview(review_id,user_id,business_id,stars,text,useful,funny,cool)values(%s,%s,%s,%s,%s,%s,%s,%s)"
cursor=db.cursor()
cursor.executemany(inesrt_re,result)
db.commit()
exceptExceptionase:
db.rollback()
print(str(e))
break
if__name__=="__main__":#起到一个初始化或者调用函数的作用
db=pymysql.connect("localhost","root","password(你的密码)","数据库名称",charset='utf8')
cursor=db.cursor()
prem(db)
reviewdata_insert(db)
cursor.close()
PS:这里再为大家推荐几款比较实用的json在线工具供大家参考使用:
在线
JSON在线格式化工具:
http://tools.jb51.net/code/jsonformat
在线XML/