Python3实现将本地JSON大数据文件写入MySQL数据库的方法_Python

本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法。分享给大家供大家参考，具体如下：

最近导师给了一个yelp上的评论数据，数据量达到3.55个G，如果进行分析时直接使用本地文件，选择python来分析，那么效率是非常低的；另一方面使用SQL来储存文本文件最为安全，之前使用CSV，txt存储的文本文件最后莫名其妙地出现一些奇怪字符，导致读取数据分割时出现错乱。下面给出一个简单的代码，将本地JSON文件内容存入数据库。

说明：python版本为3.5，使用第三方库为pymysql。因为数据量比较大，不能一次性读取到内存（否则内存报错），这里使用逐行读取的方式。数据库先创建后再使用以下代码；

									import json

									import pymysql

									# 读取review数据，并写入数据库

									# 导入数据库成功，总共4736897条记录

									def prem(db):

									  cursor = db.cursor()

									  cursor.execute("SELECT VERSION()")

									  data = cursor.fetchone()

									  print("Database version : %s " % data) # 结果表明已经连接成功

									  cursor.execute("DROP TABLE IF EXISTS review") # 习惯性

									  sql = """CREATE TABLE review (

									       review_id VARCHAR(100),

									       user_id VARCHAR(100),

									       business_id VARCHAR(200),

									       stars INT,

									       text VARCHAR(10000) NOT NULL,

									       useful INT,

									       funny INT,

									       cool INT)"""

									  cursor.execute(sql) # 根据需要创建一个表格

									def reviewdata_insert(db):

									  with open('E:/data/yelp_data/dataset/review.json', encoding='utf-8') as f:

									    i = 0

									    while True:

									      i += 1

									      print(u'正在载入第%s行......' % i)

									      try:

									        lines = f.readline() # 使用逐行读取的方法

									        review_text = json.loads(lines) # 解析每一行数据

									        result = []

									        result.append((review_text['review_id'], review_text['user_id'],      review_text['business_id'],review_text['stars'], review_text['text'], review_text['useful'],

									              review_text['funny'], review_text['cool']))

									        print(result)

									        inesrt_re = "insert into review(review_id, user_id, business_id, stars, text, useful,      funny, cool) values (%s, %s, %s, %s,%s, %s,%s, %s)"

									        cursor = db.cursor()

									        cursor.executemany(inesrt_re, result)

									        db.commit()

									      except Exception as e:

									        db.rollback()

									        print(str(e))

									        break

									if __name__ == "__main__": # 起到一个初始化或者调用函数的作用

									  db = pymysql.connect("localhost", "root", "password（你的密码）", "数据库名称", charset='utf8')

									  cursor = db.cursor()

									  prem(db)

									  reviewdata_insert(db)

									  cursor.close()

希望本文所述对大家Python程序设计有所帮助。

原文链接：https://blog.csdn.net/layman2016/article/details/79252499

Python3实现将本地JSON大数据文件写入MySQL数据库的方法

相关文章

热门资讯