本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法。分享给大家供大家参考,具体如下:
最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直接使用本地文件,选择python来分析,那么效率是非常低的;另一方面使用SQL来储存文本文件最为安全,之前使用CSV,txt存储的文本文件最后莫名其妙地出现一些奇怪字符,导致读取数据分割时出现错乱。下面给出一个简单的代码,将本地JSON文件内容存入数据库。
说明:python版本为3.5,使用第三方库为pymysql。因为数据量比较大,不能一次性读取到内存(否则内存报错),这里使用逐行读取的方式。数据库先创建后再使用以下代码;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
|
import json import pymysql # 读取review数据,并写入数据库 # 导入数据库成功,总共4736897条记录 def prem(db): cursor = db.cursor() cursor.execute( "SELECT VERSION()" ) data = cursor.fetchone() print ( "Database version : %s " % data) # 结果表明已经连接成功 cursor.execute( "DROP TABLE IF EXISTS review" ) # 习惯性 sql = """CREATE TABLE review ( review_id VARCHAR(100), user_id VARCHAR(100), business_id VARCHAR(200), stars INT, text VARCHAR(10000) NOT NULL, useful INT, funny INT, cool INT)""" cursor.execute(sql) # 根据需要创建一个表格 def reviewdata_insert(db): with open ( 'E:/data/yelp_data/dataset/review.json' , encoding = 'utf-8' ) as f: i = 0 while True : i + = 1 print (u '正在载入第%s行......' % i) try : lines = f.readline() # 使用逐行读取的方法 review_text = json.loads(lines) # 解析每一行数据 result = [] result.append((review_text[ 'review_id' ], review_text[ 'user_id' ], review_text[ 'business_id' ],review_text[ 'stars' ], review_text[ 'text' ], review_text[ 'useful' ], review_text[ 'funny' ], review_text[ 'cool' ])) print (result) inesrt_re = "insert into review(review_id, user_id, business_id, stars, text, useful, funny, cool) values (%s, %s, %s, %s,%s, %s,%s, %s)" cursor = db.cursor() cursor.executemany(inesrt_re, result) db.commit() except Exception as e: db.rollback() print ( str (e)) break if __name__ = = "__main__" : # 起到一个初始化或者调用函数的作用 db = pymysql.connect( "localhost" , "root" , "password(你的密码)" , "数据库名称" , charset = 'utf8' ) cursor = db.cursor() prem(db) reviewdata_insert(db) cursor.close() |
希望本文所述对大家Python程序设计有所帮助。
原文链接:https://blog.csdn.net/layman2016/article/details/79252499