将 numpy 数组存入文件,有多种文件类型可供选择,对应地就有不同的方法来读写。
下面我将介绍读写 numpy 的三类文件:
- txt 或者 csv 文件
- npy 或者 npz 文件
- hdf5 文件
通过 numpy 读写 txt 或 csv 文件
1
2
3
4
5
6
7
8
9
10
11
12
13
|
import numpy as np a = np.array( range ( 20 )).reshape(( 4 , 5 )) print (a) # 后缀改为 .txt 一样 filename = 'data/a.csv' # 写文件 np.savetxt(filename, a, fmt = '%d' , delimiter = ',' ) # 读文件 b = np.loadtxt(filename, dtype = np.int32, delimiter = ',' ) print (b) |
缺点:
- 只能保存一维和二维 numpy 数组,当 numpy 数组 a 有多维时,需要将其 a.reshape((a.shape[0], -1)) 后才能用这种方式保存。
- 不能追加保存,即每次 np.savetxt() 都会覆盖之前的内容。
通过 numpy 读写 npy 或 npz 文件
读写 npy 文件
1
2
3
4
5
6
7
8
9
10
11
12
13
|
import numpy as np a = np.array( range ( 20 )).reshape(( 2 , 2 , 5 )) print (a) filename = 'data/a.npy' # 写文件 np.save(filename, a) # 读文件 b = np.load(filename) print (b) print (b.shape) |
优点:
- npy 文件可以保存任意维度的 numpy 数组,不限于一维和二维;
- npy 保存了 numpy 数组的结构,保存的时候是什么 shape 和 dtype,取出来时就是什么样的 shape 和 dtype。
缺点:
- 只能保存一个 numpy 数组,每次保存会覆盖掉之前文件中存在的内容(如果有的话)。
读写 npz 文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
import numpy as np a = np.array( range ( 20 )).reshape(( 2 , 2 , 5 )) b = np.array( range ( 20 , 44 )).reshape( 2 , 3 , 4 ) print ( 'a:\n' , a) print ( 'b:\n' , b) filename = 'data/a.npz' # 写文件, 如果不指定key,那么默认key为'arr_0'、'arr_1',一直排下去。 np.savez(filename, a, b = b) # 读文件 c = np.load(filename) print ( 'keys of NpzFile c:\n' , c.keys()) print ( "c['arr_0']:\n" , c[ 'arr_0' ]) print ( "c['b']:\n" , c[ 'b' ]) |
优点:
- npy 文件可以保存任意维度的 numpy 数组,不限于一维和二维;
- npy 保存了 numpy 数组的结构,保存的时候是什么 shape 和 dtype,取出来时就是什么样的 shape 和 dtype;
- 可以同时保存多个 numpy 数组;
- 可以指定保存 numpy 数组的 key,读取的时候很方便,不会混乱。
缺点:
- 保存多个 numpy 数组时,只能同时保存,即 np.savez(filename, a, b=b) 。每次保存会覆盖掉之前文件中存在的内容(如果有的话)。
通过 h5py 读写 hdf5 文件
优点:
- 不限 numpy 数组维度,可以保持 numpy 数组结构和数据类型;
- 适合 numpy 数组很大的情况,文件占用空间小;
- 可以通过 key 来访问 dataset(可以理解为 numpy.array),读取的时候很方便,不会混乱。
- 可以不覆盖原文件中含有的内容。
简单读取
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
import numpy as np import h5py a = np.array( range ( 20 )).reshape(( 2 , 2 , 5 )) b = np.array( range ( 20 )).reshape(( 1 , 4 , 5 )) print (a) print (b) filename = 'data/data.h5' # 写文件 h5f = h5py. File (filename, 'w' ) h5f.create_dataset( 'a' , data = a) h5f.create_dataset( 'b' , data = b) h5f.close() # 读文件 h5f = h5py. File (filename, 'r' ) print ( type (h5f)) # 通过切片得到numpy数组 print (h5f[ 'a' ][:]) print (h5f[ 'b' ][:]) h5f.close() |
通过切片赋值
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
import numpy as np import h5py a = np.array( range ( 20 )).reshape(( 2 , 2 , 5 )) print (a) filename = 'data/a.h5' # 写文件 h5f = h5py. File (filename, 'w' ) # 当数组a太大,需要切片进行操作时,可以不直接对h5f['a']进行初始化; # 当之后不需要改变h5f['a']的shape时,可以省略maxshape参数 h5f.create_dataset( 'a' , shape = ( 2 , 2 , 5 ), maxshape = ( None , 2 , 5 ), dtype = np.int32, compression = 'gzip' ) for i in range ( 2 ): # 采用切片的形式赋值 h5f[ 'a' ][i] = a[i] h5f.close() # 读文件 h5f = h5py. File (filename, 'r' ) print ( type (h5f)) print (h5f[ 'a' ]) # 通过切片得到numpy数组 print (h5f[ 'a' ][:]) |
同一个 hdf5 文件可以创建多个 dataset,读取的时候按照 key 来即可。
总结
- csv 和 txt 只能用来存一维或二维 numpy 数组;
- npy 用来存单个 numpy 数组,npz 可以同时存多个 numpy 数组,两者都不限 numpy 维度,且都保持 numpy 数组的 shape 和 dtype,写文件时若原文件存在只能覆盖原文件内容;
- 当 numpy 数组很大时,最好使用 hdf5 文件,hdf5 文件相对更小;
- 当 numpy 数组很大时,对整个 numpy 数组进行运算容易发生 MemoryError,那么此时可以选择对 numpy 数组切片,将运算后的数组保存到 hdf5 文件中,hdf5 文件支持切片索引。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:http://www.cnblogs.com/wuliytTaotao/p/10914932.html