在处理数据的时候经常需要读取txt文件类型的数据转换为可执行的list,但是当我们有excel的文件,如何将excel文件转换为每行固定长度的txt文件呢!如果数据量很少的情况下,人工处理还好,可是在大数据的情况下就显得不可能了,这时如果我们利用程序执行这一命令就轻松多了,废话不多说,下面介绍代码。
首先在python中import两个必要的包(我们面向的对象是.csv的excel文件)
1
2
|
import numpy as np import csv |
接下来,就是读取excel文件,在读取的文件路径上本文采用绝对路径的方式:
1
2
3
4
5
6
7
|
with open ( 'f:/data/data/airquality1.csv' , 'rb' ) as csv_file: all_lines = csv.reader(csv_file) for one_line in all_lines: list_file.append(one_line) #逐行读取excel文件中的每一行append列表中 list_file.remove(list_file[ 0 ]) #该行表示我们去除excel文件的第一行,因为第一行往往都是数据的名称介绍,如果没有介绍就不用该行代码了 arr_file = np.array(list_file) #转换为矩阵形式 label = arr_file[:, 0 ] #第一列 //该行表示我们取excel文件中第一列数据进行实验,下述贴出数据样式(或者excel只有第一列有数据) |
然后进行一次额外的筛选,筛选的目的是因为我们所采集到的数据中一般都有一些数据缺失的情况,也就是显示为“null”的情况,或者其他的形式,可以根据自己数据的缺失情况进行灵活更改(如果没有数据缺失这部分代码就不需要了):
1
2
3
|
for i in range ( len (label)): if label[i] = = 'null' : #注意我们文件中数据缺失时记录为“null”,注意替换 label[i] = label[i - 1 ] |
上述步骤已经完成了在excel上的各种操作,接下来就是将我们读取到的excel文件存储到指定的txt文件中了:
1
2
3
4
|
file = open ( "f:/data/data/airquality48.txt" , "w" ) for n in range ( int ( len (label) / 48 )): #该行命令用来计算数据的长度,因为我们要存储的txt文件中要使得每行包含48个数据,所以这里使用48 file .write(label[n * 48 :n * 48 + 48 ]) #将提取好的数据写入到txt文件中 file .write( '\n' ) #注意转换后文件最后一行空白需要删除(写完48个数据进行换行) |
好了,上述就行所描述的程序步骤,下面用结果展示下本程序所使用的数据样式及运行结果,为了避免出错先完整的贴下整体程序:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
# excel.csv文件转换成txt # import numpy as np import csv def loadcsvfile1(): list_file = [] with open ( 'f:/data/data/airquality1.csv' , 'rb' ) as csv_file: all_lines = csv.reader(csv_file) for one_line in all_lines: list_file.append(one_line) list_file.remove(list_file[ 0 ]) arr_file = np.array(list_file) label = arr_file[:, 0 ] #第一列 # 处理文件中null情况 for i in range ( len (label)): if label[i] = = 'null' : label[i] = label[i - 1 ] #将数据以天为单位写入txt文件中 file = open ( "f:/data/data/airquality48.txt" , "w" ) for n in range ( int ( len (label) / 48 )): file .write(label[n * 48 :n * 48 + 48 ]) file .write( '\n' ) #注意转换后文件最后一行空白需要删除 return label loadcsvfile1() |
本程序所使用的excel数据样式为:
程序的运行结果将转换为下述txt样式(每行包含48个数据):
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://blog.csdn.net/zijinmu69/article/details/80630858