Python实现将一个大文件按段落分隔为多个小文件的简单操作方法_Python

本文实例讲述了Python实现将一个大文件按段落分隔为多个小文件的简单操作方法。分享给大家供大家参考，具体如下：

今天帮同学处理一点语料。语料文件有点大，并且是以连续两个换行符作为段落标志，他想把它按段落分隔成多个小文件，即每3个段落组成一个新文件。由于以前没有遇到过类似的操作，在网上找了一些相似的方法，看起来都有点复杂。所以经尝试，自己写了一段代码，完美解决问题。

基本思路是，先读原文件内容，并使用正则表达式，依据\n\n进行切片处理，结果为一个列表，其中每一个列表元素都存放一个切片中的内容;然后创建一个写文件的句柄;接下来遍历切片列表，并写入当前切片内容，判断是否已经写入了3个段落，如果不是，则继续读写下一个切片，如果已经够3个，则关闭之前的写文件句柄，以不同的文件名重新创建一个新的写文件句柄，循环结束，等待读写下一个切片。

									# -*- coding:utf8 -*-

									import re;

									p=re.compile('\n\n',re.S);

									fileContent=open('files/办公室.txt','r',encoding='utf8').read();#读文件内容

									paraList=p.split(fileContent) #根据换行符对文本进行切片

									fileWriter=open('files/0.txt','a',encoding='utf8');#创建一个写文件的句柄

									for paraIndex in range(len(paraList)):#遍历切片后的文本列表

									  fileWriter.write(paraList[paraIndex]);#先将列表中第一个元素写入文件中

									  if((paraIndex+1)%3==0):#判断是否写够3个切片，如果已经够了

									    fileWriter.close(); #关闭当前句柄

									    fileWriter=open('files/'+str((paraIndex+1)/3)+'.txt','a',encoding='utf8'); #重新创建一个新的句柄，等待写入下一个切片元素。注意这里文件名的处理技巧。

									fileWriter.close();#关闭最后创建的那个写文件句柄

									print('finished');

希望本文所述对大家Python程序设计有所帮助。

Python实现将一个大文件按段落分隔为多个小文件的简单操作方法

相关文章

热门资讯