python文本处理的方案(结巴分词并去除符号)_Python

看代码吧~

				?

									import re

									import jieba.analyse

									import codecs

									import pandas as pd

									def simplification_text(xianbingshi):

									    """提取文本"""

									    xianbingshi_simplification = []

									    with codecs.open(xianbingshi,'r','utf8') as f:

									        for line in f :

									            line = line.strip()

									            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)

									            for line in line_write:

									                xianbingshi_simplification.append(line)

									    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:

									        for line in xianbingshi_simplification:

									            f.write(line + '\n')

									def jieba_text():

									    """"""

									    word_list = []

									    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()

									    seg_list = jieba.cut(data, cut_all=False)  # 精确模式

									    for i in seg_list:

									        word_list.append(i.strip())

									    data_quchong = pd.DataFrame({'a':word_list})

									    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)

									    word_list = data_quchong['a'].tolist()

									    with codecs.open('word.txt','w','utf8')as w:

									        for line in word_list:

									            w.write(line + '\n')

									def word_messy(word):

									    """词语提炼"""

									    word_sub_list = []

									    with codecs.open(word,'r','utf8') as f:

									        for line in f:

									            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)

									            word_sub_list.append(line_sub)

									    word_sub_list.sort()

									    with codecs.open('word.txt','w','utf8')as w:

									        for line in word_sub_list:

									            w.write(line.strip("\n") + '\n')

									if __name__ == '__main__':

									    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'

									    # simplification_text(xianbingshi)

									    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'

									    simplification_text(xianbingshi)

补充：python 进行结巴分词并且用re去掉符号

看代码吧~

				?

									# 把停用词做成字典

									stopwords = {}

									fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')

									for eachWord in fstop:

									    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典

									fstop.close()

									f1=open('all.txt','r',encoding='utf-8',errors='ignore')

									f2=open('allutf11.txt','w',encoding='utf-8')

									line=f1.readline()

									while line:

									    line = line.strip()  #去前后的空格

									    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+", " ", line) #去标点符号

									    seg_list=jieba.cut(line,cut_all=False)  #结巴分词

									    outStr=""

									    for word in seg_list:

									        if word not in stopwords:

									            outStr+=word

									            outStr+=" "

									    f2.write(outStr)

									    line=f1.readline()

									f1.close()

									f2.close()