本文实例讲述了Python smallseg分词用法。分享给大家供大家参考。具体分析如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
|
#encoding=utf-8 #import psyco #psyco.full() words = [x.rstrip() for x in open ( "main.dic" ,mode = 'r' ,encoding = 'utf-8' ) ] from smallseg import SEG seg = SEG() print ( 'Load dict...' ) seg. set (words) print ( "Dict is OK." ) def cuttest(text): wlist = seg.cut(text) wlist.reverse() tmp = " " .join(wlist) print (tmp) print ( "================================" ) if __name__ = = "__main__" : cuttest( "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。" ) cuttest( "我不喜欢日本和服。" ) cuttest( "雷猴回归人间。" ) cuttest( "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作" ) cuttest( "我需要廉租房" ) cuttest( "永和服装饰品有限公司" ) cuttest( "我爱北京天安门" ) cuttest( "abc" ) cuttest( "隐马尔可夫" ) cuttest( "雷猴是个好网站" ) cuttest( "“Microsoft”一词由“MICROcomputer(微型计算机)”和“SOFTware(软件)”两部分组成" ) cuttest( "草泥马和欺实马是今年的流行词汇" ) cuttest( "伊藤洋华堂总府店" ) cuttest( "中国科学院计算技术研究所" ) cuttest( "罗密欧与朱丽叶" ) cuttest( "我购买了道具和服装" ) |
smallseg分词,在python3.3上运行稍微有些问题。py代码xrange在3.*中已经改名字为range了。另外,3.*中也没有decode函数了。
修改了上面的两个地方,代码就可移植性了。效果还可以。
希望本文所述对大家的Python程序设计有所帮助。