服务器之家

服务器之家 > 正文

iOS中自带超强中文分词器的实现方法

时间:2021-03-22 16:15     来源/作者:Minecraft

说明

在处理文本的时候,第一步往往是将字符串进行分词,得到一个个关键词。苹果从很早就开始支持中文分词了,而且我们几乎人人每天都会用到,回想一下,在使用手机时,长按一段文字,往往会选中按住位置的一个词语,这里就是一个分词的绝佳用例,而ios自带的分词效果非常棒,大家可以自己平常注意观察一下,基本对中文也有很好的效果。而这个功能也开放了api供开发者调用,我试用了一下,很好用!

效果如下:

iOS中自带超强中文分词器的实现方法

实现

其实苹果给出了完整的api,想要全面了解的可以直接看文档:cfstringtokenizer reference

这里说说简单的一个实现:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
// 要分词的字符串
nsstring *string = @"侠士隐锋,莽夫露刃";
 
self.keywords = [[nsmutablearray alloc] init];
cfstringtokenizerref ref = cfstringtokenizercreate(null, (__bridge cfstringref)string, cfrangemake(0, string.length), kcfstringtokenizerunitword, null);// 创建分词器
cfrange range;// 当前分词的位置
// 获取第一个分词的范围
cfstringtokenizeradvancetonexttoken(ref);
range = cfstringtokenizergetcurrenttokenrange(ref);
 
// 循环遍历获取所有分词并记录到数组中
nsstring *keyword;
while (range.length>0) {
 keyword = [string substringwithrange:nsmakerange(range.location, range.length)];
 [self.keywords addobject:keyword];
 cfstringtokenizeradvancetonexttoken(ref);
 range = cfstringtokenizergetcurrenttokenrange(ref);
}

其实逻辑很简单:创建分词器–>一个个地一次获取分词后的每个词的起始位置和长度,从而取出词。

示例里我用列表显示每个分词,比较清楚,列表的实现就不说明了,可以直接看工程代码。

值得一提的是,其分词速度很快,甚至一些网络词汇比如“木有”,一些成语等等都能够识别出,能看出这是分词的什么吗:

iOS中自带超强中文分词器的实现方法

示例工程:https://github.com/cloudox/oxstringtokenizerdemo

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对服务器之家的支持。

原文链接:http://blog.csdn.net/Cloudox_/article/details/72869176

标签:

相关文章

热门资讯

2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全
2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全 2019-12-26
yue是什么意思 网络流行语yue了是什么梗
yue是什么意思 网络流行语yue了是什么梗 2020-10-11
背刺什么意思 网络词语背刺是什么梗
背刺什么意思 网络词语背刺是什么梗 2020-05-22
Intellij idea2020永久破解,亲测可用!!!
Intellij idea2020永久破解,亲测可用!!! 2020-07-29
苹果12mini价格表官网报价 iPhone12mini全版本价格汇总
苹果12mini价格表官网报价 iPhone12mini全版本价格汇总 2020-11-13
返回顶部