1 中文分词方法的演变
-
最后,关于分词还有两点需要说明。首先,这个问题属于已经解决的问题,不是什么难题了。在工业界,只要采用基本的统计语言模型,加上一些业界熟知的技巧就能得到很好的分词结果,不值得再去花很大的精力去做研究,因为即使能够进」步提高准确率,提升的空间也很有限。第二,英语和主要西方语言原本是没有分词何题的,除了要做文法分析找词组,不过随着平板电脑和智能手机的普及,手写体识别输入法也被很多人使用,很多手写体识别软件需要使用分词,因为大家在书写英语时,词与词之间常常是没有停顿的,这就如同我们写汉字没有空格一样,因此原本用来对中文进行分词的技术,也在英语的手写体识别中派上了用场。这条书摘已被收藏0次+1
-
在不少人看来,分词技术只是针对亚洲语言的,而罗马体系的拼音语言没有这个问题,其实不然。也许大家想木到,中文分词的方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实,自然语言处理的许多数学方法是通用的,与具体的语言无关。在Google内部,我们在设计语言处理的算法时,都会考虑它是否能很容易地适用于各种自然语言。这样才能有效地支持上百种语言的搜索。需要指出的是任何方法都有它的局限性,虽然利用统计语言模型进行分可以取得比人工更好的结果,但是也不可能做到百分之百准确。因为统计语言模型很大程度上是依照“大众的想法”或者“多数句子的用法”,而在特定情况下可能是错的。另外,有些人为创造出的“两难”的句子,比如对联“此地安能居住,其人好不悲伤”,用什么方法都无法消除二义性。好在真实文本中,这些情况几乎不会发生。这条书摘已被收藏0次+1