数学之美 (第二版)

几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦 …… [ 展开全部 ]
  • 作者:吴军
  • 出版社:人民邮电出版社
  • 定价:49.00元
  • ISBN:7115373558
1 中文分词方法的演变
  • dzter
    2015-12-08 19:50:25 摘录自45页
    最后,关于分词还有两点需要说明。首先,这个问题属于已经解决的问题,不是什么难题了。在工业界,只要采用基本的统计语言模型,加上一些业界熟知的技巧就能得到很好的分词结果,不值得再去花很大的精力去做研究,因为即使能够进」步提高准确率,提升的空间也很有限。第二,英语和主要西方语言原本是没有分词何题的,除了要做文法分析找词组,不过随着平板电脑和智能手机的普及,手写体识别输入法也被很多人使用,很多手写体识别软件需要使用分词,因为大家在书写英语时,词与词之间常常是没有停顿的,这就如同我们写汉字没有空格一样,因此原本用来对中文进行分词的技术,也在英语的手写体识别中派上了用场。
    这条书摘已被收藏0
  • dzter
    2015-12-08 19:50:25 摘录自45页
    在不少人看来,分词技术只是针对亚洲语言的,而罗马体系的拼音语言没有这个问题,其实不然。也许大家想木到,中文分词的方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实,自然语言处理的许多数学方法是通用的,与具体的语言无关。在Google内部,我们在设计语言处理的算法时,都会考虑它是否能很容易地适用于各种自然语言。这样才能有效地支持上百种语言的搜索。需要指出的是任何方法都有它的局限性,虽然利用统计语言模型进行分可以取得比人工更好的结果,但是也不可能做到百分之百准确。因为统计语言模型很大程度上是依照“大众的想法”或者“多数句子的用法”,而在特定情况下可能是错的。另外,有些人为创造出的“两难”的句子,比如对联“此地安能居住,其人好不悲伤”,用什么方法都无法消除二义性。好在真实文本中,这些情况几乎不会发生。
    这条书摘已被收藏0