书入法

数学之美（第二版）

几年前，“数学之美”系列文章原刊载于谷歌黑板报，获得上百万次点击，得到读者高度评价。读者说，读了“数学之美”，才发现大学时学的数学知识，比如马尔可夫链、矩阵计算，甚至余弦 …… [ 展开全部 ]

作者：吴军
出版社：人民邮电出版社
定价：49.00元
ISBN：7115373558

给个评价做个书摘

1 中文分词方法的演变

dzter

2015-12-08 19:50:25 摘录自45页

最后，关于分词还有两点需要说明。首先，这个问题属于已经解决的问题，不是什么难题了。在工业界，只要采用基本的统计语言模型，加上一些业界熟知的技巧就能得到很好的分词结果，不值得再去花很大的精力去做研究，因为即使能够进」步提高准确率，提升的空间也很有限。第二，英语和主要西方语言原本是没有分词何题的，除了要做文法分析找词组，不过随着平板电脑和智能手机的普及，手写体识别输入法也被很多人使用，很多手写体识别软件需要使用分词，因为大家在书写英语时，词与词之间常常是没有停顿的，这就如同我们写汉字没有空格一样，因此原本用来对中文进行分词的技术，也在英语的手写体识别中派上了用场。
这条书摘已被收藏0次
+1
- 0
分享

收藏 0条评价
dzter

2015-12-08 19:50:25 摘录自45页

在不少人看来，分词技术只是针对亚洲语言的，而罗马体系的拼音语言没有这个问题，其实不然。也许大家想木到，中文分词的方法也被应用到英语处理，主要是手写体识别中。因为在识别手写体时，单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实，自然语言处理的许多数学方法是通用的，与具体的语言无关。在Google内部，我们在设计语言处理的算法时，都会考虑它是否能很容易地适用于各种自然语言。这样才能有效地支持上百种语言的搜索。需要指出的是任何方法都有它的局限性，虽然利用统计语言模型进行分可以取得比人工更好的结果，但是也不可能做到百分之百准确。因为统计语言模型很大程度上是依照“大众的想法”或者“多数句子的用法”，而在特定情况下可能是错的。另外，有些人为创造出的“两难”的句子，比如对联“此地安能居住，其人好不悲伤”，用什么方法都无法消除二义性。好在真实文本中，这些情况几乎不会发生。
这条书摘已被收藏0次
+1
- 0
分享

收藏 0条评价

数学之美 （第二版）

导购链接

做书摘

文字书摘

读图识字

写点笔记吧

章节（选填）

页码（选填）

添加一个书摘本

搜索创建书摘本

编辑书摘

书摘

写点笔记吧

*这条书摘是属于哪一章节的？

*页码

删除

数学之美（第二版）

**这条书摘是属于哪一章节的？*