数学之美

几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦 …… [ 展开全部 ]
  • 作者:["吴军"]
  • 出版社:人民邮电出版社
  • 定价:45.00元
  • ISBN:711528282
第4章 谈谈中文分词
  • 周蓉
    2020-03-11 11:19:14 摘录
    在这里不去强调谁的观点对,而是要指出在不同的应用中,会有一种颗粒度比另一种更好的情况。比如在机器翻译中,一般来讲,颗粒度大翻译效果好。比如“联想公司”作为一个整体,很容易找到它对应的英语翻译 Lenovo,如果分词时将它们分开,就很有可能翻译失败,因为在汉语中,“联想”一词首先是“根据相关联的场景想象”的意思。
    但是在另外一些应用,比如网页搜索中,小的颗粒度比大的颗粒度要好。比如“清华大学”这四个字如果作为一个词,在对网页分词后,它是一个整体了,当用户查询“清华”时,是找不到清华大学的,这绝对是有问题的。
    这条书摘已被收藏0