第2章 自然语言处理—从规则到统计
-
上一章讲到,语言的出现是为了人类之间的通信。字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然动物也能做到传递信息,但是利用语言来传递信息是人类的特质。这条书摘已被收藏0次+1
-
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷——通信联系在一起了。但是,科学家们用了几十年才认识到这个联系。这条书摘已被收藏0次+1
-
第二点,也很有意思,用基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。这在科学史上也是经常发生的事。钱钟书在《围城》中讲,老科学家可以理解成“老的科学家”或者“老科学的家”两种。如果是后者,他们年纪不算老,但是已经落伍,大家必须耐心等他们退休让出位子。毕竟,不是所有人都乐意改变自己的观点,无论对错。当然,等这批人退休之后,科学就会以更快的速度发展。因此,我常想,我自己一定要在还不太糊涂和固执时就退休。这条书摘已被收藏0次+1