5 小结
-
信息熵不仅是对信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很大的指导意义。信息熵的物理含义对对信息系统不确定性的度量,在这一点上,它和热力学中熵的概念有相似之处,因为后者就是一个系统无序的度量,从另一个角度讲也是对一种不确定性的度量。这说明科学上很多看似不同的学科之间也会有很强的相似性。这条书摘已被收藏0次+1
-
信息熵正是对不确定性的衡量,因此可以想象信息熵能直接用于衡量统计语言模型的好坏。当然,因为有了上下文的条件,所以对高阶的语言模型,应该用条件熵。如果再考虑到从训练语料和真实应用的文本中得到的概率函数有偏差,就需要再引入相对熵的概念。贾里尼克从条件熵和相对摘出发,定义了—个称为语言模型复杂度(Pefplexity)的概念,直接衡量语言模型的好坏。复杂度有很清晰的物理含义,它是在给定上下文的条件下,句子中每个位置平均可以选择的单词数量。一个模型的炅水度越小,每个位置的词就越确定,模型越好。这条书摘已被收藏0次+1
-
熵、条件熵和相对熵这三个概念与模獅关系非常密切。我们在第二章中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,因为当时还没有介绍这三个概念。当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语目模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于语言模型的研究人员来讲,既不直接,又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克等人研究语言模型时,世界上既没有像样的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。这条书摘已被收藏0次+1