书入法

数学之美（第二版）

几年前，“数学之美”系列文章原刊载于谷歌黑板报，获得上百万次点击，得到读者高度评价。读者说，读了“数学之美”，才发现大学时学的数学知识，比如马尔可夫链、矩阵计算，甚至余弦 …… [ 展开全部 ]

作者：吴军
出版社：人民邮电出版社
定价：49.00元
ISBN：7115373558

给个评价做个书摘

1 信息熵

dzter

2015-12-08 19:50:25 摘录自62页

有了"熵"这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”（redundancy）。需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。
这条书摘已被收藏0次
+1
- 0
分享

收藏 0条评价

数学之美 （第二版）

导购链接

做书摘

文字书摘

读图识字

写点笔记吧

章节（选填）

页码（选填）

添加一个书摘本

搜索创建书摘本

编辑书摘

书摘

写点笔记吧

*这条书摘是属于哪一章节的？

*页码

删除

数学之美（第二版）

**这条书摘是属于哪一章节的？*