书入法

几年前，“数学之美”系列文章原刊载于谷歌黑板报，获得上百万次点击，得到读者高度评价。读者说，读了“数学之美”，才发现大学时学的数学知识，比如马尔可夫链、矩阵计算，甚至余弦 …… [ 展开全部 ]

作者：吴军
出版社：人民邮电出版社
定价：49.00元
ISBN：7115373558

给个评价做个书摘

第二版出版说明

无双BaOY_WHA //信息传播的模型，后面还有详细介绍。

收藏 0条评论 2018-09-10 添加

在此章节添加书摘

此章节有2条书摘点击查看

第1章　文字和语言vs数字和信息

第1章文字和语言vs数字和信息

无双BaOY_WHA //之前没看完，现重新开始看。2018.9.10

收藏 0条评论 2018-09-10 添加

在此章节添加书摘

此章节有3条书摘点击查看

上一章讲到,语言的出现是为了人类之间的通信。字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然动物也能做到传递信息,但是利用语言来传递信息是人类的特质。

无双BaOY_WHA //

收藏 0条评论 2018-09-10 添加

在此章节添加书摘

此章节有3条书摘点击查看

第1章文字和语言 vs 数字和信息

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第3章　统计语言模型

Mint33 //附图

收藏 0条评论 2017-11-05 添加

在此章节添加书摘

此章节有2条书摘点击查看

1 信息

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第4章　谈谈分词

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 文字和数字

罗塞塔石碑的破译，让我们了解了整个埃及从公元前32世纪（早期王朝时代）至今的历史，这是让历史学界和语言学界最感振奋的事情。今天，我们对5000年前埃及的了解远比对1000年前的玛雅文明要多得多，这要归功于埃及人通过文字记录了他们生活中最重要的信息。而对于我这个长期从事自然语言处理的学者来讲，这件事有两点指导意义了。1.信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次，因此只要有一份内容完好保留下来，原有的信息就不会丢失，这对信道编码有指导意义。……2.语言的数据，我们称之为语料，尤其是双语或多语的对照语料对翻译至关重要，它是我们从事机器翻译研究的基础。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有2条书摘点击查看

第5章　隐含马尔可夫模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 文字和语言背后的数学

拼音文字由腓尼基人美索不达米亚带到地中海东岸的叙利亚。腓尼基人是天生的商人，不愿意花大量时间雕刻这些漂亮的楔形字母上，而将它们简化成22个字母。这些字母随着腓尼基人的商团经爱琴海诸岛（如克里特），然后传给了希腊人的祖先。但是，拼音文字在古希腊得到了充分的发展，和古巴比伦楔形字母已经不同，古希腊文字母的拼写和读音已经紧密地结合起来了，这种语言相对容易学习。在之后的几个世纪里，马其顿人以及几个世纪后罗马人的扩张，这些只需要几十个字母的语言成为了欧亚非大陆语言体系的主体，因此，今天我们把所有西方的拼音文字称为罗马式的语言。从象形文字到拼音文字是一个飞跃，因为人类在描述物体的方式上，从物体的外表进化到了抽象的概念，同时不自觉地采用了对信息的编码。不仅如此，我们的祖先对文字的编码还非常合理。在罗马体系的文字中，总体来讲，常用字短，生僻字长。而在意型文字中，也是类似，大都常用字笔画少，而生僻字笔画多。这完全符合信息论中的最短编码原理，虽然我们的祖先并不懂信息论。这种文字设计（其实是一种编码方法）带来的好处是书写起来省时间、省材料。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有2条书摘点击查看

第6章　信息的度量和作用

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第7章　贾里尼克和现代语言处理

每当弗莱德和我谈起各自少年时的教育，我们都同意这样几个观点。首先，小学生和中学生其实没有必要花那么多时间读书，而他们的社会经验生活能力以及在那时树立起的志向将帮助他们的一生。第二，中学阶段花很多时间比同伴多读的课程，上大学以后用很短时间就能读完，因为在大学阶段，人的理解力要强得多。举个例子，在中学需要花500小时才能学会的内容，在大学可能花100小时就够了。因此，一个学生在中小学阶段建立的那一点点优势在大学很快就会丧失殆尽。第三，学习(和教育)是持续一辈子的过程，很多中学成绩优异的亚裔学生进入名校后表现明显不如那些出于兴趣而读书的美国同伴，因为前者持续学习的动力不足。第四，书本的内容可以早学，也可以晚学，但是错过了成长阶段却是无法补回来的。(因此，少年班的做法不足取。)现在中国的好学校里，恐怕百分之九十九的孩子在读书上花的时间都比我当时要多，更比贾里尼克要多得多，但是这些孩子今天可能有百分之九十九在学术上的建树不如我，更不如贾里尼克。这实在是教育的误区。

鐘鐘s //

收藏 0条评论 2017-08-20 添加

在此章节添加书摘

此章节有1条书摘点击查看

第2章自然语言处理——从规则到统计

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第8章　简单之美—布尔代数和搜索引擎

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 机器智能

学术界对人工智能和自然语言理解的普遍认为：要让机器完成翻译或者语音识别等只有人类才能做的事情，就必须先让计算机理解自然语言，而做到这一点就必须让计算机拥有类似我们人类这样的智能（今天几乎所有的可能都不再坚持这一点，而很多门外汉还误以为计算机是靠类似我们人类的这种智能解决了上述问题。）为什么会有这样的认识？是因为人类就是这么做，道理就这么简单。对于人类来讲，一个能把英语翻译成汉语的人，必定能很好地理解这两种语言。这就是直觉的作用。在人工智能领域，包括自然语言处理领域，后来把这种的方法论称作“鸟飞派”，也就是看看鸟是怎样飞的，就能模仿鸟造出飞机而不需要了解空气动力学。事实上我们知道，怀特兄弟发明飞机靠的是空气动力学而不是仿生学。在这里，我们不要笑话我们前辈来自于直觉的天真想法，这是人类认识的普遍规律。今天，机器翻译和语音识别已经做得不错，并且有上亿人使用过，但是这个领域之外的大部分人依然错误地以为这两种应用是靠计算机理解了自然语言才实现的。事实上，它们全都靠的是数学，更准确地说是靠统计。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

第9章　图论和网络爬虫

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 从规则到统计

第二点，也很有意思，用基于统计的方法代替传统的方法，需要等原有的一批语言学家退休。这在科学史上也是经常发生的事。钱钟书在《围城》中讲，老科学家可以理解成“老的科学家”或者“老科学的家”两种。如果是后者，他们年纪不算老，但是已经落伍，大家必须耐心等他们退休让出位子。毕竟，不是所有人都乐意改变自己的观点，无论对错。当然，等这批人退休之后，科学就会以更快的速度发展。因此，我常想，我自己一定要在还不太糊涂和固执时就退休。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

第10章　PageRank—Google的民主表决式网页排名技术

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第11章　如何确定网页和查询的相关性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第3章统计语言模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第12章　有限状态机和动态规划—地图与本地

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 用数学的方法描述语言规律

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第13章　GoogleAK-47的设计者—阿米特·辛格博士

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：统计语言模型的工程诀窍

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第14章　余弦定理和新闻的分类

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第15章　矩阵运算和文本处理中的两个分类问题

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第4章谈谈分词

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第16章　信息指纹及其应用

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 中文分词方法的演变

最后，关于分词还有两点需要说明。首先，这个问题属于已经解决的问题，不是什么难题了。在工业界，只要采用基本的统计语言模型，加上一些业界熟知的技巧就能得到很好的分词结果，不值得再去花很大的精力去做研究，因为即使能够进」步提高准确率，提升的空间也很有限。第二，英语和主要西方语言原本是没有分词何题的，除了要做文法分析找词组，不过随着平板电脑和智能手机的普及，手写体识别输入法也被很多人使用，很多手写体识别软件需要使用分词，因为大家在书写英语时，词与词之间常常是没有停顿的，这就如同我们写汉字没有空格一样，因此原本用来对中文进行分词的技术，也在英语的手写体识别中派上了用场。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有2条书摘点击查看

第17章　由电视剧《暗算》所想到的—谈谈密码学的数学原理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：如何衡量分词的结果

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第18章　闪光的不一定是金子—谈谈搜索引擎

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第19章　谈谈数学模型的重要性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第5章隐含马尔可夫模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第20章　不要把鸡蛋放到一个篮子里—谈谈最

讲到这里,读者也许会问,当年最早改进最大熵模型算法的达拉·皮垂兄弟这些年难道没有做任何事吗?在上个世纪90年代初贾里尼克离开IBM后,他们也退出了学术界,而到金融界大显身手。他们两人和很多IBM做语音识别的同事一同到了一家当时还不大,但现在是世界上最成功的对冲基金( Hedge fund)公司—文艺复兴技术公司( Renaissance Technologies)。我们知道,决定股票涨跌的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。在那里,达拉·皮垂兄弟等科学家用最大熵模型和其他一些先进的数学工具对股票进行预测,获得了巨大的成功。从1988年创立至今,该基金的净回报率高达平均每年34%。也就是说,如果1988年你在该基金投入块钱,20年后的2008年你能得到200多块钱。这个业绩,远远超过股神巴菲特的旗舰公司伯克希尔·哈撒韦( Berkshire hathaway)。同期伯克希尔·哈撒韦的总回报是16倍。而在出现金融危机的2008年,全球股市暴跌,文艺复兴技术公司的回报率却高达80%,可见数学模型的厉害。

鐘鐘s //

收藏 0条评论 2017-09-27 添加

在此章节添加书摘

此章节有1条书摘点击查看

1 通信模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第21章　拼音输入法的数学原理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 隐含马尔可夫模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第22章　自然语言处理的教父马库斯和他的优秀弟子们

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 延伸阅读：隐含马尔可夫模型的训练

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第23章　布隆过滤器

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第24章　马尔可夫链的扩展—贝叶斯网络

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第6章信息的度量和作用

一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

第25章　条件随机场、文法分析及其他

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 信息熵

有了"熵"这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”（redundancy）。需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

第26章　维特比和他的维特比算法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 信息的作用

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第27章　上帝的算法—期望最大化算法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 互信息

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第28章　逻辑回归和搜索广告

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 延伸阅读：相对熵

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第29章　各个击破算法和Google云计算的基础

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

5 小结

信息熵不仅是对信息的量化度量，而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很大的指导意义。信息熵的物理含义对对信息系统不确定性的度量，在这一点上，它和热力学中熵的概念有相似之处，因为后者就是一个系统无序的度量，从另一个角度讲也是对一种不确定性的度量。这说明科学上很多看似不同的学科之间也会有很强的相似性。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有3条书摘点击查看

第30章　Google大脑和人工神经网络

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第7章贾里尼克和现代语言处理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第31章　大数据的威力——谈谈数据的重要性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 早年生活

每当弗莱德和我谈起各自少年时的教育，我们都同意这样几个观点。首先,小学生和中学生其实没有必要花那么多时间读书，而他们的社会经验、生活能力以及在那时树立起的志向将帮助他们的一生。第二，中学阶段花很多时间比同伴多读的课程，上大学以后用很短时间就能读完，因为在大学阶段，人的理解力要强得多。举个例子，在中学需要花500小时才能学会的内容，在大学可能花100小时就够。因此，一个学生在中小学阶段建立的那一点点优势在大学很快就会丧失殆尽。第三，学习（和教育）是持续一辈子的过程，很多中学成绩优异的亚裔学生进入名校后表现明显不如那些出于兴趣而读书的美国同伴，因为前者持续学习的动力不足。第四，书本的内容可以早学，也可以晚学，但是错过了成长阶段却是无法补回来的。（因此，少年班的做法不足取。）现在中国的好学校里，恐怕百分之九十九的孩半在读书上花的时间都比我当时要多，更比贾里尼克要多得多，但是这些孩子今夭可能有百分之九十九在学术上的建树不如我，更不如贾里尼克。这实在是教育的误区！

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

附录

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 从水门事件到莫妮卡·莱温斯基

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

后记

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 一位老人的奇迹

贾里尼克教授在学术上给我最大的帮助就是提髙了我在学术上的境界。他舎告诉我最多的是：什么方法不好。在这一点与股神a菲特给和他吃饭的投资人的建议有异曲同工之老处。巴菲特和那些投资人讲，你们都非常聪明，不需要我告诉你们做什么，我只需要告诉你们不要去做什么(这样可以少犯很多错误），这些不要做的事情，是巴菲特从一生的经验教训中得到的。贾里尼克会在第一时间告诉我什么方法不好，因为在IBM时他和他的同事吃声这方面的亏。至于什么方法好，他相信我比他强，自己能找到。所以他节省了我很多能做无用功的时间。同时，他考虑问题的方法让我终身受

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

索引

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第8章简单之美——布尔代数和搜索引擎

我希望这本书的读者是大众，而不仅仅是搜索引擎公司的工程师。对于前者，帮助他们了解数学在工程中的作用，远比了解与他们的工作无关的算法要有意义得多。第二，技术分为术和道两种，具体的做事方法是术，做事的原理和原则是道。这本书的目的是讲道而不是术。很多具体的搜索技术很快会从独门绝技到普及，再到落伍，追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有各。第三，很多希望我介绍“术”的人是想走捷径。但是真正做好一件事没有捷径，离不开一万小时的专业训练和努力。做好搜索，最基本的要求是每天分析10—20个不好的搜索结果，累积一段时间才会有感觉。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

1 布尔代数

搜索引擎的原理其实非常简单，建立—个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。所以我到了腾讯以后，就把搜搜所有的搜索产品都提炼成下载、索引和排序这三种基本服务。这就是搜索的“道”。所有的搜索服务都可以在这三个基本服务的基础上很快实现，这就是搜索的“术”。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

2 索引

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第9章图论和网络爬虫

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 图论

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 网络爬虫

互联网其实就是一张大图，我们可以把每一个网页当作一个节点，把那些超链接（Hyperlinks)当作连接网页的弧。很多读者可能已经注意到，网页中那些蓝色的、带有下划线的文字背后其实藏着对应的网址，当你点下去的的时候，浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为"超链接"。有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫，或者在一些文献中称为"机器人"（Robot)。……看看网络爬虫如何下载整个互联网。假定我们从一家门户网站的首页出发，先下载这个网页，然后通过分析这个网页，可以找到藏在它里面的所有超链接，也就等于知道了这家门户网站首页所直接连接的全部网页，诸如雅虎邮件、雅虎财经、雅虎新闻等等。我们接下来访问、下载并分析这家门户网站的邮件等网页，又能找到其他相连的网页。我们让计算机不停地做下去，就能下载整个的互联网。当然，我们也要记载哪个网页下载过了，以免重复。在网络爬虫中，我们使用一个称为"离散表"(HashTable，也叫哈希表)的列表而不是一个记事本纪录网页是否下载过的信息。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

3 延伸阅读：图论的两点补充说明

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第10章 PageRank——Google的民主表决式网页排名技术

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 PageRank 算法的原理

网页排名算法的高明之处在于它把整个互联网当作一个整体来对待。这无意中符合了系统论的观点。相比之下，以前的信息检索大多把每一个网页当作独立的个体对待，大部分当初只注意了两页内容和査询语句的相关性，忽略了网页之间的关系。虽然在佩奇和布林同时代也有一些人在思考如何利用网页之间的联系来衡量网页的质量，但只是摸到一些皮毛，找到U些拼凑的办法，都没有从根本上解决问题。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

2 延伸阅读：PageRank的计算方法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第11章如何确定网页和查询的相关性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 搜索关键词权重的科学度量TF—IDF

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：TF—IDF的信息论依据

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第12章有限状态机和动态规划——地图与本地搜索的核心技术

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 地址分析和有限状态机

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 全球导航和动态规划

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 延伸阅读：有限状态传感器

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第13章 Google AK—47的设计者——阿米特·辛格博士

辛格这种做事情的哲学，即先帮助用户解决80%的问题，再慢慢解决剩下的20%问题，是在工业界成功的秘诀之一。许多失败并不是因为人不优秀，而是做事情的方法不对，一开始追求大而全的解决方案，之后长时间不能完成，最后不了了之。

dzter //美国人实用主义的表现，直接、简单、有效。

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

第14章余弦定理和新闻的分类

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 新闻的特征向量

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 向量距离的度量

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 延伸阅读：计算向量余弦的技巧

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第15章矩阵运算和文本处理中的两个分类问题

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 文本和词汇的矩阵

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：奇异值分解的方法和应用场景

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第16章信息指纹及其应用

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 信息指纹

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 信息指纹的用途

视频的匹配有两个核心技术，关键帧的提取和特征的提取。MPEG视频（在NTSC制的显示器上播放）虽然每秒钟有30帧图像，但是每一帧之间的差异不大。（否则我们看起来就不连贯了。）令一般来说，每一秒或若干秒才有一帧是完整的图像，这些帧称为关键帧。其余帧存储的只是和关键帧相比的差异值。关键帧对于视频的重要性，就如词主题词对于新闻的重要性一样。因此，处理视频图像首先是找到关键帧，接下来就是要用一组信息指纹来表示这些关键帧了。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

3 延伸阅读：信息指纹的重复性和相似哈希

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第17章由电视剧《暗算》所想到的——谈谈密码学的数学原理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 密码学的自发时代

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 信息论时代的密码学

在第二次世界大战中，很多顶尖的科学家包括提出信息论的香浓都在为美军情报部门工作，而信息论实际上就是情报学的直接产物。香农提出的信息论为密码学的发展带来了新气象。根据信息论，密码的最高境界是敌方在截获密码后，对我方的所知没有任何增加，用信息论的专业术语讲，就是信息量没有增加。一般来讲，当密码之间分布均匀并且统计独立时，提供的信息最少。均勻分布使得敌方无从统计，而统计独立可保证敌人即使知道了加密算法，并且看到一段密码和明码后，也无法破译另-段密码。按照我的理解，这也是《暗算》里传统的破译员老陈破译孝二份密报但无法推广的原因，而数学家黄依依预见到了这个结果，因为她知道敌人新的密码系统编出的密文是统计独立的。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第18章闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 搜索引擎的反作弊

搜索引擎的作弊者所做的事，就如同在手机信号中加入了噪音，使得搜索结果的排名完全乱了。但是，这种人为加入的噪音并不难消除，因为作弊者的方法不可能是随机的（否则就无法提高排名了）。而且，作弊者也不可能是一天换一种方法，即作弊方法是时间相关的。因此，搞搜索引擎排名算法的人，可以在搜集一段时间的作弊信息良将作弊者抓出来，还原有的排名然这个过程需要时间，就如同采集汽车发动机的噪音需要时间一样，在这段时间内，作弊者可能会尝到些甜头。因此，有些人看到的网站经过所谓的优化（其实是作弊），排名在短期内靠前了，以为这种所谓的优化是有效的。但是，不久就会发现排名下降了很多这倒不是搜索引擎以前宽容，现在严厉了，而是说明抓作弊需要一定的时间，以前只是还没有检测到这些作弊的网站

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有2条书摘点击查看

2 搜索结果的权威性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第19章谈谈数学模型的重要性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第20章不要把鸡蛋放到一个篮子里——谈谈最大熵模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 最大熵原理和最大熵模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：最大熵模型的训练

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第21章拼音输入法的数学原理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 输入法与编码

最终，用户还是选择了拼音输人法,而且是每个汉字编码较长的全拼输入法。虽然看上去这种方法输人每个汉字需要多敲几个字，但是有三个优点让它的输入速度知不慢。第一，它不需要专门学匀。第二，输入自然，不会中断思维，也就是说找每个键的时间非常短。第三，因为编码长，有信息冗余量，容错性好。……于是，拼音输入法要解决的问题只剩下排除一音多字的歧义性,只要这个问题解决了，拼音输入法照样能做到击键次数和那些拆字的方法差不多，这也是目前各种拼音输人法做的主要工作。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

2 输入一个汉字需要敲多少个键——谈谈香农第一定理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 拼音转汉字的算法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 延伸阅读：个性化的语言模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

5 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第22章自然语言处理的教父马库斯和他的优秀弟子们

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 教父马库斯

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 从宾夕法尼亚大学走出的精英们

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第23章布隆过滤器

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 布隆过滤器的原理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：布隆过滤器的误识别问题

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第24章马尔可夫链的扩展——贝叶斯网络

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 贝叶斯网络

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 贝叶斯网络在词分类中的应用

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 延伸阅读：贝叶斯网络的训练

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第25章条件随机场、文法分析及其他

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 文法分析——计算机算法的演变

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 条件随机场

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 条件随机场在其他领域的应用

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第26章维特比和他的维特比算法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 维特比算法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 CDMA技术——3G移动通信的基础

这种调频技术是今天的CDMA的前身，它于1941年获得美国专利。美国海军曾经想用这项技术实现一个敌人无法发现的无线电控制的鱼雷，但是因为有反对意见暂时搁起。很快二战就结束了，直到1962年都没有实现现这项技术。越战期间，越南军方发现被击落的美国飞行员可以通过种检査不出频率的设备呼救。他们缴获这种设备后，搞不清它的原理，也不知道如何能破解它产生的信号，于是他们把这个设备交给援越的中国顾何团。中国顾问团里有一些通信专家，包括我在清华大学的导师王作英教授，发现这种设备能以极低的功率在很宽的频带上发送加密信号。对于图截获者来讲，这些信号能量非常低，很难获取。即使能够获得，也会因为不知道密码而无法破解。但是对于接收者来讲，它可以通过把很低的能量积累起来获得发送的信息，并且因为两道密钥，能实现解码。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有2条书摘点击查看

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第27章上帝的算法——期望最大化算法

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 文本的自收敛分类

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 延伸阅读：期望最大化和收敛的必然性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第28章逻辑回归和搜索广告

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 搜索广告的发展

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 逻辑回归模型

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第29章各个击破算法和Google云计算的基础

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 分治算法的原理

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

2 从分治算法到MapReduce

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第30章 Google大脑和人工神经网络

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 人工神经网络

想到人脑的结构那么复杂，大家的第一反应一定是人工神经网络肯定非常高深。如果有幸遇到一个好心同时又善达的科学家或教授，他愿意花一两时的时间，深久浅出地为你讲解人工神经网络的底细，你就会发现，“哦，原来是这夜回事”。要是不幸遇到一个爱卖弄的人，他会很郑重地告诉你“我在使用人工神经网络”或者“我研究的课题是人工神经网络”，然后就没有下文了，如此，你除了对他肃然起敬外，不由得可能还会感到自卑。当然还有好心却不善言辞的人试图讲清楚这个概念，但是他用了一些更难懂的名词，讲得云山雾罩，最后你发现听他讲了好几个小时，结果是更加糊涂了，白白浪费了时间，一无所获，于是你得出了一个结论：反正我这辈子不需要搞懂它了。

dzter //

收藏 0条评论 2015-12-08 添加

在此章节添加书摘

此章节有1条书摘点击查看

2 训练人工神经网络

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

3 人工神经网络与贝叶斯网络的关系

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

4 延伸阅读：Google大脑

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

5 小结

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

第31章大数据的威力——谈谈数据的重要性

还没有人在此章节添加过书摘，赶紧来抢第一吧！

在此章节添加书摘

1 数据的重要性

我又问有多少人相信职业投资人所管理的基金能给它们带来比大盘更好的回报。几乎所有人都相信这一点，可是事实上70%（有时90%）的基金长期表现不如大盘。看到这个结论大家可能大感意外，但世事就是如此。这个例子说明我们的想象与现实的差距有多大，在没有获得足够的数据之前，我们难以作出正确的判断。顺便讲一句题外话，有的读者可能会问，如果无论是个人还是基金，表现都不如大盘好，那么钱都到哪儿去了？答案很简单，交易费和各种税首先吃掉了收益中的很大一部分，而基金经理的管理费则又吃掉了一大部分。一个动态管理的基金，如果每年收2%的管理费（常规），虽然看似不高，但是30—40年下来实际上吃掉了利润的一半左右。股市在某种程度上是一个零和的游戏，证监会官员、交易所雇员的工资和各种奢侈的办公条件，其实都是羊毛出在羊身上，而基金经理开的豪车、住的豪宅都是投资人的钱。因此，如果一个散户投资人能真正做到“用数据说话”，只需奉行一条投资决策，那就是买指数基金。这当然不是我的发明，而是投资领域著名的经济学家威廉-夏普（William F.Sharpe）和伯顿-麦基尔（Burton G.Malkiel）等人一直倡导的。

dzter //