App 下载
注册
登录
|
搜索
正在搜索中...
首页
我的书架
我的主页
我的收藏
我的书评
数学之美
几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦
……
[ 展开全部 ]
函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。 今年,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
[ 收起 ]
作者:["吴军"]
出版社:人民邮电出版社
定价:45.00元
ISBN:711528282
给个评价
做个书摘
书摘 (21 )
评价 (1 )
第1章 文字和语言 vs 数字和信息
周蓉
2020-02-16 13:13:55 摘录
一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩。在古代,两个人讲话说得快是一个宽信道,无需压缩;书写来得慢是一个窄信道,需要压缩。将日常的白话口语写成精简的文言文本身是信道压缩的过程,而将文言文解释清楚是解压缩的过程。这个现象与我们今天宽带互联网和移动互联网上的视频播放设定完全一致,前者是经过宽带传输,因此分辨率可以做得高得多;而后者由于空中频道带宽的限制,传输速度要慢一到两个数量级,因此分辨率要低得多。由此可见,在信息论尚未被发明的几千年前,中国人已经无意识地遵照它的规律行事了。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
周蓉
2020-02-16 13:08:06 摘录
从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉地采用了对信息的编码。不仅如此,我们的祖先对文字的编码还非常合理。在罗马体系的文字中总体来讲,常用字短,生僻字长。而在意型文字中,也是类似,大都常用字笔画少,而生僻字笔画多。这完全符合信息论中的最短编码原理,虽然我们的祖先并不懂信息论。这种文字设计(其实是一种编码方法)带来的好处是书写起来省时间、省材料。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
周蓉
2020-02-16 13:03:56 摘录
描述数字最有效的是古印度人,他们发明了包括0在内的10个阿拉伯数字。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
周蓉
2020-02-16 12:57:43 摘录
今天我们对5000年前埃及的了解远比对1000年前的玛雅文明要多得多,这要归功于埃及人通过文字记录了他们生活中最重要的信息。而对于我这个长期从事自然语言处理的学者来讲,这件事有两点指导意义。
1.信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要有一份内容完好保留下来,原有的信息就不会丢失,这对信道编码有指导意义。(感谢2000多年前古埃及人在罗塞塔石碑上用三种文字记录了托勒密五世登基的诏书。)
2.需要的数据,我们称为语料。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
周蓉
2020-02-16 12:47:17 摘录
翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。进一步讲,文字只是信息的载体,而非信息本身。
那么不用文字,而用其他的载体,比如数字,是否可以存储同样意义的信息呢?这个答案是肯定的,这也是现代通信的基础。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
导购链接
×
做书摘
文字书摘
读图识字
至少还需要输入
10
字
保存原图片为书摘
上传图片
识别
最多输入
500
个字
上传图片
重新上传
写点笔记吧
至少还需要输入
10
字
章节(选填)
出版说明
序言1
序言2
前言
第1章 文字和语言 vs 数字和信息
第2章 自然语言处理 — 从规则到统计
第3章 统计语言模型
第4章 谈谈中文分词
第5章 隐含马尔可夫模
第6章 信息的度量和作用
第7章 贾里尼克和现代语言处理
第8章 简单之美 — 布尔代数和搜索引擎的索引
第9章 图论和网络爬虫
第10章 PageRank — Google的民主表决式网页排名技术
第11章 如何确定网页和查询的相关性
第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划
第13章 Google AK-47的设计者 — 阿米特 · 辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展 — 贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题 — 期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google云计算的基础
附录
后记
索引
页码(选填)
这本书已经添加了这些章节,请勾选或者新建你的书摘所属的章节
add
up
down
remove
出版说明
序言1
序言2
前言
第1章 文字和语言 vs 数字和信息
第2章 自然语言处理 — 从规则到统计
第3章 统计语言模型
第4章 谈谈中文分词
第5章 隐含马尔可夫模
第6章 信息的度量和作用
第7章 贾里尼克和现代语言处理
第8章 简单之美 — 布尔代数和搜索引擎的索引
第9章 图论和网络爬虫
第10章 PageRank — Google的民主表决式网页排名技术
第11章 如何确定网页和查询的相关性
第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划
第13章 Google AK-47的设计者 — 阿米特 · 辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展 — 贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题 — 期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google云计算的基础
附录
后记
索引
×
添加一个书摘本
搜索创建书摘本
搜索
正在搜索...
不对,换一下
书名
作者
出版社
备注
ISBN
*
*
×
编辑书摘
书摘
最少还需要输入
10
字
写点笔记吧
最少还需要输入
10
字
*
这条书摘是属于哪一章节的?
出版说明
序言1
序言2
前言
第1章 文字和语言 vs 数字和信息
第2章 自然语言处理 — 从规则到统计
第3章 统计语言模型
第4章 谈谈中文分词
第5章 隐含马尔可夫模
第6章 信息的度量和作用
第7章 贾里尼克和现代语言处理
第8章 简单之美 — 布尔代数和搜索引擎的索引
第9章 图论和网络爬虫
第10章 PageRank — Google的民主表决式网页排名技术
第11章 如何确定网页和查询的相关性
第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划
第13章 Google AK-47的设计者 — 阿米特 · 辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展 — 贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题 — 期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google云计算的基础
附录
后记
索引
*
页码
×
删除
您确定要删除吗?
1.信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要有一份内容完好保留下来,原有的信息就不会丢失,这对信道编码有指导意义。(感谢2000多年前古埃及人在罗塞塔石碑上用三种文字记录了托勒密五世登基的诏书。)
2.需要的数据,我们称为语料。
那么不用文字,而用其他的载体,比如数字,是否可以存储同样意义的信息呢?这个答案是肯定的,这也是现代通信的基础。