在1936年的美国总统大选前夕,当时著名的民意调查机构《文学文摘》( The Literary Digest)预测共和党候选人兰登会赢。此前,《文学文摘》已经连续4次成功地预测了总统大选的结果这一次它收回来240万份问卷,比前几次多得多,统计量应该是足够了,因此民众们相信其预测。
不过,当时一位名不见经传的新闻学教授(也是统计学家)乔治·盖洛普( George Galup,1901-1984)却对大选结果提出了相反的看法,他通过对5万人意见的统计,得出了民主党候选人罗斯福会连任的结论。后来的大选结果证实是采用少量样本的盖洛普对了。面对迷惑的民众,盖洛普解释了其中的原因:《文学文摘》统计的样本数虽然多,但是不具有代表性,它的调查员们是根据电话本上的地址发送问卷的,而当年美国只有一半的家庭安装了电话,这些家庭的收入相对偏高——他们大多支持共和党。
世界上最早真正采用科学方法研究青霉素杀菌原理和提炼青霉素的,是霍华德·弗洛里Howard Florey,1898-1968)和厄恩斯特·钱恩( Ernst chain,1906-1979)等人,当时已经是1939年,距离弗莱明首次发现青霉素已经过去11年了,而弗莱明本人也已经不再研究青霉素。
钱恩和他的同事爱德华·彭利·亚伯拉罕( Edward Penley Abraha1913-1999)等人找到了青霉素的有效成分—一种被称为青霉烷的物质。青霉烷能够破坏细菌的细胞壁,而人和动物的细胞没有细胞壁,青霉素可以杀死细菌却不会伤害人和动物,这样才算搞清楚了青霉素杀菌的原理。后来根据这个原理,美国麻省理工学院的科学家约翰·希恩( John Sheehan,1915-1992)成功地合成出青霉素,而不再像过去那样需要通过培养霉菌的方法提炼这种药物了。
第一章 数据—人类建造文明的基石
在照片中,王进喜穿着厚棉袄,戴着大皮帽,握着钻井机的扳手眺望远方,背景是高高的井架。在一般人看来,这张照片除了体现出石油工人的豪迈之气,并没有什么特别的地方,但是在日本情报人员看来却披露出许多信息。
首先它泄露了大庆油田的位置。根据王进喜穿的厚棉袄和戴的大皮帽,可以断定油田一定是在中国极北的地区,日本人估计油田应该在哈尔滨和齐齐哈尔之间。其次从背景中井架的密度,大致可以估算出油田的产量。最后从王进喜握手柄的方式,大致能推算出油井的直径。由于日本人获得了关于大庆油田相对准确的信息,因此他们提供的设备非常有针对性,中标也就没有悬念了。
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会
现象、数据、信息和知识
数据的作用:文明的基石
相关性:使用数据的钥匙
不过,当时一位名不见经传的新闻学教授(也是统计学家)乔治·盖洛普( George Galup,1901-1984)却对大选结果提出了相反的看法,他通过对5万人意见的统计,得出了民主党候选人罗斯福会连任的结论。后来的大选结果证实是采用少量样本的盖洛普对了。面对迷惑的民众,盖洛普解释了其中的原因:《文学文摘》统计的样本数虽然多,但是不具有代表性,它的调查员们是根据电话本上的地址发送问卷的,而当年美国只有一半的家庭安装了电话,这些家庭的收入相对偏高——他们大多支持共和党。
而盖洛普在设计统计样本时,考虑到了美国选民种族、性别、年龄和收入等各种因素,因此虽然只有5万个样本,却更有代表性。这个例子说明统计样本代表性的重要性。
在1936年成功地预测了大选结果之后,盖洛普不仅个人一夜成名,而且还催生出一个直到今天仍具权威性的民调公司—盖洛普公司。在这之后,该公司又成功地预测了1940年和1944年两次大选。
在1948年年底美国大选前夕,盖洛普公布了一个自认为颇为准确的结论——共和党候选人杜威将在大选中以比较大的优势击败当时的总统、民主党候选人杜鲁门。由于盖洛普公司前三次的成功,在大选前很多人,包括蒋介石,都相信这个结论。但是,大选的结果大家都清楚,杜鲁门以比较大的优势获胜。这不仅让很多人大跌眼镜,而且让大家对盖洛普公司的民调方法产生了质疑——虽然盖洛普公司考虑了选民的收入、性别、种族和年龄的因素,但是还有非常多的其他因素,以及这些因素的组合他们没有考虑。
迷信了1948年盖洛普预测的第一大输家无疑是远在大洋彼岸的蒋介石先生。他本来就和杜鲁门关系不是很好,在得知杜威将战胜杜鲁门这个预测后,非常兴奋,公开支持杜威,并且期待着在杜鲁门下台后能从美国得到更多的援助。草根出身的杜鲁门本来就非常不喜欢蒋介石的独裁和腐败,对这次蒋介石公开支持他的竞争对手的行为更是大为不满,因此他在连任总统后,对蒋更加不待见了。
统计学:点石成金的魔棒
数学模型:数据驱动方法的基础
第二章 大数据和机器智能
在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心
什么是机器智能
鸟飞派:人工智能1.0
另辟蹊径:统计+数据
数据创造奇迹:量变到质变
大数据的特征
变智能问题为数据问题
的运营和服务。当然,并非什么公司想做服务就能做得好并挣到钱,金风公司有底气转型源于其在宏观上对全球风能市场的了解,在微观上对每一台风能发电机运营细节的了解,加上通过大数据对发电机可能出现的问题的分析,能够比一般工程公司更有效地维护发电机。至于发电机的生产,该公司只负责研制,然后将设备制造交给其他公司去做。这样一来,金风公司就在风力发电领域成功地复制了IBM服务的模式。
第三章 思维的革命
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,
思维方式决定科学成就:从欧几里得、托勒密到牛顿
第一,世界变化的规律是确定的。
第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。
第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践。
工业革命,机械思维的结果
英国医生亚历山大·弗莱明在1928年很幸运地发现霉菌可以杀死细菌,从而发明了这种万灵药。但真实情况要复杂得多,事实上,弗莱明并不清楚霉菌杀菌的原理,也没有能力浓缩和提炼其中的有效成分,如果仅仅靠他偶然的发现,青霉素的普及不知道要晚多少年。
世界上最早真正采用科学方法研究青霉素杀菌原理和提炼青霉素的,是霍华德·弗洛里Howard Florey,1898-1968)和厄恩斯特·钱恩( Ernst chain,1906-1979)等人,当时已经是1939年,距离弗莱明首次发现青霉素已经过去11年了,而弗莱明本人也已经不再研究青霉素。
钱恩和他的同事爱德华·彭利·亚伯拉罕( Edward Penley Abraha1913-1999)等人找到了青霉素的有效成分—一种被称为青霉烷的物质。青霉烷能够破坏细菌的细胞壁,而人和动物的细胞没有细胞壁,青霉素可以杀死细菌却不会伤害人和动物,这样才算搞清楚了青霉素杀菌的原理。后来根据这个原理,美国麻省理工学院的科学家约翰·希恩( John Sheehan,1915-1992)成功地合成出青霉素,而不再像过去那样需要通过培养霉菌的方法提炼这种药物了。
世界的不确定性
熵—一种新的世界观
虽然香农提出信息论最初的目的只是建立通信的科学理论,但是,信息论的作用远不止在科学和工程上,它也是一种全新的方法论。与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。这种思路成为信息时代做事情的根本方法。我们不妨用互联网广告的例子来说明。
上面虽然是一个特定的例子,但是反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。
大数据的本质
从因果关系到强相关关系
数据公司Google
第四章 大数据与商业
除了它聘用了在这个领域世界上最好的专家,即几年前获得自动驾驶汽车拉力赛第一名的卡内基一梅隆大学的团队,以及采用了当时最好的信息采集技术,从激光雷达( Ladar)到高速摄像机,再到红外传感器等,最根本的原因是 Google采用了和其他研究单位不同的研究方法——它把自动驾驶汽车这个看似是机器人的问题变成了一个大数据的问题。
在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
从大数据中找规律
巨大的商业利好:相关性、时效性和个性化的重要性
大数据商业的共同点—尽在数据流中
把控每一个细节
重新认识穷举法—完备性带来的结果
从历史经验看大数据的作用
技术改变商业模式
加(+)大数据缔造新产业
第五章 大数据和智能革命的技术挑战
大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方
技术的拐点
数据收集:看似简单的难题
数据存储的压力和数据表示的难题
并行计算和实时处理:并非增加机器那么简单
数据挖掘:机器智能的关键
数据安全的技术
保护隐私:靠大数据长期挣钱的必要条件
第六章 未来智能化产业
现有产业+机器智能=新产业,未来的农业、制造业、体育业、医疗、律师,甚至编辑记者行业都将迎来崭新形态
未来的农业
未来的体育
未来的制造业
未来的医疗
未来的律师业
未来的记者和编辑
第七章 智能革命和未来社会
在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入智能浪潮,成为前2
智能化社会
精细化的社会
无隐私的社会
机器抢掉人的饭碗
争当2%的人
后 记
参考文献