- 第1节 定律思维
-
大数据中潜伏着很多潜在的规律,只有找到这些规律,大数据才有价值。建设新数据时代和平台的必要手段,就是通过积累数据,预测提升服务和管理水平来实现。
此前,在大数据中,有两个较为突出的定律:一秒定律或秒级定律和摩尔定律。
什么叫一秒定律或秒级定律呢?指的是对处理速度有要求,一般要在秒级时间给出准确的分析结果。如果时间过长,就会失去原有的“一秒定律或秒级定律”的价值。也正是这个速度要求,才区分出大数据挖掘技术和传统的数据挖掘技术的不同。
那什么叫摩尔定律呢?指的是简单地评估出半导体技术进展的经验法则,其重要的意义是对于长期来说的,IC制程技术是以一直线的方式向前推展,使得IC产品能持续降低成本,增加功能和提升性能。
1998年,台湾积体电路制造公司董事长张忠谋曾说过:摩尔定律在过去30年是非常有效的,在未来10~15年也依然适用。但很快,就有新的研究结果推翻了他的言论。研究发现,摩尔定律的时代将会结束。由于研究和实验室的成本需求非常高昂,而有财力投资在创建和维护芯片工厂的企业少之又少。再加上,制程越来越接近半导体的物理极限,将很难再缩小化。
大数据时代正在聚集改变的能量,其定律也在发生着一定的变化。社科院世界经济与政治研究所副所长何帆在一次讲座中,曾说过这样的话:
大数据时代,人们更要重视统计学。比如说,随着大数据时代的来临,人们开始重视大数据,要重视统计学。可当数据变得足够强大后,人们突然发现,社会上的一切现象都是有一定的统计规律的。它无法像物理学可以准确地描述出前后的因果关系,而只是一个统计的规律。关于这点,有人就玩笑似的说过:只要统计学学好了,再去学别的都战无不胜,因为社会上的一切现象都有一个统计规律。
与此同时,有人就觉得疑问:为什么要强调统计学呢?那是因为人们在认知能力中,统计思维算是最差劲的。要知道,人的大脑中有一些功能比较优良,甚至超过人们自身的想象,比如人们的语言能力。著名的语言学家乔姆斯基就曾经说过:“语言不是你学来的,而是你天生就会的。要是从一出生,开始学语言的话,那是根本学不会的。事实上,一个人在出生的时候,大脑中就已经预装了一套操作系统,那就是语言的操作系统。因此可以说,语言是人们天生就会的。再比如,人们察言观色的能力,也是天生就会的,但有一些是人们不会或不愿意学的。”
诺贝尔经济学的美国心理学家丹尼尔·卡尼曼写过一本书,书名是《思考,快与慢》。在这本书中,有这样的言论,大致意思是说:人有很多思维都是靠直觉的快思维,这是人们经过数百年、千年慢慢演化而来的,最终被留下和被记忆的直接感受,就是所谓的第六感觉。举个例子:当一个人在深夜行走时,会敏锐地察觉到周边的变化。一旦感受到危险或不安的情绪时,就会立即逃跑,甚至大喊大叫。而与此同时,人的大脑之中还有另外一套操作系统,是用来做逻辑推理以及进行统计分析的,只是这个系统不怎么完善。于是,人们天生就缺乏逻辑推理能力和统计思维能力。
所以,在大数据飞速发展的今天,人们应该锻炼自己的逻辑推理能力和统计思维能力!
为什么大数据变成了一个最热门的词汇?能够让大数据变成一个热门词汇,主要的原因有两个。
第一个原因是,由于IT革命后,人们有了处理数据的多方面能力,有对计算机数据的处理能力、对计算机的存储能力以及对计算机的计算的能力,等等。再加上,人类储存信息量的增长速度要比世界经济增长的速度快四倍(这仅仅是在金融危机爆发之前的世界经济增长的速度)。而计算机数据处理能力的增长速度,要比世界经济增长的速度快九倍。
第二个原因是,社会上的一切现象以及企业的发展,能够被数据化的东西越来越多。在最早时,仅仅是数字可以被数据化,于是就有了阿拉伯的计数,后来又出现了二进位,再后来人们发现文字也可以处理成数据,于是又发现图像也可以处理成数据。比如,有人要去旅行,但是不知道要去的地方的具体位置和周边的信息,那就可以利用搜索引擎搜索;当人们在与微信中的朋友聊天,用微博分享一天的见闻……就已经被数据化了。因此,这就是为什么现在要谈大数据时代,那是因为大数据能够处理和分析的东西太多了,多到人们无可预计。
社科院世界经济与政治研究所副所长何帆说:“当你能够被数据化的东西越来越多,当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。”
不仅如此,何帆还总结出了大数据的三个规律:第一个规律是知其然而不必知其所以然,外行打败内行;第二个规律是彻底的价格歧视,商家比你更了解你自己;第三个规律是打破专家的信息优势,病人给医生解惑。
关于第一个规律,他先举了一个葡萄酒的案例—如何品葡萄酒。
在以往,靠品酒方面的专家拿起葡萄酒时,会先闻一闻,准确说出酒的什么味道、富有什么样的香味。接着,品酒专家会看是不是挂杯。最后,他会准确地说出:葡萄酒的产地,大约是什么年份的。但是,当品酒师在品新酒的时候,由于葡萄酒真正的品质还没有形成,因此,他的鉴定是不那么准确的。此外,当一个品酒师的声誉越来越高的时候,由于要顾及自己声誉和名望,所以在大多情况下,他不敢做大胆的推测和判断。
在普林斯顿大学,有一位经济学家很喜欢收藏葡萄酒。有一天,他想试试自己能不能预测出某年某地的葡萄酒品质如何,于是,他就去查找大量的数据,经过分析和研究后得出一个秘诀—葡萄酒的品质与冬天的降雨量、收获季节的降雨量、生长期的平均气温、土壤的成分等因素有关。1989年,葡萄酒的新酒刚刚下来,他就大胆预测:今年的葡萄酒是世纪佳酿。在1990年,他又大胆地预测出:今年的葡萄酒比1989年的好。要知道,一般的品酒师都不敢如此判断,但他却如此大胆,因而着实为自己带来了一些非议。不过事实证明,他说的完全正确!
有句话叫:要知其然,还要知其所以然。但是在大数据时代,人们可以知其然,却不一定非要知其所以然。如果你去问普林斯顿大学的教授:为什么说这个酒好?这个酒到底有什么香味?酒回甘是什么?他未必会说得很清楚。但是他能够知其然,所以才能够大胆地做判断。这是为什么呢?这或许是人们以往的认知里,执意去要寻找一些线性的、双边的直接因果关系,而忽略了其他方面的东西。而人们忽略的方面,恰恰又是最需要的。事实告诉人们:万物之间的联系比人们想象中的要复杂得多,它可能是非线性的,也可能是多元化的。所以说,出问题的不是大数据,而是人们原来的认知模式。那么,在这个时候,人们怎么办呢?最佳的办法,就是退而求其次,要先去寻找相关关系,再去找是否有因果关系。
第二个规律,是彻底的价格歧视。商家比你更了解你自己,他也有着自己的见解。比如说,一个机构是专门做信用卡的刷卡记录的,当他们积累了大量的数据后,经过分析和处理,就会找到很多规律。再比如,一个人的离婚与否,和信用卡上的还款记录以及驾驶车辆出车祸的概率有一定关系。这还真是个奇怪的规律。在大数据时代,比较有名的规律就是:尿布和啤酒的销售量有一定的关系。啤酒和尿布怎么会联系在一起?市场调查人员经过一番调查后才发现:原来当有新生儿出世后,买尿布的这个任务就给新爸爸了。尽管新生的宝贝出世以后,爸爸亲手照顾孩子的机会并不多,但他也有一种自豪感。在去买尿布的时候,为了庆祝,他会顺手去买啤酒。如果店家在尿布货架的旁边直接摆上啤酒,啤酒的销量就会提高;专门卖母婴用品的部门会搜集一些顾客的信息,然后分析研究得出一些结论。比如,一位女性大约在什么时间段会怀孕,她可能会买更多的母婴用品以及一些营养品,甚至会购买一些没有香味的洗发剂,最后预测出潜在的客户到底在哪里。
可以说,在大数据时代,一切预测和分析都动摇了人们以往的方法论。原来经济学里说过,商家不能搞价格歧视。这不是从道义上来说,而是因为,在过去,商家很难对不同的顾客进行价格歧视,所以要制定统一的价格。不过,这是过去的规律,在大数据的时代,这个规律被彻底颠覆。在大数据的时代,商家可以针对每一个个体的消费者定价,因为他比消费者更了解消费者自身的行为。比如说,某天你会收到一条信息,说是你的车很久没去做保养了,希望你能够重视这件事,并快去店里给爱车做保养并消费;在你准备去旅行,搜索旅行资料时,一些旅行社就会给你打电话,给你推荐适合你的旅行方案。此时,你肯定会感到疑问:他们怎么知道这些事?或者,他们怎么会这么了解你的状态?其实,这都是大数据在帮他们的忙。能够合理运用大数据的商家,都是一个合格的“偷心”者,会抓住你的喜好,然后偷走你的“心”。
第三个规律,就是打破专家的信息优势,病人给医生解惑。在这个规律中,社科院世界经济与政治研究所副所长何帆说:“我们接着再讲一个案例,电视连续剧《豪斯医生》的医学顾问是纽约时报的一位专栏作家。他是倡导寻证医学的一个代表人物,寻证医学就是根据证据来治病。过去看病时,要先研究病理学,再研究治疗办法,而且有很多是一代一代口传下来的。老师告诉我们说,维生素B12口服的效果不好,必须打针。为什么?不知道,反正是当年,老师的老师就是这么告诉老师的。所以,你的老师也这么告诉你,你就这么再告诉你的学生。但是后来发现,这里头有很多问题。”
的确,这也是医患之间的纠纷如此之多的原因之一。实际上,医院的误诊比例是比较高的。在美国,有一份研究称:美国医院误诊比例是1/3,有20%的人由于误诊死亡。为什么医院的误诊概率会如此之高?那是因为:过去的一些医生在治疗中完全靠经验,有很多想法和判断都是主观的。确实,医学并不是一门科学,而是一个个复杂的生命体,医生没办法精确到把每一位病人治好。后来,医生也开始另辟蹊径,通过数据找出规律。很快,在19世纪,就有一位医生发现这样的一个规律:如果医生先去了停尸房,再回来给产妇接生的话,那产妇的死亡率就会增高。而医生在清洁手以后再接生的话,产妇的死亡率就会下降。在那个时代,人们还不知道细菌和病菌的危害,只知道在手术前后都要洗手。当然,也没有哪个病理学能够告诉医生“洗手跟降低死亡率有很大的关系”。慢慢地,病人的死亡率大幅度下降。而这,就是寻找依据的思路,减少医生的自主权利,让一切变得有规律起来。
由于互联网的存在,再加上大数据的帮助,有时,病人对病情的掌握程度比医生还要高。
在美国曾有这样的一个报道:有个病人被推到病房里头后,一群医生对他会诊,经过一番研究后,医生们都说不出个所以然来。最后,当主治医生问这个病人“你认为自己得的是什么病”的时候,病人立即回答:我这个病就是IPEX!对此,医生很是疑问,就问病人是怎么知道的。病人说很简单,“我只是将自己的症状在搜索引擎中一搜,就知道了”。
相信有不少人听到这个结果时,啼笑皆非。医生都不知道的病情和结果,病人竟能准确地说出来。可见,大数据有强大的传播和分析能力。在以往,医生能够治病,是因为他有着专业的知识、专业的见解以及实践性。而现在,除了实践性以外,病人也会知道很多信息。当遇到一些庸医时,你完全可以拿着自己打印出来的资料跟他说:“你的诊断错了,根据我的症状看,应该是这个病,而不是你所说的那个病。”这完全颠覆了原来信息不对称的情况。所以,大数据时代的第三个规律就是打败、打破了专家的信息优势。
最后,何帆还说:“对于大数据,很多企业都认为,拥有大量的数据才是获得价值的根本。然而,事实并非如此,拥有大数据思维,远比大量的数据更有价值,这才是大数据的王牌定律。”
- 最新书评 查看所有书评
-
- 发表书评 查看所有书评
-