用户名:
密码:
当前位置:图书频道 > 职场励志 > 马云到底还想干什么:敢上市 不怕干更多 > 第 3 章 Part 2 大数据帝国的崛起:大数据时代下引领商业模式的大变革
第1节 BAT抢滩大数据蓝海,挖掘深层次用户需求

 

阿里巴巴CTO王坚博士认为,人们对于云计算和大数据的理解都错了。事实上,业界对于大数据并没有明确的定义,而且“大数据”并不是什么新鲜词汇。

信息革命不仅带来了高效的信息生产、信息流通和消费,还带来了数据的爆炸式增长。数据爆炸式增长的阶段到来之后,人们发现传统的对数据零散利用造成了对数据的浪费。在移动互联网趋势的影响下,数据的产生速度也在不断地加快,人类已经意识到了数据对社会发展的重要性,并就数据挖掘达成了共识。这就是大数据的初心,即在积累数据的同时,挖掘数据所需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境也在一步步成长。

实践证明,在互联网领域,行动才是最好的诠释。概念、模式和理论都需要在实践中逐渐清晰明确,因为实践才是检验真理的唯一标准。目前,国内互联网三巨头BAT,即百度、阿里、腾讯,都已经拥有了庞大的数据金矿,并陆续踏上了掘金之路。

虽然BAT都属于大金矿主,但是这三座矿山的性质却有巨大的不同。

数据就如同煤矿,根据性质方面的差异煤炭可以分为焦煤、无烟煤、肥煤、贫煤等种类,就算是性质相同的煤矿,露天煤矿与深山煤矿的挖掘成本也不同。因此,大数据的价值并不在“大”,而是在于“有用”。相对于数量,数据的价值含量以及挖掘成本要更为重要。

 

图2-1 BAT大数据对比

百度的大数据可以分为两种类型,一种是用户搜索表征的需求数据,另一种是爬虫和阿拉丁获取的公共Web数据。阿里巴巴则有交易数据和信用数据,相对于百度拥有的大数据,这两种数据更容易发现商业价值。与此同时,阿里巴巴还运用投资、并购等方式掌握了部分社交数据和移动数据,比如微博和高德地图。腾讯的用户数据和基于此产生的社交数据可以分析用户的生活和行为,然后挖掘出有关政治、文化、经济、健康等方面的信息,有时候还可以利用掌握的数据信息预测未来。

◆百度:含着数据出生,掌握数据挖掘的技术,倡导数据的研究和实际应用

百度是含着数据出生的,在搜索引擎领域拥有不可撼动的地位。不管是获取网页数据、对网页内容进行组织和解析、在海量数据中进行精准搜索,还是搜索引擎的关键字广告,都是一个获取、组织、分析和挖掘数据的过程。

将所有的数据信息都掌控在自己手中,一直是百度搜索引擎的目标。因此,百度除了获取网页数据外,还制订了“阿拉丁计划1”,借以获取第三方的数据,利用业务手段与药监局等部门进行合作,然后获得封闭的数据。虽然百度拥有的

1 阿拉丁计划,百度新一代搜索引擎。阿拉丁是搜索引擎公司百度推出的一个通用开放平台,它将接口开放给独特信息数据的拥有者,从而解决现有搜索引擎无法抓取和检索的暗网信息。核心技术和数据矿山是其他互联网公司一直梦寐以求的,但是这些数据目前还没有被最大限度地利用,也没有发挥出它应有的潜能。

百度推出的百度指数和百度统计等产品,是进行数据挖掘的初级应用,相对于Google,百度在收集社交数据和实时数据,以及数据流通转化为数据挖掘方面有更大的发展前景,百度为此要付出的努力还有很多。

大数据时代对于搜索引擎来讲,既是一种机遇,又是一种挑战。机遇就在于,搜索引擎在获取数据的方法上已经有了技术沉淀和优势;而挑战则在于,搜索引擎会在大数据时代拥有更多的暗网数据,Web化但没有结构化的数据,Web化、结构化但封闭的数据。这些挑战使传统的搜索引擎失去了更多的大数据。

百度还向企业提供了更多的数据和数据服务。百度与宝洁、平安等公司进行了合作,由百度向这些公司提供分析和挖掘消费者行为的服务,同时百度还利用数据结论对企业新产品的推出提供一些指导,这是一种典型的利用大数据开展的C2B模式。就像美剧《纸牌屋》男主角和导演的选拔方式一样,通过对网络数据挖掘之后,根据他们在网络中的受欢迎情况选择。

百度能够利用大数据实现移动互联网的进化,关键就在于要不断进行深度学习。在大数据基础上的机器学习能够改善多媒体搜索和智能搜索的效果。其中的智能搜索包括语音搜索、视觉搜索和自然语言搜索等。百度的举动还会推动移动互联网领域具有革命性产品的产生。

尽管百度已经走在了抢占大数据的战场上,但是在这方面需要完成的工作还有很多。

在收集数据方面,百度需要更多具有高价值的交易、社交和实时数据。比如说,增强百度贴吧的社交能力;将地图服务与O2O模式进行结合,从而掌握更多的交易数据;推动移动APP、穿戴式设备等数据收集系统的优化升级。

为了提高数据处理能力,百度成立了深度学习研究院,对人工智能领域进行了更深入的探索,并在多媒体和中文自然语言处理方面已经取得了一些成就。另外,建设云存储和云计算的基础设施的工作也在逐步完成。虽然百度在深度学习方面已经有了重要的进展,但是仅仅做到这些还是远远不够的,仍然有许多困惑在等待着探索者们解开。比如说,如何进行无监督式的学习以及如何识别立体图像等。

在数据变现方面,百度需要将自身拥有的数据挖掘能力、数据内容的聚合和提取能力,转化成标准化的服务和产品,利用这些服务和产品进军大数据领域的企业和开发者市场,而非仅仅为大型企业提供个性化和定制化的解决方案。

相对于阿里和腾讯,百度的优势就在于拥有庞大的数据信息、积累十多年的用户行为数据、对自然语言的处理能力和在深度学习领域拥有的前沿研究成果。百度还是拥有最多大数据相关领域优秀人才的公司,前段时间,百度为了招贤纳士,投入五千万挖到了在数据挖掘、自然语言处理、深度学习领域的十多位顶尖专业人才,比如Facebook科学家徐伟就是其中之一。

要想挖到最优秀的人才,仅仅靠花钱还是远远不够的,还要学会用心。对于真正的大神级人物,金钱吸引只是他们一个很小的因素,他们会更多地考虑自己的职业发展、理想以及公司的条件能否帮助自己进行研究等。徐伟在回国前就咨询了其他从硅谷回国的工程师,他们认为在百度工作会得到最好的发展。因此,他才最终决定留在了百度。

总而言之,百度不仅拥有大数据,还拥有挖掘大数据的能力,并且也在这两个领域进行积极的探索。百度在加强未来研究和人才布局的同时,还非常重视实用性技术的开发。

◆腾讯:数据为产品所用,自产自销

我曾经听过一个关于腾讯的故事:

腾讯公司在1999年刚刚成立后不久,天使投资人刘晓松就向其抛出了橄榄枝,将资金注入了腾讯。原因就在于他发现,虽然当时腾讯的规模还很小,但他们已经有了用户运营的理念,并且其后台有对用户的每一个动作的详细记录和分析。而另一个投资人却认为腾讯公司还很小,不应该把钱都花在数据上。但事实证明,不管是腾讯产品的生产、运营,还是腾讯游戏的崛起都离不开腾讯所拥有的数据。

腾讯QQ(简称“QQ”)是腾讯公司开发的一款即时通信软件,是国内目前使用最广泛的交流软件,其标志是一只戴着红色围巾的小企鹅。腾讯就凭借QQ占据了庞大的社交大数据,并在企鹅帝国中完成了对数据的制造、流通、消费和挖掘。

腾讯大数据目前在改进产品功能方面发挥了更大的价值。腾讯大数据的增值服务目前占到总收入的78.7%,电子商务业务占到了14.1%,网络广告收入仅占6.3%。从上面网络广告的比例就可以看出,腾讯的大数据在精准营销领域还未发挥出最大的潜力,而竞争对手Google和Facebook则利用广告赚得了高额利润。

腾讯的运营思路重点在补齐产品,比如说打通QZONE、微信、电商等产品的后端数据。比如说,腾讯微博利用“大数据技术”为用户提供了好友关系自动分组、自动过滤低质量信息、分类阅读优质信息等功能,这就是典型的利用大数据进行产品改进的思路。

如果腾讯要深入挖掘大数据,先要解决好什么问题呢?对于腾讯来讲,他们已经准备好了数据,就只差合理的模式了。换句话说就是,要找到能够驱动大数据利用的产品,而不是仅仅运用大数据改进自己的产品。但是从腾讯目前的发展动向来看,腾讯仍然在寻找驱动大数据利用的产品方面徘徊,马化腾或许一直在等那个第一个吃蛋糕的人,等他们验证出一套模式或产品,然后再进行借力。

腾讯也非常重视人才的挖掘。早在2010年Google宣布退出中国时,腾讯就花重金将Google 图片搜索创始人朱会灿、Google 中国工程研究院副院长颜伟鹏以及Google 中日韩文搜索算法的主要设计者吴军挖到了自己门下。

腾讯曾经为了研发驱动大数据的产品推出了搜搜,虽然搜搜网站耗资巨大,但最终也没有发挥出预期的目标。后来,腾讯从Google挖掘的人才又大多回到了Google。

腾讯缺乏能够在大数据领域进行领导的技术带头人,而且也不重视公关的作用。腾讯公司里的技术专家很少抛头露面,更不会像百度和阿里那样对技术专家进行包装宣传。

腾讯的技术虽然低调,但公司里却有很强大的执行力。曾经在腾讯公司工作的一位朋友说,为了能够研发出新产品,公司经常进行封闭研发和技术开发,当然还会有重金激励政策。“重金之下必有勇夫”,腾讯就是凭借着制度方面的支持来保障技术的产出。此外,腾讯还与高校进行了合作,比如2010年,腾讯与清华大学合作建立了清华腾讯联合实验室。

如果从这上面的两个方面来看,腾讯似乎缺乏挖掘数据的顶尖人才,但是腾讯在数据挖掘方面已经成熟,而且数据挖掘包括数据库、统计学、机器学习3个方面,在学术界也已有多年的发展历史。但是,腾讯在自然语言识别和深度学习方面还远远落后于百度。

总之,腾讯的大数据布局就是先补全产品,然后再打通产品后台的数据,形成一个稳定的大数据生态圈。目前,腾讯会利用挖掘的大数据不断对自己的产品进行改进,等后期腾讯掌握了成熟的大数据模式和产品后,就会充分利用自身的优势—社交关系数据,进行对大数据的深入挖掘。

◆阿里:坐拥金数据,未来要成立数据集市

在对外贸易蓬勃发展的商业背景下,阿里巴巴B2B凭借着为中小企业提供服务而逐渐发展起来。在淘宝和支付宝出现之前,阿里的发展并不依赖于技术方面的支撑。因此,业界人士将阿里评判为一个缺乏技术基因的公司。直到后来,阿里向市场上推出了淘宝、支付宝和天猫,并对海量用户大并发量交易、海量货架数据的管理、安全性等方面进行了严格规定,如此一来,阿里才实现了在电商技术方面的进化。但是即便如此,阿里掌握的大量数据信息仍然没有得到最充分的利用,许多最值钱的金数据都被白白浪费了。

数据挖掘从本质上看,就是指从最原始的数据信息中发现价值。目前,阿里的数据产品包括数据魔方、量词统计、推荐系统、排行榜以及时光倒流等,但这些还是相对比较简单一点的商业智能,并没有达到大数据阶段。

随着互联网领域的高速发展,海量数据成为各电商平台实现战略转型的重要支撑。为了应对大数据的浪潮,阿里提出了“数据、金融和平台”战略。竭尽所能地收集、挖掘和分享数据。马云在离开阿里巴巴前,一遍遍地向外界提起“数据”两个字,为此还有人戏称,马云可以改名叫Data Ma了。阿里现任CEO陆兆禧曾经就是阿里巴巴的CDO1。因此,陆兆禧在继任阿里之后,也非常重视对数据的挖掘和运用,为了能够将阿里打造成为用数据来驱动的电商帝国,阿里还成立了“数据委员会”。

2013年阿里入股新浪微博,收购友盟;2014年阿里又收购了高德地图。阿里的这一系列举动都充分说明,阿里在整合、利用和完善数据信息。新浪微博拥有着社交及媒体数据,友盟占有移动应用数据,而高德则坐拥地图数据和线下数据,因此不得不说,这都是阿里的数据及平台战略的重要部分。阿里的数据战略目前由首席人工智能官(CBO)车品觉领导,并取得了一定的成绩,首席技术官(CTO)王坚负责的“云”则为数据战略的实现提供了有力的技术支持。

马云也曾经对大数据进行过思考,他认为,信息时代的概念已经过时了。目前,能够引领潮流的是数据时代。在信息时代,竞争是精英之间的竞争—我比别人聪明,能够提取有用的信息,因此我成功了;而在数据时代,别人比我聪明,他们将数据交给更聪明的人来处理,一个公司所占有的数据就是公司的资产,分析数据的能力就演变成一种服务。

计算机的发展经历了一个从象牙塔到平民再到草根的过程。大数据的发展过程大致如此,首先处在象牙塔阶段,只有少数的精英公司之间才能产生竞争;到平民和草根阶段之后,无论是数据的产生、流通还是挖掘,任何数据都会产生价值。而对于阿里来讲,特长就是建市场,即建立一个数据交易市场。任何企业和个人都可以将数据和挖掘服务拿到市场上去交易。阿里也会将自己的电商和信用数据放在平台上与大家共享。

有数据的人可以拿到市场上去卖,或者让别人对数据进行分析,接受他们提供的分析服务;没有数据的人可以到市场上去买,或者是帮别人去挖数据。

推动阿里发展的并不是技术,而是业务。阿里的技术重心主要在系统层面,阿里在技术领域拥有LVS开源软件创始人章文嵩,以及数据牛人冯大辉等顶尖人物,阿里在并发访问、电信级别的电商业务领域拥有强大的技术优势。也正是这一技术优势,才帮助阿里撑过了“双十一”单日过亿的订单量。

1 CDO,Chief Data Officer的缩写,即首席数据官。CDO主要负责根据企业的业务需求、选择数据库以及数据抽取、转换和分析等工具,进行相关的数据挖掘、数据处理和分析,并且根据数据分析的结果战略性地对企业未来的业务发展和运营提供相应的建议和意见。

从阿里在数据战略的布局,可以看出阿里做得最多的是搭建数据流通、收集和分享的架构,而非数据挖掘。同时阿里将自己擅长的“交易”生意扩展到数据领域,让“数据生意”成为一种时尚。

在移动互联网的背景之下,世界正在加速数字化的发展进程,不管是人、物体、事件、时间点,还是历史、现在和未来都在向网上映射。时间与空间的连接使得数字世界正在逐渐靠近虚拟的现实世界。挖掘大数据就是对世界的第二次感知,而BAT三巨头已经踏上了这条路。

最新书评 查看所有书评
发表书评 查看所有书评
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码: