大数据预测,是玄学还是科学? | 数盟

在与大数据的相关话题中,人们普遍最感兴趣的就是“预测”。我们大多相信,未来是难以把握的,但是一旦这种不确定性被大数据“确定”了下来,我们岂不是就能“人定胜天”了?

如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的顶尖数据科学家,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。毕业于北大数学院概率统计专业,在中科院软件所完成数据挖掘方向的计算机博士学位,沈志勇这位一路“根正苗红”、踩着大数据科班道路走出来的数据科学家说,如今他更愿做一个大数据技术的“搬运工”——让大数据在各行各业,“燃”烧起来。

根正苗红的“数据科学家”

在沈志勇的印象中,记忆最深的莫过于他经历过的两次高考。第一次是在1999年,当时他考入了北京大学数学学院。第二次,则是在四年前的那个夏天。

2014年的6月与往常一样,全国几百万考生正在为几天后 “人生最重要”的一场考试做着最后的准备;老师和家长们,则一遍又一遍地为他们查阅着各种“押题”指南,期待有巧合或者奇迹押中真题。

沈志勇坐在办公室里,也在紧锣密鼓地准备着什么。不久,他指导的一个“大数据预测高考作文题”的项目面世。这是第一次有人用大数据预测高考作文题目。

(图片说明:百度预测2014年高考作文题目)

几天后,结果出来了。在全国18卷的语文考试中,他们的预测命中了其中12卷的作文命题方向。一时间,网友开始纷纷感叹:大数据连高考都能预测,简直 “神”了!

“那次颇具普及性质的活动让更多人看到了大数据的价值、希望能了解大数据。”项目背后的沈志勇现在回忆起那次活动,觉得它的传播意义更加鲜明。虽然对普通人来说,这种预测很新鲜;但对沈志勇来说,大数据已经是十多年的“老朋友”了。

本科毕业于北京大学数学学院概率统计系、在中科院软件所获取博士学位、曾在惠普从事数据挖掘研究,现任百度云首席数据科学家……从简历上看,沈志勇是一位“根正苗红”、科班出身的数据科学家。从大二接触概率统计开始,沈已经在数据分析处理这条路上走了近二十年。在他看来,“数据科学家”的概念无需咬文嚼字纠结科学二字,它们本质上就是集合工程能力、业务能力和理论知识的数据型人才。

(图片说明:2010年,数据科学家Drew Conway发表了他认为的“数据科学技能韦恩图”,认为集合了黑客能力Hacking Skill、业务能力 Substantive Expertise和数理知识的Math & Statistics Knowledge的人才才是数据科学家。沈认为,在实际操作中,黑客能力更多的是工程能力;数理知识意味着知其然而知其所以然的理论能力。)

在大数据刚出现的时候,大家无法看清这个庞大复杂的新兴事物。就像美国心理学和行为经济学教授Dan Ariely当年描述的一样,大数据就像青少年的性行为:每个人都在谈论它,但是没有人真正知道那是什么,所以每个人都声称自己正在做这件事儿。

(图片说明:Dan Ariely教授2013年在脸书上讽刺社会对大数据的狂热追捧现象。)

沈志勇则认为,其实这件事儿远没有大家想的那么玄。“都说把数据比作工业的新石油,从事大数据其实就相当于在从事石油开采与冶炼行业。你要经历探矿(寻找并评估什么数据源有价值)——采油(数据的ETL、预处理)——冶炼(数据建模与分析)——加工(数据产品化、可视化)这一系列过程,最后把数据产品和服务交到用户手里,燃烧,产生能量,驱动业务。”

“但是油田在哪里呢?最后我发现,丰富的原生数据油田,主要在业界。”沈志勇说道。也正是意识到了这一点,博士毕业后他并没有选择留在学校科研院所,而是出走业界,做真正的“大数据”。

大数据预测,是玄学还是科学?

在与大数据的相关话题中,人们普遍最感兴趣的就是“预测”。我们大多相信,未来是难以把握的,但是一旦这种不确定性被大数据“确定”了下来,我们岂不是就能“人定胜天”了?

抱着对这种美好未来的期盼,大数据火了之后,也有越来越多的人们开始用它进行各种预测:大数据相亲、大数据求职、大数据买房等等,结果有好有坏,人人参差不齐。不久,相反的声音也开始出现:大数据预测就和算命没什么两样,说到底还是一个运气罢了。

“算命,其实是挺大数据的一件事儿”,沈志勇打趣说,“算命也是观察对象、寻找规律,不过大数据的逻辑要更复杂一些。”沈认为,毫无疑问,大数据预测完完全全是科学的范畴。

其实,我们一直都在进行各种预测:预测天气、预测股票等等,大数据预测与这些并没有什么本质不同。海量的数据资源让很多之前看似“无法被预测”的事情,也能够被预测出来,这就是大数据的力量。

沈志勇接着为DT君讲了一个2014年世界杯的预测案例。“足球是圆的”,体育比赛一直以来都以其“不可预测性”而著称。即使是最优秀的运动员,在瞬息万变的赛场上也很难说就一定会赢。“黑马”的频频出现是我们对体育赛事最津津乐道的话题之一。但在2014年世界杯比赛中,沈志勇和他的团队就试图用大数据来“预测”比赛结果。

包括高盛、微软、Google在内的众多公司当时都对比赛进行了基于大数据分析的预测,最终结果是:沈志勇他们团队的预测是最准确的。他们从淘汰赛开始,100%预测对了每一场比赛的结果。

(图片说明:2014年世界杯百度预测图片。)

“在这个预测中,我们使用了几百家家博彩公司的数据,这个数据源非常重要。”沈志勇笑说,在他们的预测模型中,负责模型设计的小伙伴考虑了球队攻击力,球队防守能力,比赛本身存在的偏置等因素,以此专门开发了一套 “攻防因子模型”算法刻画上述因素,对球队进行模拟比赛。“我们在电脑里进行了一万次世界杯,最终给出了这份预测。”

用大数据来影响体育比赛其实已经不是新鲜事儿了。地处美国硅谷的NBA球队金州勇士,在训练、战术、球员选拔等层面广泛地运用了大数据分析,甚至据此开发出了一套小球战术。在短时间内让球队从联盟吊车尾,跃升为总冠军,引领了整个联盟的篮球风潮。

(图片说明:覆盖NBA场馆的6台高速摄像机和背后的SportVU系统,能够每秒钟追踪25次球员和篮球的运动,记录下速度、距离、球员间隔和控球等数据,用于之后的体育分析,提升球队成绩。图片来源:视觉中国)

收集数据、分析、建模、模拟、总结,这是大数据时代的一种预测方法。

沈志勇认为,利用大数据进行预测的关键在于“采矿”和“冶炼”。“在海量的信息流里,究竟什么数据有用?怎样才能获取这些信息?获取后要如何加工处理?这是都是考验人类智慧的环节,这也是数据科学家这个角色的任务。”

在《黑镜》第四季第四集中,导演们设想了一个“相亲”的大数据系统。它会收集一个人的所有数据:包括你的喜好、性格等等,然后在虚拟空间里进行模拟配对。它能感受你的情感、体感,让这个“你”在系统中与其他用户模拟交往1000次,最后给出你的“完美伴侣”。这与沈志勇他们的世界杯预测逻辑如出一辙。

差别只在于,我们暂时还无法收集这么全面的数据罢了。

大数据让我们从海量信息中心寻找相关性变得可能。有些东西无法预测,可能只是因为我们没有收集到足够的数据支持。

不过沈志勇也强调,大数据远远不是万能的,完全随机的事件也是无法预测的。“就像彩票”,沈志勇笑道。

除此之外,他还领导团队做了景点人流量预测等很多其他预测性项目的建模工作,有些已经被政府等机构所采用,作为资源调度、人力分配等决策的重要参考依据。实实在在地改变了人们的生活。

搬运工的小目标:让数据“燃”起来

常年浸染在数据一线,让沈志勇始终走在大数据研发的最前沿。但他越来越发现:在互联网以外,还有好多领域和产业并没有充分利用大数据技术。在这一层面,大数据技术的发展与社会需求是脱节的。

“随着技术发展和媒体渲染报道,大数据一夜之间从‘专业技术’变成了‘显学’,引起越来越多人的讨论。但是当他们想用的时候却不知道该怎么用,如何用。于是人们由期望转为失望,开始说大数据都是忽悠。”沈志勇总结自己的经验认为,与其更追求高精尖的阳春白雪,不如让大数据技术落地到更多行业和领域中去,帮助它们实现转型升级。

大数据技术在互联网公司早已是基础技术。沈曾经负责过一段时间的音乐推荐系统。他用了三个月的时间,通过梳理用户数据,构造新的模型、微调模型参数等措施,在不增加任何外部成本的情况下,仅仅通过优化内部算法,就让产品的播放量达到了翻倍的效果,同时带来了大量的用户增长。这让他第一次尝到了从科研到实践“学以致用”的乐趣。紧接着他想,大数据技术的应用场景,应该不局限于互联网行业,应该让它在全行业都能运用起来。

现在,沈志勇更愿意把自己比喻成一个大数据技术的“搬运工”:“我从两个源头搬运东西:一个是学术领域、替他们找到真正适用的场景;另一个是从互联网领域,把从中孵化出来的大数据技术与资源,搬运到其他行业。”

从“探索者”到“搬运工”,对于沈志勇来说,其实也是一种“取舍”:他放弃了去攀登更高层数据科学的机会。“但是必须有人要做这件事儿”,沈志勇说。大数据初期由研究和技术人员主导、以技术为核心,容易造成场景与需求端的脱节。

“我想做这样一座桥梁:一头连接着技术,了解大数据技术是什么,能力的特点怎样、边界在哪里;另一头连接着行业,去了解行业痛点,抽象行业需求。基于对供需两侧的理解,做好顶层设计,让大数据技术真正赋能全行业,实现业务升级。”沈志勇说道。

在百度大数据实验室,沈志勇前后探索了大数据在近十个行业的应用思路与实践。“金融、医疗、零售还有智能制造等是我们当时投入最多的几个行业”沈志勇回忆道。

最近,行业关于“新零售”的讨论一直是行业热点。沈志勇和他的伙伴们早在15年初就开始了大数据技术在零售行业应用的探索。“零售大数据是我做过很有意思的项目,因为这个领域和我们的日常生活息息相关”沈志勇提到。在这个项目中,沈志勇的团队打通了线上的互联网数据和线下购物中心的零售数据,为线下的零售实体,一方面提供了个性化的营销手段——“个性化推荐原本是线上的电商的专属,我们的技术让线下零售实体也能为用户提供个性化的服务和折扣信息推送”,另一方面基于零售实体周边用户整体互联网行为的分析,为零售实体的招商、运营和选址等业务提供了大数据参考。

在医疗领域,大数据也同样受到了关注。沈志勇举了一个糖尿病研究中应用大数据的例子,糖尿病的成因有基因的也有生活习惯,医院可以测得前者,但在生活习惯的数据获取中,会受到很多主观因素的干扰而难以准确全面的获取。他们和相关领域的医学研究人员合作,以地域为结构,分析了饮食习惯和糖尿病发病之间的关系,取得了很多有益的结果。

问起沈志勇在行业大数据探索的第一个行业,“当然是金融了,离钱近,行业数据基础也好。”他笑着说,“我们曾经尝试将大数据技术在金融理财产品的营销、金融风控以及利用另类数据做量化投资等方向都做了积极的尝试”。

此外,沈志勇还提到了和小伙伴们,一起探索如何制造业、教育、旅游、文娱等多个领域,通过大数据技术,优化资源配置,降低损耗,提升业绩,让数据在这些行业,开采、冶炼出来,“燃”起来,驱动行业的转型升级。

关于AI:你应该担心,但也不要灰心

大数据和人工智能,一前一后成为社会热点,真有点“你未唱罢我登场”的感觉。随着各大互联网公司在人工智能领域的竞争开始进入白热化阶段,互联网以外的行业也纷纷加入战团。也有越来越多的人开始担心,人工智能将来会不会抢走自己的工作?

“你应该有危机感,需要担心人工智能会带给你很大的冲击。”沈志勇在谈到这个话题时,表情格外严肃。“但是你也不用太悲观,因为人工智能暂时不会真的这么做。”

在沈志勇看来,人工智能真正的价值在于四个方面。第一,改变了人机的交互方式(基于语音交互的智能家居等);第二,赋予机器类人的识别、判断力,让业务流程变得高效(车牌识别抓违章等);第三,让非结构化数据结构化,为大数据提供更多数据(图像、语音、自然文本的理解等);第四,提供人力资源供给侧不足时的辅助与补充(医疗、教育、法律、金融等专业领域的机器人辅助等)。

关于第四点沈志勇认为,在未来,人工智能不会去“抢”工作,而是首先去“辅助”工作。在他看来,当今社会,人类依然还被看病难、打官司贵、教育资源匮乏等问题所困扰,这些本质上是医疗、法律、教育等领域人力供给侧资源的稀缺。在这些高度专业化领域,往往需要社会付出大量的时间去培养一个相关人才。比如在现代医疗体系中,一个合格的医生通常需要5-10年的学习时间才能走进病房。人才培养周期实在太过漫长。

(图片说明:医疗行业已经开始运用一些人工智能产品,辅助医生进行决策。一些图像视频技术已经可以帮助医生处理大量的X光片诊断处理。图片来源:视觉中国)

人工智能会首先进入这些行业,一方面辅助现有专业人员提高效率,另一方面帮助新从业者降低职业门槛。而说服医院等其他行业的人们,拥抱大数据和人工智能的价值,就是沈志勇现在每天在做的事情。

聊到最后,DT君问沈志勇,做一个大数据技术的“搬运工”,是否意味着放弃探索“更高更强”的人工智能?会有遗憾吗?

“其实,在读博士时候,我的导师正是研究人工智能的学者。当年正赶上人工智能的第二次衰落,导师跟我说,这个研究方向现在不好发paper(论文)啊。还有一个方向叫数据挖掘,这个领域非常有前途,不如你考虑一下?”于是,沈志勇就这样与大数据结下了缘分。十几年过去了,他对大数据的考虑愈发成熟,对行业的看法也更加深入。

沈志勇现在认为,大数据和人工智能并不对立:“我个人投入更多的是数据驱动的智能。各个行业在完成信息化的进程中,紧接而来的是高效的运用随之而来的数据的价值,让产业变得更加“智能”。”

如今,他更加相信数据驱动才是普世的方法论。“信息化带来数据,互联带来数据的反馈闭环,反馈闭环带来产品和服务的高效的优化迭代。同时基于历史数据中的经验规律,做资源的优选和撮合,达到资源的优化配置。这是最核心的行业需求。”

这位大数据的“搬运工”,硬气地表示,要让数据真正“燃”烧起来。

沈志勇博士,百度云首席数据科学家。曾任百度研究院大数据实验室高级数据科学家。在进入百度之前,任惠普中国研究院研究员。本科毕业于北大数学学院概率统计专业,随后于中科院软件所获得计算机博士学位。

他是大数据分析技术国家工程实验室学术委员会成员,大数据流通与交易技术国家工程实验室专家委员,苏州市人工智能学会副理事长。他还是中国大数据产业生态联盟,中国云服务联盟,中国商业联合会数据分析专委会,中国医药教育协会基层医药教育专委会,中国人才大数据联盟专委会等机构的专家委员。

注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
期待你一针见血的评论,Come on!

不用想啦,马上 "登录"  发表自已的想法.