揭秘大数据 | 13、大数据的五大问题 之 数据科学
在前两篇,老夫连续讲了大数据的存储、大数据管理和分析,今天我们接着聊数据科学这点儿事。
数据科学作为一门学科最早是由丹麦科学家彼得·诺尔(Peter Naur)在1974年发表的一篇关于数据处理方法的调研文章中提出的。彼得·诺尔最出名的成果是创造了巴克斯−诺尔范式(Backus-Naur Form,BNF)。

时间推进到1997年,美国著名华人统计学家吴建福(C.F. Jeff Wu)[插图]直接提出了统计学=数据科学的概念,他准确地定义了统计(即数据科学)工作的“三部曲”:
即数据收集
数据建模与分析
决策制订

2008年,当时还在领英(LinkedIn)公司的DJ Patil(后来成为美国第一任首席数据科学家)和Facebook公司的Jeff Hammerbacher(后来成为大数据公司Cloudera的联合创始人)率先把他们的工作职能定义为数据科学家。互联网公司是如此长于公共关系宣传,以至于大家提到数据科学与数据科学家的时候都说这两位是开山鼻祖。殊不知,先贤们早已低调地走过命名、定义与本质剖析这段路了。
今儿老夫就介绍一下数据科学这门随着云计算与大数据的蓬勃发展而日新月异的学科,以及在数据科学中扮演执剑人角色的数据科学家。
(1)数据科学
提及数据科学或统计学、大数据分析,人们难免会联想到商业智能或数据仓库,因此我们有必要对它们之间的异同做简明扼要的分析。商业智能使用统一的衡量标准来评估企业的过往绩效指标,并用于帮助制订后续的业务规划。商业智能的组件及功能如下:
①建立关键绩效指标(Key Performance Index,KPI)。
②多维数据的汇聚、去正则化、标记、标准化等。
③实时汇报、报警等。
④以处理结构化、简单数据集为主。
⑤统计学分析与概率模型模拟。
商业智能通常会在底层依赖某种数据处理(如ETL)架构,例如数据仓库……随着大数据技术的发展,商业智能系统正在越来越多地拥抱诸如内存计算[如基于内存的数据网格(in Memory Data Grid,IMDG)数据库技术、Spark]、实时计算、面向服务的基础架构(SOA、微服务架构),乃至开源商业智能解决方案等新事务。
数据科学可以理解为预测分析+数据挖掘。它们结合了统计分析、模式识别、机器学习、深度学习等技术,获取数据中的信息,形成推断及洞察力,所采用的相关方法包括回归分析、关联规则(如购物篮分析)、优化技术和仿真(如用于构建场景结果的蒙特卡洛仿真)。在现有商业智能系统基础之上,数据科学又为其增添了如下组件与功能。
①优化模型、预测模型、预报、统计分析模型等。
②结构化/非结构化数据、多种类型数据源、超大数据集。
图3描述了数据科学的典型流程,涉及原始数据的采集、清洗、基于规则或模型的数据处理与分析、建模+算法、汇总+可视化、决策、大数据产品(可选)等多个环节。需要指出的是,该流程亦可根据业务需要增加从决策到建模+算法到数据处理的反馈通道。

数据科学的发展从分析复杂度与分析价值两个维度来看,可分为5个阶段(见图4)、3种境界。这3种境界分别是:
①后知后觉——典型的如传统的商业智能、滞后时延分析;
②因地制宜——典型的如实时分析;
③未卜先知——典型的如预测分析。
图4所示的5个阶段与3种境界匹配关系如下:

•后知后觉——描述性+诊断性。
•因地制宜——描述性+诊断性+(部分)预测性+指示性。
•未卜先知——预测性+指示性+抢先式(基于预测的行动指南)。
这5个阶段自上而下实现起来的复杂度越来越高,但是所带来的价值越来越大,这也是为什么越来越多的企业、政府机构要把数据科学驱动的大数据分析引入并应用到商业智能、智慧城市等领域中。
(2)数据科学家
数据科学家是在大数据生态体系建立的过程中催生出来的复合型人才。
大数据处理与分析项目中通常需要如行业专家、数据分析专家、建模工程师、大数据系统专家等多种角色。我们可以把数据科学家应具备的常用知识与技能总结为图3所示的图形。

数据科学家结合了多种之前被分离的知识与技能于一身。
①数理统计知识:能够以数学、统计学模型、算法(如机器学习、深度学习等领域的算法)等来抽象业务需求与挑战。
②编程与架构设计的能力:能够将数学模型转换为可运行在大数据处理平台上的代码,还能设计、实现和部署统计模型和数据挖掘方法。
③行业经验:只有对垂直领域有了深刻理解,才能保证大数据应用沿着正确的方向发展。数据科学家正是位于图3中的三圆交汇之处,集以上知识与技能于一身的复合型人才。
数据科学家正是位于图3中的三圆交汇之处,集以上知识与技能于一身的复合型人才。
数据科学是一个热门的领域,而数据科学家是拥有特殊技能的专业人才,负责为复杂的业务建模,从海量数据中洞察先知并找到新的商业机遇。对于这种能够从海量数据中提取出有用信息,再从有用信息中提炼出具有高度概括性与指导意义的知识、智慧甚至转变为可以自动化智能(如人工智能)的人才,市场会在相当长的一段时间内对其备加青睐——如果非要为这段时间加个期限,也许是整个21世纪。
(文/Ricky - HPC高性能计算与存储专家、大数据专家、数据库专家及学者)
· END ·