当前位置: 首页 > article >正文

揭秘大数据 | 13、大数据的五大问题 之 数据科学

在前两篇,老夫连续讲了大数据的存储大数据管理和分析,今天我们接着聊数据科学这点儿事。

数据科学作为一门学科最早是由丹麦科学家彼得·诺尔(Peter Naur)在1974年发表的一篇关于数据处理方法的调研文章中提出的。彼得·诺尔最出名的成果是创造了巴克斯−诺尔范式(Backus-Naur Form,BNF)。

图1:丹麦科学家Peter Naur ,Naur最出名的是创造了Backus-Naur Form,巴克斯-诺尔范式,即BNF,由Naur在1960年引入形式化符号来描述ALGOL编程语言的语法,随后几乎所有的计算机编程语言都沿用BNF范式。

 时间推进到1997年,美国著名华人统计学家吴建福(C.F. Jeff Wu)[插图]直接提出了统计学=数据科学的概念,他准确地定义了统计(即数据科学)工作的“三部曲”​:

即数据收集

数据建模与分析

决策制订

图2:美国著名华人统计学家吴建福(C.F. Jeff Wu),最早成名于1983年对最大预期即EM算法中的收敛性分析的修正。EM算法被广泛应用在机器学习中的数据分类、计算机视觉、自然语言处理、医疗图像重建等领域。


2008年,当时还在领英(LinkedIn)公司的DJ Patil(后来成为美国第一任首席数据科学家)和Facebook公司的Jeff Hammerbacher(后来成为大数据公司Cloudera的联合创始人)率先把他们的工作职能定义为数据科学家。互联网公司是如此长于公共关系宣传,以至于大家提到数据科学与数据科学家的时候都说这两位是开山鼻祖。殊不知,先贤们早已低调地走过命名、定义与本质剖析这段路了。

今儿老夫就介绍一下数据科学这门随着云计算与大数据的蓬勃发展而日新月异的学科,以及在数据科学中扮演执剑人角色的数据科学家。

(1)数据科学

提及数据科学或统计学、大数据分析,人们难免会联想到商业智能或数据仓库,因此我们有必要对它们之间的异同做简明扼要的分析。商业智能使用统一的衡量标准来评估企业的过往绩效指标,并用于帮助制订后续的业务规划。商业智能的组件及功能如下:

①建立关键绩效指标(Key Performance Index,KPI)。

②多维数据的汇聚、去正则化、标记、标准化等。

③实时汇报、报警等。

④以处理结构化、简单数据集为主。

⑤统计学分析与概率模型模拟。

商业智能通常会在底层依赖某种数据处理(如ETL)架构,例如数据仓库……随着大数据技术的发展,商业智能系统正在越来越多地拥抱诸如内存计算[如基于内存的数据网格(in Memory Data Grid,IMDG)数据库技术、Spark]​、实时计算、面向服务的基础架构(SOA、微服务架构)​,乃至开源商业智能解决方案等新事务。

数据科学可以理解为预测分析+数据挖掘。它们结合了统计分析、模式识别、机器学习、深度学习等技术,获取数据中的信息,形成推断及洞察力,所采用的相关方法包括回归分析、关联规则(如购物篮分析)​、优化技术和仿真(如用于构建场景结果的蒙特卡洛仿真)​。在现有商业智能系统基础之上,数据科学又为其增添了如下组件与功能。

①优化模型、预测模型、预报、统计分析模型等。

②结构化/非结构化数据、多种类型数据源、超大数据集。

图3描述了数据科学的典型流程,涉及原始数据的采集、清洗、基于规则或模型的数据处理与分析、建模+算法、汇总+可视化、决策、大数据产品(可选)等多个环节。需要指出的是,该流程亦可根据业务需要增加从决策到建模+算法到数据处理的反馈通道。

图3:数据科学的典型流程

数据科学的发展从分析复杂度与分析价值两个维度来看,可分为5个阶段(见图4)​、3种境界。这3种境界分别是:
①后知后觉——典型的如传统的商业智能、滞后时延分析;
②因地制宜——典型的如实时分析;
③未卜先知——典型的如预测分析。
图4所示的5个阶段与3种境界匹配关系如下:

图4:大数据科学从后知后觉→因地制宜→未卜先知

•后知后觉——描述性+诊断性。

•因地制宜——描述性+诊断性+(部分)预测性+指示性。

•未卜先知——预测性+指示性+抢先式(基于预测的行动指南)​。

这5个阶段自上而下实现起来的复杂度越来越高,但是所带来的价值越来越大,这也是为什么越来越多的企业、政府机构要把数据科学驱动的大数据分析引入并应用到商业智能、智慧城市等领域中。

(2)数据科学家

数据科学家是在大数据生态体系建立的过程中催生出来的复合型人才。

大数据处理与分析项目中通常需要如行业专家、数据分析专家、建模工程师、大数据系统专家等多种角色。我们可以把数据科学家应具备的常用知识与技能总结为图3所示的图形。

图3:数据科学家应具备的常用知识与技能

数据科学家结合了多种之前被分离的知识与技能于一身。

①数理统计知识:能够以数学、统计学模型、算法(如机器学习、深度学习等领域的算法)等来抽象业务需求与挑战。

②编程与架构设计的能力:能够将数学模型转换为可运行在大数据处理平台上的代码,还能设计、实现和部署统计模型和数据挖掘方法。

③行业经验:只有对垂直领域有了深刻理解,才能保证大数据应用沿着正确的方向发展。数据科学家正是位于图3中的三圆交汇之处,集以上知识与技能于一身的复合型人才。

数据科学家正是位于图3中的三圆交汇之处,集以上知识与技能于一身的复合型人才。

数据科学是一个热门的领域,而数据科学家是拥有特殊技能的专业人才,负责为复杂的业务建模,从海量数据中洞察先知并找到新的商业机遇。对于这种能够从海量数据中提取出有用信息,再从有用信息中提炼出具有高度概括性与指导意义的知识、智慧甚至转变为可以自动化智能(如人工智能)的人才,市场会在相当长的一段时间内对其备加青睐——如果非要为这段时间加个期限,也许是整个21世纪。

(文/Ricky - HPC高性能计算与存储专家、大数据专家、数据库专家及学者)

· END ·


http://www.kler.cn/a/613923.html

相关文章:

  • Python实现图片文字识别-OCR
  • cJSON- API 深度解析:设计理念与实现原理(二)
  • 前端 Overflow hidden与auto切换时页面右移的问题解决 Antd Drawer打开关闭时位置偏移的问题的解决
  • 【微服务架构】本地负载均衡的实现(基于权重算法)
  • Css环形旋转立体感动画
  • iOS自定义collection view的page size(width/height)分页效果
  • 软件需求未明确非功能性指标(如并发量)的后果
  • Docker 部署 Redis 集群学习记录
  • 26考研——树与二叉树_树、森林(5)
  • 怎么解决父元素高度塌陷
  • 从零到一:ESP32与豆包大模型的RTC连续对话实现指南
  • Java 开发中的 AI 黑科技:如何用 AI 工具自动生成 Spring Boot 项目脚手架?
  • scikit-learn 线性回归:函数、原理、优化与实例解析
  • 第三代互联网 互联网发展的全新范式
  • DeepFlow助力精准定位APISIX故障,消除诊断方向偏差
  • 第21周:RestNet-50算法实践
  • 【Java SE】包装类 Byte、Short、Integer、Long、Character、Float、Double、Boolean
  • 将 Markdown 表格结构转换为Excel 文件
  • PPT制作,分享下2025年国内外做PPT的AI工具,一健生成PPT
  • 【linux】文件与目录命令 - rev