大数据技术发展
▶1.大数据时代
美国互联网数据中心指出,互联网上的数据每年增长50%,每两年翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,这些数据并非单纯是人们在互联网上发布的信息,85%的数据由传感器和计算机设备自动生成。全世界的各种工业设备、汽车、摄像头,以及无数的数码传感器,随时都在测量和传递着有关信息,这导致了海量数据的产生。例如,一个计算不同地点车辆流量的交通遥测应用,就会产生大量的数据。
▶2.大数据的特点
大数据是一个体量规模巨大,数据类别特别多的数据集,并且无法通过目前主流软件工具,在合理时间内达到提取、管理、处理、并整理成为有用的信息。
大数据具有4V的特点,一是数据体量大(Volumes),一般在TB级别;二是数据类型多(Variety),由于数据来自多种数据源,因此数据类型和格式非常丰富,有结构化数据(如文字、计算数据等),半结构化数据(如报表、层次树等),以及非结构化数据(如图片、视频、音频、地理位置信息等);三是数据处理速度快(Velocity),在数据量非常庞大的情况下,需要做到数据的实时处理;四是数据的真实性高(Veracity),如互联网中网页访问、现场监控信息、环境监测信息、电子交易数据等。
大数据并不在于“大”,而在于“有用”。大数据能告诉我们客户的消费倾向,他们喜欢什么,每个人的需求有哪些区别,哪些需求可以集合在一起进行分类等。大数据是数据数量上的增加,是一个从量变到质变的过程。例如,一个人在骑马,我们每隔一分钟拍一张照片,只能看到这个人不同骑马姿态的照片。随着照相机处理速度越来越快,1min可以拍30张照片时,就产生了电影。当数量的增长实现了质变时,就从照片变成了一部电影。
▶3.大数据处理技术
大数据处理的结果往往采用可视化图形表示,基本原则是:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法很多,主要处理流程是数据采集、数据导入和预处理、数据统计和分析、数据挖掘。
1)大数据采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器等)的数据。大数据采集的特点是并发数高,因为可能会有成千上万的用户同时进行访问和操作。例如火车票售票网站和淘宝网站,它们并发访问量在峰值时达到了上百万,所以需要在采集端部署大量数据库才能支持数据采集工作,这些数据库之间如何进行负载均衡也需要深入思考和仔细设计。
2)大数据导入/预处理
要对采集的海量数据进行有效的分析,还应该将这些来自前端的数据导入一个集中的大型分布式数据库中,并且在导入基础上做一些简单的数据清洗和预处理工作。导入与预处理过程的特点是数据量大,每秒钟的导入量经常会达到百兆,甚至千兆。可以利用数据提取、转换和加载工具将分布的、异构的数据(如关系数据、图形数据等)抽取到临时中间层后进行清洗、转换、集成,最后导人数据库中。
3)大数据统计分析
统计与分析主要是对存储的海量数据进行普通的分析和分类汇总,常用的统计分析有假设检验、显著性检验、差异分析、相关分析、方差分析、回归分析、曲线估计、因子分析、聚类分析、判别分析等技术。统计与分析的特点是涉及的数据量大,对系统资源,特别是I/O设备会有极大的占用。
4)数据挖掘
大数据只有通过数据分析才能获取很多深入的、有价值的信息。大数据分析最基本的要求是可视化分析,因为可视化分析能够直观的呈现大数据的特点,同时能够非常容易被读者接受。数据挖掘主要是在大数据基础上进行各种算法的计算,从而起到预测的效果。数据挖掘的方法有分类、估计、预测、相关性分析、聚类、描述和可视化等,复杂数据类型挖掘(如Web、图像、视频、音频等)等。这个过程的特点是:如果数据挖掘算法很复杂,涉及的数据量和计算量就会很大,常用数据挖掘算法都以多线程为主。
4.大数据应用案例
谷歌搜索、Facebook的帖子和微博消息,使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,可以从凌乱纷繁的数据背后,找到更符合用户兴趣和习惯的产品和服务,并对这些产品和服务进行针对性的调整和优化,这就是大数据的价值。