大数据与互联网的结合
大数据与互联网的结合
- 一、互联网产业的需求
- 二、大数据平台架构
- 三、大数据应用--数据分析
- 四、数据分析案例
一、互联网产业的需求
1、分布式系统执行任务瓶颈:延迟高。MapReduce:几分钟,Spark:几秒钟。
2、互联网产品要求:毫秒级响应(1秒以内完成);需要通过大数据实现统计分析、数据挖掘、关联推荐、用户画像。
3、大数据平台:整合网站应用和大数据系统之间的差异,将应用产生的数据导入到大数据系统,经过处理计算后再导出给应用程序使用。
二、大数据平台架构
1、数据采集
1)App/Web产生的数据&日志同步到大数据系统
2)数据库同步:Sqoop,日志同步:Flume,打点:Kafka
3)不同数据源产生的数据质量可能差别很大,数据库,也许可以直接用;日志、爬虫,大量的清洗,转化处理。
2、数据处理
1)大数据存储与计算的核心
2)数据同步后导入HDFS
3)MapReduce、Hive、Spark,读取数据进行计算,结果再保存到HDFS。
4)MapReduce、Hive、Spark,离线计算,HDFS离线存储。
离线计算:通常针对(某一类别)全体数据,比如:历史上所有订单。离线计算特点:数据规模大,运行时间长。
流式计算:淘宝双11每秒产生订单数,监控宣传。Storm(毫秒),SparkStreaming(秒)。
3、数据输出与展示
1)HDFS需要把数据导出交给应用程序,让用户实时展示(ECharts)淘宝卖家量子魔方。
2)给运营和决策层提供各种统计报告,数据需要写入数据库。
4、任务调度系统:
将上面三个部分整合起来
三、大数据应用–数据分析
1、通过数据分析指标监控企业运营状态,及时调整运营和产品策略,是大数据技术的关键价值之一。
2、大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的。统计指标,关联分析,汇总报告。
3、运营数据是公司管理的基础:了解公司目前发展的状况,数据驱动运营: 调节指标对公司进行管理。
4、运营数据的获取需要大数据平台的支持。埋点采集数据;数据库、日志、三方采集数据;对数据清洗、转换、存储;利用SQL进行数据统计、汇总、分析;得到需要的运营数据报告。
5、运营常用数据指标
1)新增用户数:UG,user growth,用户增长,产品增长性的关键指标,新增访问网站(新下载APP)的用户数。
2)用户留存率:用户留存率=留存用户数/当期新增用户数,3日留,5日留存,7日留存。
3)活跃用户数:打开使用产品的用户、日活(知乎:几十万,微信、微博:一亿)、月活、提升活跃是网站运营的重要目标。
4)PV:Page View,打开产品就算活跃,打开以后是否频繁操作就用PV衡量,每次点击,页面跳转都记一次PV。
5)GMV:成交总金额(Gross Merchandise Volume)电商网站统计营业额, 反应网站应收能力的重要指标。GMV相关的指标:订单量、客单价。
6)转化率:转化率=有购买行为的用户数/总访问用户数。
四、数据分析案例
背景:某电商网站,垂直领域领头羊,各项指标相对稳定。
运营人员发现从8月15日开始,网站的订单量连续四天明显下跌,8月18号早晨发现8月17号的订单量没有恢复正常,运营人员开始尝试寻找原因:是否有负面报道被扩散、是否竞争对手在做活动、是否某类商品缺货、价格异常。没有找到原因,将问题交给数据分析团队。
数据分析师分析可能性:新增用户出现问题,查看日活数据,发现日活没有明显下降:
基本判断,用户在访问网站的过程中,转化出了问题。
转化过程:打开APP;搜索关键词,浏览搜索结果列表;点击商品访问详情;有购买意向开始咨询;放入购物车;支付。
网站的转化漏斗如下。
如果定义打开 App 为活跃,那么网站的整体转化就是活跃到订单的转化,公式为:
订单活跃转化率 = 日订单量 / 打开用户数
显然从 15 号开始,这个转化率开始下降,但转化过程有多个环节,那么具体是哪个环节出了问题呢?数据分析师对转化过程每个环节计算转化率。例如:
搜索打开转化率 = 搜索用户数 / 打开用户数
以此类推,每个环节都可以计算其转化率,将这些转化率的近期历史数据绘制在一张折线图上,就可以看到各个环节转化率的同期对比视图。
有明显降幅的是咨询详情转化率,对咨询信息分类统计后发现,新用户的咨询量几乎为0。数据分析师自己注册了一个新用户然后发起咨询,没有得到回复。查询后台,发现咨询信息没有到达客服。
于是将问题提交给技术部门调查,工程师查看8月15日当天发布记录,发现有消息队列SDK更新。而咨询信息是通过消息队列发给客服的。进一步调查发现是程序 bug,新用户信息构建不完整,导致消息发送异常。最后紧急修复 bug 发布上线,第二天订单量恢复正常。