当前位置: 首页 > article >正文

大数据与互联网的结合

大数据与互联网的结合

  • 一、互联网产业的需求
  • 二、大数据平台架构
  • 三、大数据应用--数据分析
  • 四、数据分析案例

一、互联网产业的需求

1、分布式系统执行任务瓶颈:延迟高。MapReduce:几分钟,Spark:几秒钟。

2、互联网产品要求:毫秒级响应(1秒以内完成);需要通过大数据实现统计分析、数据挖掘、关联推荐、用户画像。

3、大数据平台:整合网站应用和大数据系统之间的差异,将应用产生的数据导入到大数据系统,经过处理计算后再导出给应用程序使用。

二、大数据平台架构

在这里插入图片描述
1、数据采集
1)App/Web产生的数据&日志同步到大数据系统
2)数据库同步:Sqoop,日志同步:Flume,打点:Kafka
3)不同数据源产生的数据质量可能差别很大,数据库,也许可以直接用;日志、爬虫,大量的清洗,转化处理。

2、数据处理
1)大数据存储与计算的核心
2)数据同步后导入HDFS
3)MapReduce、Hive、Spark,读取数据进行计算,结果再保存到HDFS。
4)MapReduce、Hive、Spark,离线计算,HDFS离线存储。
离线计算:通常针对(某一类别)全体数据,比如:历史上所有订单。离线计算特点:数据规模大,运行时间长。
流式计算:淘宝双11每秒产生订单数,监控宣传。Storm(毫秒),SparkStreaming(秒)。

3、数据输出与展示
1)HDFS需要把数据导出交给应用程序,让用户实时展示(ECharts)淘宝卖家量子魔方。
2)给运营和决策层提供各种统计报告,数据需要写入数据库。

4、任务调度系统:
将上面三个部分整合起来

三、大数据应用–数据分析

1、通过数据分析指标监控企业运营状态,及时调整运营和产品策略,是大数据技术的关键价值之一。

2、大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的。统计指标,关联分析,汇总报告。

3、运营数据是公司管理的基础:了解公司目前发展的状况,数据驱动运营: 调节指标对公司进行管理。

4、运营数据的获取需要大数据平台的支持。埋点采集数据;数据库、日志、三方采集数据;对数据清洗、转换、存储;利用SQL进行数据统计、汇总、分析;得到需要的运营数据报告。

5、运营常用数据指标
1)新增用户数:UG,user growth,用户增长,产品增长性的关键指标,新增访问网站(新下载APP)的用户数。
2)用户留存率:用户留存率=留存用户数/当期新增用户数,3日留,5日留存,7日留存。
3)活跃用户数:打开使用产品的用户、日活(知乎:几十万,微信、微博:一亿)、月活、提升活跃是网站运营的重要目标。
4)PV:Page View,打开产品就算活跃,打开以后是否频繁操作就用PV衡量,每次点击,页面跳转都记一次PV。
5)GMV:成交总金额(Gross Merchandise Volume)电商网站统计营业额, 反应网站应收能力的重要指标。GMV相关的指标:订单量、客单价。
6)转化率:转化率=有购买行为的用户数/总访问用户数。

四、数据分析案例

背景:某电商网站,垂直领域领头羊,各项指标相对稳定。

在这里插入图片描述

运营人员发现从8月15日开始,网站的订单量连续四天明显下跌,8月18号早晨发现8月17号的订单量没有恢复正常,运营人员开始尝试寻找原因:是否有负面报道被扩散、是否竞争对手在做活动、是否某类商品缺货、价格异常。没有找到原因,将问题交给数据分析团队。

数据分析师分析可能性:新增用户出现问题,查看日活数据,发现日活没有明显下降:

在这里插入图片描述

基本判断,用户在访问网站的过程中,转化出了问题。

转化过程:打开APP;搜索关键词,浏览搜索结果列表;点击商品访问详情;有购买意向开始咨询;放入购物车;支付。

网站的转化漏斗如下。

在这里插入图片描述

如果定义打开 App 为活跃,那么网站的整体转化就是活跃到订单的转化,公式为:
订单活跃转化率 = 日订单量 / 打开用户数

显然从 15 号开始,这个转化率开始下降,但转化过程有多个环节,那么具体是哪个环节出了问题呢?数据分析师对转化过程每个环节计算转化率。例如:

搜索打开转化率 = 搜索用户数 / 打开用户数

以此类推,每个环节都可以计算其转化率,将这些转化率的近期历史数据绘制在一张折线图上,就可以看到各个环节转化率的同期对比视图。

在这里插入图片描述

有明显降幅的是咨询详情转化率,对咨询信息分类统计后发现,新用户的咨询量几乎为0。数据分析师自己注册了一个新用户然后发起咨询,没有得到回复。查询后台,发现咨询信息没有到达客服。

于是将问题提交给技术部门调查,工程师查看8月15日当天发布记录,发现有消息队列SDK更新。而咨询信息是通过消息队列发给客服的。进一步调查发现是程序 bug,新用户信息构建不完整,导致消息发送异常。最后紧急修复 bug 发布上线,第二天订单量恢复正常。


http://www.kler.cn/a/7283.html

相关文章:

  • ES6标准-Promise对象
  • 【操作系统实验课】Makefile与编译
  • 大数据-226 离线数仓 - Flume 优化配置 自定义拦截器 拦截原理 了 拦截器实现 Java
  • vue+svg圆形进度条组件
  • 动态规划-完全背包问题——518.零钱兑换II
  • npm install命令报错:npm ERR Could not resolve dependency npm ERR peer…
  • 复旦微ZYNQ7020全国产替代方案设计
  • 10道关于垒球规则的判断题·你答对了多少
  • 形式语言总结
  • Vue中的slot插槽
  • 管理科学与工程案例分析:企业战略管理
  • 【 第六章 拦截器,注解配置springMVC,springMVC执行流程】
  • 高级威胁的攻击和防护A P T
  • Java基础——Set集合实现类
  • 50家公司Java,C++招聘要求
  • Redis学习
  • Office 2016安装包与教程
  • 敏捷工具.敏捷项目的可视化
  • STC的官网,是我永远忘不掉的炼丹炉
  • 反应持续时间:一种灵活、免费的心理科学工具
  • Git知识点及常用命令介绍—2023.04
  • MySQL基础-变量/流程控制/游标/触发器
  • 【深度学习】P1 神经网络、监督学习与深度学习、深度学习的驱动力量
  • Linux-简易shell
  • Linux的基本命令
  • 【chartGPT】我们要不要搞chartGPT?