当前位置: 首页 > article >正文

电子科大2024秋《大数据分析与智能计算》真题回忆

考试日期:2025-01-08

课程:成电信软学院-大数据分析与智能计算

形式:开卷

考试回忆版

简答题(4*15)

1. 简述大数据的四个特征。分析每个特征所带来的问题和可能的解决方案

2. HDFS的架构的主要组件有哪些,说明各组件作用。简述HDFS副本设置的策略

3. 决策树的原理和过程。比较节点分裂时信息增益、增益率、Gini指标三种度量的特征特点。

课后习题真题6.1

4. Storm的可靠性要求发出的每一个tuple以及由这个tuple所产生的后续子tuples都被成功处理,这依靠的是Storm的acker机制。根据下图说明这个机制。其中,①Spout读入数据后生成2个tuples(msgId分别为1001和1010)②tuple1001流入Bolt1,处理完后产生新tuple 1110;tuple 1010流入Bolt2,处理后产生新tuple 1111的Ack③tuples 1110和1111流向Bolt3,处理后不再有新tuple产生

2021级PPT 17.3.4的下面的备注页原题

课后习题 15.5 改编

分析题(2*20)

1.分布式文档数据库(共20分)

某机构采用倒排索引构造分布式搜索引擎,文档为(回忆、仅供参考):

docID文档内容
73春天是万物复苏的季节
245夏天人们享受着海浪
270秋天的森林里学生在活动
300冬天适合滑雪
....
....
.....

(1)8分:倒排索引和HBASE的二级索引有什么相似的地方?这种索引方式有什么优缺点?

(2)2分:分布式文档数据库中为什么需要建立词典索引Term Index?

(3)6分:根据题目的文档,填表构建倒排文件。表中TF是某个单词在几个文档出现,DocID是单词出现在哪些文档用逗号分割

ID单词TF

倒排列表(DocID)

1季节773.270,....
2春天
3夏天
4冬天
5...
6....

(4) 4分:在上述词典索引term index、单词词典term dictionary、倒排文件invert file中要检索同时包含三个关键词<季节、活动、滑雪>的文档,请你提出一种高效的检索方法。

参考:类似于mapreduce的分而治之思想,三个线程并行查季节、活动、滑雪的文档,然后reduce取交集

2. 自然划分3-4-5规则(共20分)

自然划分分段方法很重要,请说明什么是自然划分的3-4-5规则(4分)。另外,假设一个公司的产品利润区间从[-351,4700],其中5%到95%的区间是[-159,1838],使用3-4-5规则构造一个概念层级数,划出的最小区间大于等于100(16分)

答案可参考下图PPT,为2020级的PPT,2021级把这个PPT删了

一些资料

打印

PPT浓缩版:待传

课后习题答案:待传

实验参考:待传

【参考】2020级PPT、实验等内容:百度网盘(密码2233)(来自神迹小卒学长~)

历年题目

2023秋:https://blog.csdn.net/aiqq136/article/details/135370653

2022秋:


http://www.kler.cn/a/512106.html

相关文章:

  • 3D 模型格式转换之 STP 转 STL 深度解析
  • CSS实现实现票据效果 mask与切图方式
  • oneplus3t-lineageos-16.1编译-android9,
  • 编辑器Vim基本模式和指令 --【Linux基础开发工具】
  • wps数据分析000002
  • 医院挂号就诊系统设计与实现(代码+数据库+LW)
  • mysql的mvcc
  • 详解共享WiFi小程序怎么弄!
  • RFID系统安全认证协议及防碰撞算法研究(RFID Security)
  • Linux 存储设备和 Ventoy 启动盘制作指南
  • Linux C\C++方式下的文件I/O编程
  • Oracle 创建并使用外部表
  • JavaWeb项目——如何处理管理员登录和退出——笔记
  • Windows图形界面(GUI)-QT-C/C++ - Qt List Widget详解与应用
  • AUTOSAR从入门到精通-自动驾驶测试技术(二)
  • CSS 合法颜色值
  • 风吹字符起,诗意Linux:一场指令与自由的浪漫邂逅(上)
  • 25春秋杯wp
  • Unity Shader学习日记 part5 CG基础
  • 02_登录窗口
  • leetcode 62. 不同路径
  • CentOS 7中 分区工具fdisk的常用命令【解释来自gpt】
  • PHP For 循环
  • 【RabbitMQ】rabbitmq广播模式的使用
  • Ubuntu 完整卸载 WPS Office (deb包安装版)
  • 【C++篇】红黑树封装 实现map和set