电子科大2024秋《大数据分析与智能计算》真题回忆
考试日期:2025-01-08
课程:成电信软学院-大数据分析与智能计算
形式:开卷
考试回忆版
简答题(4*15)
1. 简述大数据的四个特征。分析每个特征所带来的问题和可能的解决方案
2. HDFS的架构的主要组件有哪些,说明各组件作用。简述HDFS副本设置的策略
3. 决策树的原理和过程。比较节点分裂时信息增益、增益率、Gini指标三种度量的特征特点。
课后习题真题6.1
4. Storm的可靠性要求发出的每一个tuple以及由这个tuple所产生的后续子tuples都被成功处理,这依靠的是Storm的acker机制。根据下图说明这个机制。其中,①Spout读入数据后生成2个tuples(msgId分别为1001和1010)②tuple1001流入Bolt1,处理完后产生新tuple 1110;tuple 1010流入Bolt2,处理后产生新tuple 1111的Ack③tuples 1110和1111流向Bolt3,处理后不再有新tuple产生
2021级PPT 17.3.4的下面的备注页原题
课后习题 15.5 改编
分析题(2*20)
1.分布式文档数据库(共20分)
某机构采用倒排索引构造分布式搜索引擎,文档为(回忆、仅供参考):
docID | 文档内容 |
73 | 春天是万物复苏的季节 |
245 | 夏天人们享受着海浪 |
270 | 秋天的森林里学生在活动 |
300 | 冬天适合滑雪 |
.... | |
.... | |
..... |
(1)8分:倒排索引和HBASE的二级索引有什么相似的地方?这种索引方式有什么优缺点?
(2)2分:分布式文档数据库中为什么需要建立词典索引Term Index?
(3)6分:根据题目的文档,填表构建倒排文件。表中TF是某个单词在几个文档出现,DocID是单词出现在哪些文档用逗号分割
ID | 单词 | TF | 倒排列表(DocID) |
1 | 季节 | 7 | 73.270,.... |
2 | 春天 | ||
3 | 夏天 | ||
4 | 冬天 | ||
5 | ... | ||
6 | .... |
(4) 4分:在上述词典索引term index、单词词典term dictionary、倒排文件invert file中要检索同时包含三个关键词<季节、活动、滑雪>的文档,请你提出一种高效的检索方法。
参考:类似于mapreduce的分而治之思想,三个线程并行查季节、活动、滑雪的文档,然后reduce取交集
2. 自然划分3-4-5规则(共20分)
自然划分分段方法很重要,请说明什么是自然划分的3-4-5规则(4分)。另外,假设一个公司的产品利润区间从[-351,4700],其中5%到95%的区间是[-159,1838],使用3-4-5规则构造一个概念层级数,划出的最小区间大于等于100(16分)
答案可参考下图PPT,为2020级的PPT,2021级把这个PPT删了
一些资料
打印
PPT浓缩版:待传
课后习题答案:待传
实验参考:待传
【参考】2020级PPT、实验等内容:百度网盘(密码2233)(来自神迹小卒学长~)
历年题目
2023秋:https://blog.csdn.net/aiqq136/article/details/135370653
2022秋: