第十四章大数据和数据科学
单选题 (每题1分,共20道题)
1、 [单选] 数据科学的分析模式包括以下哪两种?
A:预测性分析和规范性分析
B:描述性分析和预测性分析
C:描述性分析和规范性分析
D:预见性分析和规范性分析
正确答案:A 你的答案:A
解析:389页第四点及下方图表,数据科学的两种分析模式分别是预测性分析和规范性分析。 展示发现和数据洞察。分析和揭示结果,分享洞察观点对比了传统的数据仓库/商务智能与基于数据科学技术实现的预测性分析和规范性分析的作用。
2、 [单选] 大数据3V的概念相比6V的概念缺少以下哪一项?
A:数据量大
B:数据更新快
C:数据类型多
D:数据波动性大
正确答案:D 你的答案:D
解析:390页,大数据3V的概念包括数据量大、数据更新快和数据类型多,大数据6V的概念在3V的基础上增加了数据波动性大、数据黏度大和数据准确性低。
3、 [单选] 数据湖具备以下哪个功能?
A:数据仓库明细历史数据的备用存储区域
B:原始数据的集中存储区域
C:数据科学家可以挖掘和分析数据
D:以上都具备
正确答案:D 你的答案:C
解析:392页,数据湖的功能包括数据仓库明细历史数据的备用存储区域、原始数据的集中存储区域、数据科学家可以挖掘和分析数据、信息记录的在线归档和通过自动化的模型识别提取流数据。
4、 [单选] 下列哪项不属于大数据战略包括的评估标准?
A:要使用或获取的数据源是什么
B:组织试图解决什么问题,需要分析什么
C:使用数据源的对象是谁,如何使用
D:提供数据的及时性和范围
正确答案:C 你的答案:C
解析:397~398页,397页底部开始往后,大数据战略解决的问题包括:对其他数据结构的影响以及与其他数据结构的相关性,要使用或获取的数据源是什么,提供数据的及时性和范围,组织试图解决什么问题,需要分析什么,对现有建模数据的影响。大数据战略是为组织制定大数据发展的方向和目标,不会具体提到相关的使用对象。
5、 [单选] 如何使用模型探索数据,具体步骤是?
A:填充预测模型、训练模型、创建数据可视化、评估模型
B:评估模型、填充预测模型、训练模型、创建数据可视化
C:填充预测模型、训练模型、评估模型、创建数据可视化
D:评估模型、填充预测模型、创建数据可视化、训练模型
正确答案:C 你的答案:B
解析:400页 14.2.6,使用模型探索数据的具体步骤是填充预测模型、训练模型、评估模型、创建数据可视化。
6、 [单选] 在大数据/数据科学计划实施过程中,评估与关键成功因素相关的组织准备情况不包括以下哪一项?
A:业务相关性
B:需求
C:原型
D:战略
正确答案:D 你的答案:D
解析:408页风险评估,在大数据/数据科学计划实施过程中,评估与关键成功因素相关的组织准备情况包括业务相关性、业务准备情况、经济可行性、原型、决策、数字资料、需求、实施人员和育才。
7、 [单选] 通过编程使机器学习可以快速地从查询中学习并适应不断变化的数据集,从而在大数据中引入一个全新的领域,称为机器学习,以下哪个不是机器学习的类型?
A:监督学习
B:无监督学习
C:被监督学习
D:强化学习
正确答案:C 你的答案:C
解析:394页 上方 机器学习包括监督学习、无监督学习和强化学习。
8、 [单选] 尝试通过概率估计来预测未来结果的应用程序称为?
A:维度分析
B:预测分析
C:即时报告
D:描述性分析
正确答案:B 你的答案:B
解析:P395 预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。预测分析深深植根于数学,特别是统计学,与无监督学习拥有许多相同的组成部分,对预期预测结果进行测量时差异是可控的。
9、 [单选] 大数据摄取数据到数据湖的过程需要仔细管理,否则数据湖将变成?
A:数据沼泽
B:有偏见的报告
C:数据模型
D:数据科学家无法使用的数据级别
正确答案:A 你的答案:A
解析:P410 作为大数据计划的一部分,组织将汇集使用不同方法和标准创建的数据集。整合这些数据具有挑战性。与这些数据集相关的元数据,对于它们的成功使用很关键。元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。
10、 [单选] 数据科学家开展工作依赖于哪些要素?
A:丰富的数据源
B:信息组织和分析
C:展示发现和数据洞察
D:以上全部
正确答案:D 你的答案:D
解析:P388-389 开发数据科学解决方案,包括将数据源迭代地整合到开发洞察力的模型中。数据科学依赖于:1)丰富的数据源。具有能够展示隐藏在组织或客户行为中不可见模式的潜力。2)信息组织和分析。用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术。3)信息交付。针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对行为的深入洞察。4)展示发现和数据洞察。分析和揭示结果,分享洞察观点对比了传统的数据仓库/商务智能与基于数据科学技术实现的预测性分析和规范性分析的作用。
11、 [单选] 当您不一定要提出特定问题时,您需要发现可能的关系或以探索的方式显示数据模式。您将使用哪种数据工具通过各种算法来实现数据模式?
A:数据质量剖析
B:ETL作业
C:数据可视化工具
D:数据挖掘
正确答案:D 你的答案:D
解析:P394-395 数据挖掘(Data mining)是一种特殊的分析方法,它使用各种算法揭示数据中的规律。它最初是机器学习的一个分支,属于人工智能的一个子领域。该理论是统计分析的一个子集,称为无监督学习,即当算法被应用于一个数据集时,并不知道确切的或期望的结果。标准化的查询和报表工具能发现一些具体的问题,而数据挖掘工具通过揭示规律来帮助发现未知的关系。数据挖掘是探索阶段的一项关键活动,因为它有助于快速识别需要研究的数据元素,识别以前未知、不清楚或未分类的新关系,并为所研究的数据元素提供分类的结构。
12、 [单选] 在机器学习中有关于学习算法的类型描述哪项是错误的?
A:识别学习
B:监督学习.
C:无监督学习
D:强化学习
正确答案:A 你的答案:A
解析:P394 机器学习探索了学习算法的构建和研究。这些算法一般分为三种类型:1)监督学习(Supervised learning)。基于通用规则(如将SPAM邮件与非SPAM邮件分开)。2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。
13、 [单选] 当您不一定要提出特定问题时,您需要发现可能的关系或以探索的方式显示数据模式。您将使用哪种数据工具通过各种算法来实现数据模式?
A:A、数据质量剖析
B:B、ETL作业
C:C、数据可视化工具
D:D、数据挖掘
正确答案:D 你的答案:D
解析:A、数据质量剖析:错误。数据质量剖析主要关注数据的准确性、完整性、一致性等方面,而不是发现数据模式或关系。 B、ETL作业:错误。ETL (Extract, Transform, Load) 是用于从源系统提取数据、对数据进行转换和最终加载到目的地系统的过程,它并不是用来发现数据模式的工具。 C、数据可视化工具:错误。数据可视化工具用于将数据转换成可视化形式,以便用户更好地理解数据,而不是用来发现数据模式的工具。 D、数据挖掘:正确。数据挖掘是通过各种算法来发现数据中隐藏的模式、关系或趋势的过程,因此是实现数据模式的常用工具。
14、 [单选] 大数据是指数据量大,以下()能表达数据量大的特征
A:A、1PB
B:B、100TB-1EB
C:C、大于100万条数据
D:D、大于1000万条数据
正确答案:B 你的答案:B
解析:A、1PB:错误。1PB表示1个百万兆字节,数据量较大,但未达到大数据的标准范围。 B、100TB-1EB:正确。100TB至1EB之间的数据量通常被认为是大数据的范围,具有典型的大数据特征。 C、大于100万条数据:错误。数据量的大小并非仅由数据条数决定,100万条数据的量级并不一定达到大数据的标准。 D、大于1000万条数据:错误。同样,数据量的大小并不仅仅取决于数据的条数,1000万条数据并不一定构成大数据的范畴。
15、 [单选] MapReduce模型有三个主要步骤:
A:A、剖析、关联、聚类
B:B、提取、转换、加载
C:C、映射、修正、转换
D:D、映射、洗牌、归并
正确答案:D 你的答案:B
解析:A、剖析、关联、聚类:错误。这些术语描述的是数据挖掘的过程,而不是MapReduce模型的步骤。 B、提取、转换、加载:错误。这是ETL(Extract, Transform, Load)过程中的步骤,与MapReduce模型无关。 C、映射、修正、转换:错误。这些术语不准确描述MapReduce模型的步骤。 D、映射、洗牌、归并:正确。MapReduce模型的主要步骤包括映射(Map)、洗牌(Shuffle)、归并(Reduce),这些步骤用于分解和处理大规模数据集。
16、 [单选] 根据DMBOK2,数仓和数据科学有不同的侧重点。请从下列选项中选择描述正确的选项。
A:数仓侧重报表,相对应的数据加载一般是ELT
B:数据科学侧重报表,相对应的数据加载一般是ETL
C:数仓侧重报表,相对应的数据加载一般是ETL
D:数据科学侧重报表,相对应的数据加载一般是ELT
正确答案:C 你的答案:C
解析:考的是第十四章 大数据和数据科学。A选项,数仓的数据加载一般是ETL。B数据科学侧重预测性、规范性分析。D同B。
17、 [单选] 根据DMBOK2,以下关于数据和文本挖掘的描述,错误的是:
A:数据挖掘是一种特殊的分析方法,它使用某一种特定算法揭示数据中的规律
B:数据挖掘工具通过揭示规律来帮助发现未知的关系
C:数据挖掘最初是机器学习的一个分支,属于人工智能的一个子领域
D:文本挖掘使用文本分析和数据挖掘技术来分析文档,将内容自动进行分类,成为工作流导向和领域专家导向的知识本体
正确答案:A 你的答案:A
解析:14.1.3 基本理念。P394-P395,A应该是使用多种算法。
18、 [单选] 数据科学的过程包括多个阶段。请从下列选项中选择工作量最大的阶段。
A:定义战略和业务需求
B:收集和整合数据
C:选择数据源
D:数据建模
正确答案:B 你的答案:B
解析:14.1.3 基本理念。P389,考察的知识是14章数据科学的过程图14-3 数据科学的过程阶段,但是书本并未提及哪个过程工作量最大,一般情况下,数据的准备和预处理比较耗时,即收集和整合数据。
19、 [单选] 根据DMBOK2,以下关于数据湖的描述,不正确的选项是哪个?
A:数据湖的风险在于,它可能很快会变成数据沼泽—杂乱、不干净、不一致
B:数据湖可以作为Hadoop或其他数据存储系统、集群服务、数据转换和数据集成等数据处理工具的一种复合配置来实施
C:为了建立数据湖中的内容清单,在数据被摄取时对数据质量进行管理至关重要
D:数据湖是一种企业数据架构方法,用来集中化存储企业内海量的、多来源、多种类的数据,并支持对数据进行快速加工和分析
正确答案:C 你的答案:D
解析:14.1.3 基本理念。P392,AB均有原文,C错在应该对元数据进行管理而不是数据质量,D的字面意思与书本中的意思基本差不多。
20、 [单选] 数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。请从下列选项中选择一项数据湖使用的场景。
A:数据湖不可以用来存储非结构化的数据,但可以存储各种结构化的数据
B:数据湖不可以当作原始数据的集中存储区域
C:数据湖可以用来当作数据仓库明细历史数据的备用存储区域
D:数据湖无法处理流数据
正确答案:C 你的答案:C
解析:14.1.3 基本理念。P392,变种题,需记住5个场景:数据科学家可以挖掘和分析数据的环境、原始数据的集中存储区域,只需要少量的转换(如果需要的话)、数据仓库明细历史数据的备用存储区域、信息记录的在线文档、可以通过自动化的模型识别提取流数据的环境。