【新版】阿里云ACP大数据工程师模拟试题(含答案解析)
1、题干:关于ODPS跨项目资源共享的说法正确的是?
A:Package是一种跨项目空间共享数据及资源的机制,主要用于解决跨项目空间的用户授权问题
B:添加资源时支持的对象类型不包括Project类型,即不能将project添加到packet里
C:如果某个package还有人在使用,则该package的owner无法删除此package
D:添加到Package中的不仅仅是对象本身,还包括相应的操作权限,如不显示指定权限,则默认为读写权限
答案:A;B;C
解析:目前支持的对象类型不包括Project类型,也就是不允许通过Package在其他Project中创建对象。添加到Package中的不仅仅是对象本身,还包括相应的操作权限。当没有通过[withprivileges privileges]来指定操作权限时,默认为只读权限,即Read/DescribelSelect。
"对象及其权限"被看作一个整体,添加后不可被更新。若有需要,只能删除和重新添加。
2、数据工场DataWorks (原DatalDE)中,任务task1是在00:00至23:59之间按小时调度的周期性调度任务,任务配置为每小时执行次,每次执行生成前一个小时的数据。任务task2是按小时调度的周期性调度任务,任务配置为每6小时执行一次,每次执行都是处理task1生成的前6个小时的数据。为了保证task2每次运行前task1的前6个小时数据已经生成成功,task1和task2需要如何配置?
A:task1跨周期依赖选择自依赖,task2依赖属性的上游任务配置为task1
B:task2依赖属性的上游任务配置为task1
C:task2依赖属性的上游任务配置为ask1, task2跨周期依赖选择等待自定义任务的上一周期结束,自定义任务是task1
D:task2跨周期依赖选择等待自定义任务的上一周期结束,自定义任务是task1
答案:D
解析:A、自依赖:本次节点运⾏依赖上⼀周期该节点业务数据的产出情况。task2依赖属性的上游任务配置为task1,也将会每小时执行1次;
B、Task1没有说明,task2将同A结果一致
C、设置跨周期依赖后就不需要再配置正常的依赖属性
D、补充C选项,设置跨周期依赖后可以正常生成依赖关系,不需要再配置task2的上游为task1.
3、DataIDE中的数据同步支持离线批量数据同步模式,离线数据同步是指数据周期性、成批量地从源端系统传输到目标端系统,关于数据同步周期说法正确的是( )。(正确答案4个)
A:支持天级调度
B:支持周级调度
C:支持实时调度
D:支持小时级调度
E:支持月级调度
答案:A;B;D;E
解析:调度是支持月、周、日、时、分 ,但是选项中支持实时调度不正确
4、组织是DataIDE的特有概念,组织的基本对象为项目空间,以下说法正确的有( )。
A:一个账号可以加入同一个组织的多个项目空间
B:一个组织可以创建多个项目空间
C:一个账号只能加入一个组织
D:一个项目空间可以属于多个组织
答案:A;B;C
解析:组织可以理解为公司,项目空间可以假设为部门 D、一个组织可以包含多个项目空间,但是一个项目空间不能属于多个组织。
5、Stream Studio的应用场景包括?
A:生产时采集数据需要实时化处理以帮助决策层快速应对市场变化,寻求业务商机
B:实时采集、加工流式数据、实时监控和展现业务、客户各类报表指标
C:实时分析和处理各类IOT数据,实时了解各类系统健康程度,及时处理业务异常
D:系统实时数据需要实时化监控和预警,在事件产生时即刻发现,最大化避免业务风险
答案:A;B;C;D
解析:Stream Studio的实时计算应用场景:业务部门:实时风控、实时推荐、搜索引擎的实时索引构建等。数据部门:实时数仓、实时报表、实时大屏等。运维部门:实时监控、实时异常检测和预警、全链路Debug等。
6、在数据工场DataWorks (原Data IDE)中的数据同步任务的配置选项中,可以设置源表和目标表的字段对应关系。将云数据库RDS (MySQL)的表同步到大数据计算服务(MaxCompute,原ODPS)中时,RDS表为user_info(id,name,addr), MaxCompute表为user_info(id,name,addr),在该数据同步任务的字段映射关系配置下说法错误的是( )。
A:按照源表、目标表两侧的字段顺序一一对应来逐行同步,而不是按照字段名称逐行导入
B:按照字段名称匹配来导入,无需关注两侧的字段映射关系
C:若该任务只需要将name和addr同步至MaxCompute,那么在字段配置中删除两侧的id字段
D:数据同步任务是严格按照字段映射关系来逬行导入
答案:C
解析:A、D选项正确,匹配规则只看映射关系,不看名字;
B选项正确,因为该题明确了表结构,系统一定会匹配正确的映射关系,所以无需关注;
C选项表述错误,数据同步过程中,源表必须要有id,目标表无所谓,如果目标表不事先设置id,同步时也会自动创建id字段。
7、在数据工场DataWorks (原DatalDE) 中,下列哪些情况一定会导致数据同步任务执行出错?
A:执行账号没有源端表的读权限
B:同步任务执行前,目标表被删除
C:目标表删除重建后少了一些字段
D:源表新增了字段
答案:A;B;C
解析:本题考察的知识点是:数据集成的实际应用执行账号无读取权限,会报错无权限。目标表缺少,报错table not exsts。缺失字段除非重新做同步任务,否则报错字段不能解析。原端新增不影响同步,类似于select部分字段一样。
8、在数据工场DataWorks (原DataIDE )中的数据同步任务的配置选项中,可以设置源表和目标表的字段对应关系。将大数据计算服务( MaxCompute,原ODPS )的表同步到分析型数据库中时,以下关于字段映射的说法中正确的有( )。
A:源表和目标表需要同步的字段的名称必须一致
B:源表和目标表需要同步的字段需按照位置关系一一对应即可
C:字段配置项中,源表和目标表需要同步的字段数必须一致
D:数据同步任务是按照源表和目标表字段位置来匹配导入的
答案:B;D
解析:源表和目标表需要同步的字段的名称必须一致:字段名可以不一致,只要有明确的映射关系就可以。
字段配置项中,源表和目标表霉要同步的字段数必须一致:源表和目标表的字段个数不一定非要一致,映射主要靠位置对应。
9、数据工场DataWorks (原Data IDE)中的数据同步任务Task1,将云数据库RDS (MySQL) Table1数据增量同步至大数据计算服务(MaxCompute, 原ODPS)的表Table2的对应分区中,必须在Task1中配置( )。
A:容错记录条数
B:源表切分主键
C:数据过滤条件和分区值(使用变量方式)
D:作业速率上限
答案:C
解析:根据题目增量数据同步应设置数据过滤条件,以时间字段为过滤条件实现增量同步。 容错记录条数是排除脏数据用的; 设置切分键是提升同步速度、作业上限速度,为了设置同步速率,减低源端压力。
10、数据工场DataWorks中,task1和task2都是按天调度的周期性调度任务,task1生成分区表table1,task2生成分区表table2,每天task2取table1最新分区的数据进行统计,而task1有部分数据来源是table2前一天分区的数据。task1和task2的依赖关系需要如何配置?
A:只需要task1依赖属性的上游任务配置为task2
B:task1和task2都不需要配置依赖属性
C:task1跨周期依赖选择“等待自定义任务的上一周期结束,才能继续运行”,自定义任务填写task2,task2依赖属性的上游任务配置为task1
D:只需要task2依赖属性的上游任务配置为task1
答案:C
解析:调度周期配置按题意应该是task2依赖task1,task1依赖task2的前一天数据,要保证依赖关系正常执行,需要task1等待前一周期结束,然后task2才能正常执行。
A、如果只设置task1依赖属性的上游任务配置为task2,那么task2无法取table1最新分区数据进行统计;
B、不依赖是无法完成题目中复杂的逻辑运算的;
D、只设置task2依赖属性的上游任务配置为task1,那么无法实现task1部分数据取字table2的前一天分区。
文章篇幅有限,更多阿里云ACP题库试题司~me↓↓↓