大数据的数据整合
数据整合是对导入的各类源数据进行整合,新进入的源数据匹配到平台上的标准数据,或者成为系统中新的标准数据。数据整合工具对数据关联关系进行设置。经过整合的源数据实现了基本信息的唯一性,同时又保留了与原始数据的关联性。具体功能包括关键字匹配、自动匹配、新增标准数据和匹配质量校验4个模块。有时,需要对标准数据列表中的重复数据进行合并,在合并时保留一个标准源。对一些拥有上下级关联的数据,对它们的关联关系进行管理设置。
数据质量校验包括数据导入质量校验和数据整合质量校验两个部分,数据导入质量校验的工作过程是通过对原始数据与平台数据从数量一致性、重点字段一致性等方面进行校验,保证数据从源库导入平台前后的一致性;数据整合质量校验的工作是对经过整合匹配后的数据进行质量校验,保证匹配数据的准确性,比如通过SQL 脚本进行完整性校验。
数据整合往往涉及多个整合流程,所以数据平台一般具有BPM 引擎,能够对整合流程进行配置、执行和监控。