当前位置: 首页 > article >正文

大数据的数据整合


数据整合是对导入的各类源数据进行整合,新进入的源数据匹配到平台上的标准数据,或者成为系统中新的标准数据。数据整合工具对数据关联关系进行设置。经过整合的源数据实现了基本信息的唯一性,同时又保留了与原始数据的关联性。具体功能包括关键字匹配、自动匹配、新增标准数据和匹配质量校验4个模块。有时,需要对标准数据列表中的重复数据进行合并,在合并时保留一个标准源。对一些拥有上下级关联的数据,对它们的关联关系进行管理设置。
数据质量校验包括数据导入质量校验和数据整合质量校验两个部分,数据导入质量校验的工作过程是通过对原始数据与平台数据从数量一致性、重点字段一致性等方面进行校验,保证数据从源库导入平台前后的一致性;数据整合质量校验的工作是对经过整合匹配后的数据进行质量校验,保证匹配数据的准确性,比如通过SQL 脚本进行完整性校验。
数据整合往往涉及多个整合流程,所以数据平台一般具有BPM 引擎,能够对整合流程进行配置、执行和监控。


http://www.kler.cn/a/409425.html

相关文章:

  • MySQL中的ROW_NUMBER窗口函数简单了解下
  • 【GPT】睡觉时,大脑在做什么
  • 【Mysql】视图--介绍和作用 视图的创建
  • 面向对象高级(7)注解
  • H.265流媒体播放器EasyPlayer.js H5流媒体播放器关于如何查看手机端的日志信息并保存下来
  • Spring Boot与MyBatis-Plus的高效集成
  • 【linux】插入新硬盘如何配置:格式化、分区、自动挂载(Ubuntu)
  • 表格数据处理中大语言模型的微调优化策略研究
  • Python 使用 OpenCV 将 MP4 转换为 GIF图
  • 新华三H3CNE网络工程师认证—子接口技术
  • 任子行网络安全审计系统 log_fw_ips_scan_jsondata SQL注入漏洞复现
  • java基础(一):JDK、JRE、JVM、类库等概念,java跨平台实现原理
  • On-Chip-Network之Topology
  • Pytorch自定义算子反向传播
  • cirros-0.3.4-x86_64-disk.img
  • 【Linux】使用nohup命令实现不挂断的后台运行
  • ECharts柱状图-带圆角的堆积柱状图,附视频讲解与代码下载
  • [Leetcode小记] 3233. 统计不是特殊数字的数字数量
  • shell脚本-笔记27
  • 《CSDN及其旗下产品:构建中国IT行业的知识与技术生态》
  • Java开发经验——SpringRestTemplate常见错误
  • 【C++】static修饰的“静态成员函数“--静态成员在哪定义?静态成员函数的作用?
  • 【论文笔记】Improved Baselines with Visual Instruction Tuning
  • 掌握移动端性能测试利器:深入JMeter手机录制功能
  • php日志系统
  • PICO VR串流调试Unity程序