【亲测有用】数据集成平台能力演示(支持国产数据库DaMeng与KingBase)
🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨AllData官方文档:https://alldata-document.readthedocs.io
✨AllData社区文档:https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo
核心功能-数据集成平台能力演示
- AllData数据集成平台基于开源项目Tis建设。
- Tis集成大数据领域优秀组件(FlinkX-CDC,Chunjun,DataX,Flink等)为您提供一站式、开箱即用的DataOps数据中台,大幅提高ETL实时数仓构建效率。
- Tis针对企业级ETL实时数仓应用场景,TIS基于业界优秀的开源大数据组件,构建了一层强大的领域抽象层,对ETL各环节执行流程进行抽象,对用户屏蔽了大数据组件底层的复杂性。通过使用TIS将大数据业务分析师与底层数据开发人员完美解耦。
- AllData数据中台数据集成管理支持多种数据源,包括:
Hive数据库
数据同步能力演示(全量同步+分区同步)
MySQL数据库
数据同步能力演示(全量+增量同步)
Oracle数据库
数据同步能力演示(全量+增量同步)
国产数据库
达梦数据库达梦数据源DaMeng数据同步能力演示(全量同步)
国产数据库
人大金仓数据库人大金仓数据源KingBase数据同步能力演示(全量+增量同步)
二、功能能力演示
1. 进入数据集成平台
2. 数据同步任务中心
3. 数据同步任务管理
4. 数据库管理中心
4.1 Mysql8校验通过
4.2 Oracle 19c校验通过
4.3 Doris 2.0.7校验通过
4.4 Hive2.4.2校验通过
4.5 达梦国产数据库校验通过
4.6 人大金仓国产数据库校验通过
4.7 支持其他数据源扩展
5. 数据同步配置包含业务线管理、DataX执行器、Flink Cluster、插件配置、操作日志、系统异常
5.1 业务部门管理
5.2 插件配置管理
5.3 操作日志管理
5.4 操作日志详情
5.5 异常日志管理
6. Hive数据库同步能力演示
6.1 第一步配置基本信息与插件
6.2 Reader设置,配置Hive数据源Reader,Doris数据目的Writer
6.3 Hive元数据中心配置,配置HiveMetaStore
6.3.1 配置选择分区表(二选一)
6.3.2 配置选择全量表(二选一)
6.4 添加HiveServer2,校验通过
6.5 添加HDFS,校验通过
6.6 Reader选择导入表,可以多选进行整库多表批量同步,可以单表同步
6.7 批量设置表,对表的同步字段,表的主键进行筛选
6.8 选择主键与同步字段
6.9 选择Doris目的表
6.10 表映射,支持自定义目的表名
6.11 确认同步任务信息,创建同步任务
6.12 查看自动生成的DataX脚本
6.13 查看自动生成的Table DDL脚本
6.14 创建同步任务实例成功
6.15 查看任务主控台
6.16 任务管理,可以对任务进行重新配置与修改
6.17 触发构建Hive到Doris的同步任务
6.18 Hive表同步成功
6.19 查看操作历史
6.20 查看Hive表,Hive表重复数据有25条,主键唯一的只有5条。
6.21 查看同步结果Doris表,主键设置为transaction_id,同步结果保证5条,精准准确同步无误。
7. MySQL数据库同步能力演示
7.1 创建Mysql到Doris的同步任务
7.2 同步的是Mysql多表同步到Doris
7.3 生成的同步脚本
7.4 生成的Doris DDL脚本
{
"job":{
"content":[
{
"reader":{
"parameter":{
"password":"k32G0hokmB8YLhm0",
"connection":[
{
"querySql":[
"SELECT `ACCOUNT_ID`,`ACCOUNT_PARENT`,`ACCOUNT_DESCRIPTION`,`ACCOUNT_TYPE`,`ACCOUNT_ROLLUP`,`CUSTOM_MEMBERS` FROM account_sink "
],
"jdbcUrl":[
"jdbc:mysql://8g009:33196/studio?autoReconnect=true&useUnicode=yes&useCursorFetch=true&useSSL=false&serverTimezone=Asia%2FShanghai&useCompression=true&characterEncoding=utf8"
]
}
],
"dataxName":"mysql8_2_doris_task",
"username":"root"
},
"name":"mysqlreader"
},
"writer":{
"parameter":{
"password":"",
"database":"doris_mysql_db",
"loadProps":{
"column_separator":"\\x01",
"line_delimiter":"\\x02"
},
"maxBatchByteSize":104857600,
"column":[
"ACCOUNT_ID",
"ACCOUNT_PARENT",
"ACCOUNT_DESCRIPTION",
"ACCOUNT_TYPE",
"ACCOUNT_ROLLUP",
"CUSTOM_MEMBERS"
],
"jdbcUrl":"jdbc:mysql://8g003:9030/doris_mysql_db",
"table":"account_sink",
"feLoadUrl":[
"8g003:18030"
],
"maxBatchRows":10000,
"dataxName":"mysql8_2_doris_task",
"username":"root"
},
"name":"dorisWriter"
},
"dataxName":"mysql8_2_doris_task"
}
],
"setting":{
"errorLimit":{
"record":1,
"percentage":0.02
},
"speed":{
"channel":3
}
}
}
}
7.5 执行结果,成功同步
7.6 查看Mysql源表account的数据
7.7 预览Doris目的表account_sink的数据
8. Mysql增量同步到Doris进行配置增量同步
8.1 创建增量通道
8.2 增加flink引擎,增量引擎配置
8.3 测试Flink集群连接
8.4 配置增量同步的Source/Sink
8.5 自动生成同步程序,可以选SQL与DStream
8.6 部署增量同步任务成功
8.7 进入Mysql增量同步通道
8.8 Mysql增量同步任务成功运行
8.9 查看Mysql增量同步配置
8.10 通过Flink UI查看实时CDC任务运行
8.11 增量同步结果
8.12 Mysql测试account增加4条数据,源表
8.13 Doris检查增量
同步结果,结果表如图,成功同步了4条数据。
9. Oracle数据同步能力演示
同步流程与上诉类似,包含增量同步的流程,后续补充文档。
10. 达梦国产数据库同步能力演示
10.1 新增国产数据库达梦数据源
10.2 选择国产数据库达梦数据源Reader与Doris的Writer
10.3 国产数据库达梦数据源配置Reader
10.4 新建数据源连接(可选,如果没有创建数据源,新建数据源连接)
10.5 选择国产数据库达梦的源表dameng_db.TestTable
10.6 批量国产数据库达梦的源表-设置表
10.7 选择同步数据字段
10.8 选择Doris目标表存储
10.9 国产数据库达梦表映射到Doris
10.10 自动生成表同步脚本
10.11 创建国产数据库达梦同步到Doris的任务
10.12 查看国产数据库达梦同步到Doris任务详情
10.13 触发国产数据库达梦同步到Doris任务
10.14 查看国产数据库达梦TestTable表数据,1000条
10.15 同步国产数据库DaMeng成功创建Doris表
10.16 成功同步1000条数据,验证通过
10.17 查看同步结果,查看Doris test表
11. 人大金仓国产数据库同步能力演示
同步流程与上诉类似,包含增量同步的流程,后续补充文档。
11.1 新增国产数据库人大金仓KingBase数据源
11.2 选择国产数据库人大金仓KingBase Reader与Doris的Writer
11.3 配置国产数据库人大金仓KingBase Reader
11.4 新建数据源连接(可选,如果没有创建数据源,新建数据源连接)
11.5 选择国产数据库人大金仓KingBase的源表test
11.6 批量国产数据库人大金仓KingBase的源表-设置表
11.7 选择同步国产数据库人大金仓KingBase-数据字段
11.8 选择Doris目标表存储
11.9 国产数据库人大金仓KingBase映射到Doris
11.10 创建国产数据库人大金仓KingBase同步到Doris的任务
11.11 查看国产数据库人大金仓KingBase同步到Doris任务详情
11.12 触发国产数据库人大金仓KingBase同步到Doris任务
11.13 查看国产数据库人大金仓KingBase源表test数据,合计17条数据
11.14 查看同步到Doris目的表的数据,同步通过,17条数据验证成功
12. 国产数据库人大金仓KingBase增量同步到Doris能力演示
12.1 国产数据库人大金仓实时同步到Doris任务
12.2 配置国产数据库人大金仓的增量引擎
12.3 配置国产数据库人大金仓的SourceFactory与增量同步Factory
12.4 自动生成国产数据库人大金仓的实时任务代码
12.5 部署国产数据库人大金仓的实时增量同步任务,部署成功
12.6 国产数据库人大金仓的实时增量同步任务运行成功
12.7 国产数据库人大金仓KingBase表test数据为17条,测试增加7条数据,源数据增加到24条。
12.8 实时同步结果验证,Doris结果表test
三、TIS应用场景
企业数据中台建设
TIS 4.1.0 的多源数据同步和强大的数据清洗能力,能够帮助企业快速构建数据中台,实现数据的统一管理和高效利用。
实时数据分析
通过实时数据同步功能,企业可以将业务系统中的数据实时同步到分析平台,为决策提供及时、准确的数据支持。
云上数据集成
TIS 4.1.0 的云原生支持,使得企业可以轻松在云环境中部署数据集成任务,实现跨云、混合云环境下的数据流转。