# openGauss-tools-datachecker **Repository Path**: opengauss/openGauss-tools-datachecker ## Basic Information - **Project Name**: openGauss-tools-datachecker - **Description**: No description available - **Primary Language**: Unknown - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 8 - **Forks**: 14 - **Created**: 2021-06-16 - **Last Updated**: 2025-07-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 1. # openGauss-tools-datachecker #### 介绍 DataChecker是一个用Java语言编写的检验两个数据库间数据一致性的工具,一般情况下用于数据迁移完成之后的正确性校验。在将大量数据从一个数据库迁移至另一个数据库后,往往需要确定迁移过去的数据是否正确、完整。DataChecker就是用来检验两边数据库中的数据是否一致的工具。 #### 校验原理 简单地说,就是对两边数据库对应的表的checksum值做full join,得出校验结果。举个例子,假设要校验mysql端的表A以及openGauss端的表A,先用哈希函数(MD5)分别算出两端的表A里每一条记录的哈希值,再对两边的哈希值做full join,得出校验结果。 #### 实现架构 整个工具的实现框架分为4个部分: 1.Preparer:计算出openGauss端的表的checksum值,并插入一个新建的表checksumB。 2.Extractor:计算出Oracle/Mysql/Postgresql端的表的checksum值, 并提取出来。 3.Applier:将Extractor中提取出来的checksum值,插入openGauss端的一个新建的表checksumA。 4.让checksumA和checksumB做full join操作,得出校验结果并反向查找出具体的不匹配记录。 #### 环境要求 ##### 操作系统 纯java开发,有bat和shell脚本,windows/linux均可支持。 jdk建议使用1.6.25以上的版本。 ##### 数据库 源库支持mysql、Oracle,后续将增加对Postgresql的支持。 目标库仅支持openGauss数据库。 #### 安装教程 ``` ① 下载源码: git clone git@gitee.com:opengauss/openGauss-tools-datachecker.git ② 进入根目录 cd openGauss-tools-datachecker ③ 编译 mvn clean install -Dmaven.test.skip -Denv=release ``` #### 使用说明 1. 编译后根目录下会出现target文件夹,target文件夹中的```DataChecker-1.0.0-RELEASE.tar.gz```即为所需要的包。 2. 解压```DataChecker-1.0.0-RELEASE.tar.gz``` 3. 修改配置文件```/conf/ gauss.properties ``` | 参数名字 | 参数说明 | 默认值 | | --------------------------------- | ------------------------------------------------------------ | ------------------- | | gauss.database.source.username | 源数据库的用户名 | 无 | | gauss.database.source.password | 源数据库的密码 | 无 | | gauss.database.source.type | 源数据库的类型 | Mysql | | gauss.database.source.url | 源数据库的连接url,须遵循一定的格式 | 无 | | gauss.database.source.encode | 源数据库的编码格式 | UTF-8 | | gauss.database.target.username | 目标数据库的用户名 | 无 | | gauss.database.target.password | 目标数据库的密码 | 无 | | gauss.database.target.type | 目标数据库的类型 | OPGS(即openGauss) | | gauss.database.target.url | 目标数据库的连接url,须遵循一定的格式 | 无 | | gauss.database.target.encode | 目标数据库的编码 | UTF-8 | | gauss.table.onceCrawNum | extractor/applier每个批次最多处理记录数 | 1000 | | gauss.table.tpsLimit | tps限制,0代表不限制 | 0 | | gauss.table.white | 白名单。定义需要进行校验的表: 格式为schema.tablename组成,多个表可加逗号分隔。如想要校验一个schema下面的所有表,则填schema的名字即可 | 无 | | gauss.table.black | 黑名单,需要忽略的表。格式同gauss.table.white | 无 | | gauss.table.concurrent.enable | 多张表之前是否开启并行处理,如果false代表需要串行处理 | true | | gauss.table.concurrent.size | 允许并行处理的表数 | 5 | | gauss.table.query_dop | opengauss中的query_dop参数,用于控制执行的并行线程数 | | | gauss.extractor.concurrent.global | extractor是启用全局线程池模式,如果true代表所有extractor任务都使用一组线程池,线程池大小由concurrent.size控制 | false | | gauss.extractor.concurrent.size | 允许并行处理的线程数,需要先开启concurrent.enable该参数才会生效 | 30 | | gauss.applier.concurrent.enable | applier是否开启并行处理 | true | | gauss.applier.concurrent.global | applier是启用全局线程池模式,如果true代表所有applier任务都使用一组线程池,线程池大小由concurrent.size控制 | false | | gauss.applier.concurrent.size | 允许并行处理的线程数,需要先开启concurrent.enable该参数才会生效 | 30 | | gauss.stat.print.interval | 统计信息打印频率. 频率为5,代表,完成5轮extract/applier后,打印一次统计信息 | 5 | 4. 启动及停止 ``` #Linux下: sh bin/startup.sh(启动) sh bin/stop.sh (停止) #windows下: 双击bin/startup.bat(启动) 直接关掉窗口(停止) ``` #### 日志说明 日志结构为: ``` /logs summary/ summary.log gauss/ table.log ${table}/ table.log extractor.log applier.log check.log gauss目录下的table.log为整个校验过程的总日志。 summary目录下的summary.log记录了所有校验结果为不正确的表名(即两边表的数据不一致)。 ${table} 为各个表的表名,其下的table.log为该表的校验过程总日志,extractor.log为checksum提取过程的总日志,applier.log为插入checksum过程中的总日志。check.log记录了校验失败的具体某一行的数据。如没有出现check.log,则表示校验结果为正确。 ``` 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request