godbart - go-db-art

  |^^^^^^|    /god-bart/是一个go写的
  |      |    基于SQL的RDBMS运维CLI
  | (o)(o)    □ 多库执行SQL，DB版本管理
  @      _)   □ 比较结构差异，生成原始DDL
   | ,___|    □ 提取业务逻辑关联的`数据树`
   |   /      □ 纯SQL做配置，注释做关联

使用场景和前置要求，

DBA维护多库，一个SQL在多库上执行。
支持分表，多表的更新和版本管理。
生成某库某表的创建SQL（表&索引，触发器）。
对比多库多表的结构差异（表，列，索引，触发器）。
多库的版本管理，按指定版本更新。
提取数据树，保存为CSV/JSON文件。
数据归档，从A库迁移数据树到B库。
主键有分布式特征，无自增型。
SQL语句，必须有结束符，如;，否则认为是一组。
当前只适配了MySql，可自行实现PG版。
正则Regexp为go标准库re2，有些高级功能不支持。

数据树(DataTree) 指一堆有业务逻辑关联的树状或图状的数据。比如demo/init/2.data.sql中的关系，存在以下多个1:N关系。

|-(TOP)-收件人(tx_receiver)
|      |-(1:N)-包裹(tx_parcel)
|      |      |-(1:N)-物流信息(tx_track)
|      |      |-(1:N)-包裹事件(tx_parcel_event)
|      |      |-(1:N)-历史变更(tx_parcel$log)

就可以形成以收件人为根的树，或从包裹为根的树。对于非单继承（多个父节点）的数据结构，有多重循环时会存在问题。

1. 场景举例

以下是开发和测试环境，得益于GoLang的优势，理论上应该跨平台。

ubuntu 16.04/ mac 10.15.7
Go 1.11.2 / 1.16
MySQL (5.7.23)

下列各命令的参数，大部分时通用的，所以举例中不重复介绍各参数。

1.1. 执行脚本 Exec

在不同的db上，纯粹的批量执行SQL。

# 执行 demo/sql/init/的`*.sql`和`*.xsql`
./godbart exec \
 -c godbart.toml \
 -d prd_main \
 -d prd_2018 \
 -x .sql -x .xsql \
 -l trace \
 demo/sql/init/

其中，exec 命令，会把输入的文件或路径，分成SQL组执行。

-c 必填，配置文件位置。
-d 必填，目标数据库，可以指定多个。
-x 选填，SQL文件后缀，不区分大小写。
-l 选填，通过修改输出级别，调整信息量。
--agree 选填，风险自负，真正执行。

在分表上执行，参考revi说明。

1.2. 版本管理 Revi

健康的数据库需要有版本管理。通常，有一个版本信息表，用来识别和对比版本号。 Revi只考虑Up不考虑Down。如果需要Down时，以逆向补丁形式进行Up。

# 执行 demo/sql/revi/*.sql，具体SQL写法参考此目录的文件
./godbart revi \
 -c godbart.toml \
 -d prd_main \
 -d prd_2018 \
 -r 2018111701 \
 -m '[0-9a-z]{10,}'
 -x .sql -x .xsql \
 demo/sql/revi/

其中，revi 命令，会把输入的文件或路径的SQL进行按版本号分组。

-c 必填，配置文件位置。
-d 必填，目标数据库，可以指定多个。
-r 必填，执行到的版本号。
-m 选填，版本更新语句中版本号的正则，默认10位以上数字。
-q 选填，查询版本语句的前缀，SELECT 不区分大小写。
-x 选填，SQL文件后缀，不区分大小写。
--agree 选填，风险自负，真正执行。

版本号要求，

必须全局唯一且递增，但不要求连续。
能以字符串方式比较大小，如日期+序号：yyyymmdd###。
具有可以用正则匹配提取的固定格式。

具有版本管理的SQL要求，必须被版本查询和版本更新的SQL包围。因此，SQL文件中，首个SELECT和最尾的Execute，视为版本查询和更新的SQL。

作为参数传入的版本文件，内含版本号需要递增，否则报错（程序只检查，不排序）。

-- 创建version表 # 此时没有版本查询，但在之前，因此会被执行
CREATE TABLE `sys_schema_version` (
  `version` BIGINT NOT NULL COMMENT '版本号',
  `created` DATETIME NOT NULL COMMENT '创建时间',
  PRIMARY KEY (`version`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

-- 版本查询
SELECT max(version) FROM sys_schema_version;

ALTER TABLE `tx_outer_trknum`
  ADD COLUMN `label_file` VARCHAR(200) DEFAULT NULL COMMENT '面单文件位置' AFTER `trknum`;
ALTER TABLE `tx_outer_trknum$log`
  ADD COLUMN `label_file` VARCHAR(200) DEFAULT NULL COMMENT '面单文件位置' AFTER `trknum`;

-- 版本更新
REPLACE INTO sys_schema_version (version, created) VALUES( 2018022801, NOW());

1.3. 分表版本管理 Revi

当存在分表的情况下，可以按序号建表，或者根据规则更新已存在的表。更多关于指令可以参考指令变量说明，及tree应用实例。

-- SEQ tx_test_%02d[1,10] tx_test_##
CREATE TABLE `tx_test_##` (
  `id` BIGINT NOT NULL COMMENT 'id',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;


-- TBL tx_outer_trknum.* `tx_outer_trknum`
ALTER TABLE `tx_outer_trknum`
  ADD COLUMN `label_file` VARCHAR(200) DEFAULT NULL COMMENT '面单文件位置' AFTER `trknum`;

上述SQL会完成以下两种操作。

创建 tx_test_01,...,tx_test_20，一共20张表
更新 tx_outer_trknum 和 tx_outer_trknum$log表

1.4. 结构对比 Diff

用来对比结构差异，支持table&index，trigger。

对比结果中，用>表示只有左侧存在，<表示只有右侧存在。过程信息以log输出。结果信息fmt输出，可通过SHELL特性分离信息。

# 对表名，字段，索引，触发器都进行比较，并保存结果到 main-2018-diff-out.log
./godbart diff \
 -c godbart.toml \
 -s prd_main \
 -d prd_2018 \
 -d dev_main \
 -t tbl,trg \
 'tx_.*' \
| tee main-2018-diff-out.log

-s 左侧比较相，必须指定。
-d 右侧比较相，可以零或多。
-t 比较类型，支持以下三种，默认tbl，多值时用逗号分割。
- tbl 表明细(column, index)
- trg trigger
- sum 仅显示表名差异

参数为需要对比的表的名字的正则表达式。如果参数为空，表示所有表。正则会默认进行全匹配，等同于^$的效果。

当只有一个库时，不做比较，而是打印该库，多个时才进行比较。

1.5. 生成脚本 Show

生成一些常用的DDL，如创建table, trigger，更复杂的history历史表。

./godbart show \
 -c godbart.toml \
 -s prd_main \
 -t tbl,trg \
 'tx_[^$]+' \
| tee prd_main-show-out.log

模板在godbart.toml中的sqltemplet里配置，key就是-t 参数，多个时用,分割。模板使用的变量全都存在时，输出模板，全都不存在时不输出，其他则报错。

因为不支持否定环视，所有已不包含$去除$log表。

系统内置了以下变量，不想使用${}不可以省略，包含数组的模板会循环输出。

${TABLE_NAME} string, 当前table名
${TABLE_DDL} string, 当前table的DDL
${TRIGGER_NAME} []string, 当前table的trigger名
${TRIGGER_DDL} []string, 当前table的trigger的DDL
${COLUMNS_BASE} string, 当前table的所有列的基本信息(名字和类型)。
${COLUMNS_FULL} string, 当前table的所有列的全部信息(同创建时，创建DDL必须一行一列，否则解析可能错误)。

1.6. 结构同步 Sync

同步多库间的表结构，目前只支持空表创建。此场景一般出现在初始化一个新数据库的时候。因为数据库版本管理不会造成很大差异，如果存在差异，且有数据的情况下，人工介入更好。

对于小表，提供数据同步。而多实例，大表，建议使用DBA的方式同步，性能更好。

注意，对于DBA，可以使用mysqldump -d来导出表结构。

./godbart sync \
 -c godbart.toml \
 -s prd_main \
 -d prd_2018 \
 -t tbl,trg \
 'tx_.*'

-s 左侧比较相，可以零或一。
-d 右侧比较相，可以一或多。
-t 创建类型，支持以下三种，默认tbl。
- tbl 只创建表和索引
- trg 只创建trigger
- row 标准insert语法，并忽略重复，不如DBA脚本猛烈，适合小数据。
--agree 选填，风险自负，真正执行。

参数为需要对比的表的名字的正则表达式。如果参数为空，表示所有表。

1.7. 数据迁移 Tree

不建议一次转移大量数据，有概率碰到网络超时或内存紧张。

# 把数据从main迁移到2018库，结果保存到main-tree-out.log
./godbart tree \
 -c godbart.toml \
 -s prd_main \
 -d prd_2018 \
 -x .sql -x .xsql \
 -e "DATE_FROM=2018-11-23 12:34:56" \
 demo/sql/tree/tree.sql
 > main-tree-out.log

# 静态分析上面的datatree语法结构。
./godbart sqlx \
 -c godbart.toml \
 -e "DATE_FROM=2018-01-01 00:00:00" \
 demo/sql/tree/tree.sql \
 | tee /tmp/sqlx-tree.log

不同业务场景对数据活性有不同的定义，比如日期，按ID范围等。 Tree命令只支持静态分离数据，即在执行前已预知数据范围和目标数据库。因为动态分库，通常有业务代码负责，而不会沦落到"SQL+数据维护"的层面。此外，要求表的主键具有分布式主键特质（自增型主机很糟糕，破坏数据关系）

数据树(DataTree)的核心是占位，其具有以下特性。

定义（Def）的唯一性。
可以准确描述数据关系。
可以满足基本的SQL语法。
占位必须先声明再使用，以区别普通字面量。

-- 建立分库有关的表
CREATE TABLE `sys_hot_separation` (
  `table_name` VARCHAR(100) NOT NULL COMMENT '表名',
  `checked_id` BIGINT(20) NOT NULL COMMENT '检查过的最大ID',
  `checked_tm` DATETIME NOT NULL COMMENT '上次检查的时间',
  PRIMARY KEY (`table_name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

分离数据的规则必须预先可知，如下脚本根据历史信息，迁移10棵以tx_parcel为根的数据树。并且每迁移一棵树，就会在源数据库上执行一次FOR，用来完成此树的标记和清理工作。

注意：FOR时强关系，REF是弱关系，两者的关联和区别，见后面章节。

-- 不存在则增加默认值
INSERT IGNORE sys_hot_separation VALUES ('tx_parcel',0,now());

-- VAR checked_id 'tx_parcel.checked_id'  #数据树根节点
SELECT checked_id FROM sys_hot_separation WHERE table_name = 'tx_parcel';

-- REF id 'tx_parcel.id'  #一级树节点'tx_parcel.id'，父节点是 'tx_parcel.checked_id'
-- REF track_num 'tx_parcel.track_num'  #提取结果中的id和track_num作为变量，形成数据树
SELECT * FROM tx_parcel WHERE id > 'tx_parcel.checked_id' LIMIT 10;

-- REF id 990003  #二级树节点990003，父节点是 TRK0001
SELECT * FROM tx_track WHERE track_num = 'tx_parcel.track_num';

-- REF id 990004 #二级树节点990004，父节点是 'tx_parcel.id'
SELECT * FROM tx_parcel_event WHERE parcel_id = 'tx_parcel.id';

-- RUN FOR 'tx_parcel.id' #每棵'tx_parcel.id'树节点完成时，执行此语句
REPLACE INTO sys_hot_separation VALUES ('tx_parcel', 'tx_parcel.id', now());

1.8. 控制端口

对于长时间执行的命令，支持单例和运行时控制（如优雅停止），因此增加了控制端口功能。其监听TCP端口（建议1024以上），当端口号≤0时，表示忽略此功能。开启控制端口时，会在stderr输入控制密码，通过127.0.0.*登录不需要密码。

单例，检测控制端口是否被监听，保证当前主机唯一单例。
控制，通过tcp链接，输入控制密码，验证后，执行支持的命令。

全局命令：

help - 查看帮助。
exit - 关闭当前连接。
pass - 生成一个新密码，作废旧密码，新登录有效。
info - 查看当前用户和待执行的命令。
kill N - 杀掉队列中id=N的任务，N=-1时，清掉全部。
/ 公聊，跟所有登录用户发消息。
/ip:port 私聊，指定登录用户发消息。

非全局命令，称作一个room，一个room内，改变行为的命令的信息时全员可见的。只对Tree提供了以下命令，可使用不存在的id查看当前运行情况。

tree - 显示当前在执行的sqlx的树状结构及ID。
stat - 显示当前在执行的信息。
stop - 优雅的停止程序(exit 99)，全员可见。
- stop 直接在当前树结束时停止。
- stop N 在id=N的树时停止，N<0时等效于stop。
wait - 执行等待，kill可继续。长时间停止可能导致数据库连接超时。全员可见。
- wait 在当前树完成时等待。
- wait N 在id=N的树时停止，N<0时等效于stop。

# 连接控制端口，非127.0.0.* 登录，需要先输入密码
telnet 127.0.0.1 59062
# 以下为连接成功输入的命令。

info # 查看运行信息
tree # 查看当前执行`数据树`结构
stat # 查看统计情况
wait 0 # 空等待，显示每个执行节点信息。
kill # 清理掉所有任务
stop # 优雅停止当前一棵树的结束

2. 指令变量

指令在SQL的注释中定义，由指令名，变量para和占位hold三部分构成。 指令保留SQL的可读性和执行能力，对DBA友好，在运行时进行静态或动态替换。

数据树按SQL的自然顺序构建和执行，占位必须先声明再使用，否则无法正确识别。明确语意和增加可读性，RUN|OUT存在顺序调整，下文有讲。

挂树是指数据数分叉时，寻找父树的动作，当前的规则如下：

RUN|OUT 属于显示挂树，优先级是10，支持多父结构
REF|STR，是隐式挂树，只支持单父，取按行号大者，优先级是20。
SEQ|TBL，同REF，优先级时30。
按优先级挂树，数值越小优先级越高，当高优先级完成后，忽略低优先级。
指令名是固定值，当前只支持，ENV|REF|STR|RUN|OUT
- ENV|REF|STR|SEQ|TBL 等会产生值，为定义（Def）指令。
- RUN|OUT 为行为（Act）指令。
- ENV|REF 对变量自动脱去最外层成对的引号。
- STR 有自己的脱引号规则，以进行模式展开。
引号包括，单引号'，双引号"，反单引号`。
空白指英文空格0x20和制表符\t
变量和占位要求相同，都区分大小写。
- [^ \t'"`]+ 连续的不包括引号和空白的字符串。
- (['"`])[^\1]+\1成对引号括起来的字符串(非贪婪)。
占位，在SQL语句符合语法的字面量（数字，字符串，语句等）。
- 必须当前SQL中全局唯一，不与其他字面量混淆，以准确替换，确定数据关系。
- 尽量使用SQL的合规语法，没必要自找麻烦，比如没必要的引号或特殊字符。
- 使用时，保留所有引号。
- 选择占位，尽量构造出where条件为false的无公害SQL。

注意：所有包含空白的变量和占位，都需要有引号配合

2.1. 环境变量 ENV

ENV通过 -e MY_ENV="my val"从命令行传入，全局有效。当只有Key时，表示使用系统变量，如 -e PATH。

系统内置了以下变量，

USER，当前用户
HOST，主机名
DATE，当前日时(yyyy-mm-dd HH:MM:ss)
ENV-CHECK-RULE，ENV检查规则，默认报错，可用EMPTY置空
SRC-DB，当前执行的源DB（只有Tree，且唯一）；
OUT-DB，当前执行的目标DB（只有Tree，只有OUT时能确定）；

当变量被1个以上的反单引号包围时，表示此ENV通过运行SQL获得，是第一条记录的第一个字段。优点是不会被纳入数据树，缺点是不享受SQL高亮，不能替换其他占位。注意 STR不支持这么骚气的操作，因为有模式展开。

如下SQL，定义环境变量DATE_FROM，其占位符'2018-11-23 12:34:56' ，需要通过系统环境变量获得，如果不存在（默认ERROR）则会报错。

假设运行时 DATE_FROM的值为'2018-01-01 00:00:00'，那么上述SQL执行时为，是采用PreparedStatement的动态形式，可避免SQL转义或注入，提高运行时性能。

-- ENV ``SELECT NOW();`` sql_now  运行时赋值

-- ENV DATE_FROM '2018-11-23 12:34:56'
SELECT * FROM tx_parcel WHERE create_time = '2018-11-23 12:34:56';

-- 运行时替换，比如实际参数为'2018-01-01 00:00:00'
-- SELECT * FROM tx_parcel WHERE create_time = ?

2.2. 结果引用 REF

REF 也采用PreparedStatement替换，并对所在结果集的每条记录循环。多个REF会产生多个分叉点，进而形成不同的子数据树。

当子语句，只依赖一个REF的占位(如9900397)时，相当于RUN FOR 9900397，两者在关系上等价的，但执行时机不同，前者在树中，后者在树末。

当子语句，会依赖多个REF的占位(如9900398,9900399)时，为了避免歧义，必须使用 RUN/OUT精确描述，否则系统会任性选择。

如下SQL，定义了结果集的引用 id和track_num变量，和他们对应的SQL占位符。其中，id和track_num，都是tx_parcel的结果集中，用来描述数据树。

-- ENV DATE_FROM '2018-11-23 12:34:56'
-- REF `id` 1234567890  #假设id需要反单引号处理
-- REF track_num 'TRK1234567890'
SELECT * FROM tx_parcel WHERE create_time = '2018-11-23 12:34:56';

SELECT * FROM tx_track WHERE track_num = 'TRK1234567890';

SELECT * FROM tx_parcel_event WHERE parcel_id = 1234567890;

系统为结果集（SELECT）内定了引用，以便可以多值insert和update语句。

COL[] 表示所有列名，会展开为 id,name,等（可以转义）
VAL[] 表示结果的值，会展开为 ?占位符和对应值。
COL[1] 表示获得第1个列名
VAL[2] 表示获得第2个值

其中，角标从1开始。引用为数组时，在[]内指定分隔符，约定如下，

COL[]和COL[,]相同，分隔符默认是,。
存在多个分隔符时，只取第一个非空的。
不能用数字，因为做角标
不能用[或]，因为你懂的。
仅支持\\，\t，\n的字符转义。

2.3. 变量声明 VAR

同REF一样作用于结果集，但不形成树状结构。和ENV相比，可以时string之外的SQL类型。

2.4. 静态替换 STR

STR与ENV和REF不同，采用的是静态替换字符串。它可以直接定义（同REF和ENV），也以重新定义其他动态占位使其静态化。

脱引号处理，当变量和占位具有相同的引号规则，会都脱去最外的一层。此规则只对STR有效，因为其变量部分，可以重定义带有引号的占位。

模式展开，变量中有COL[*]或VAL[*]时，会进行展开，规则如下，

首先脱引号处理。
只支持直接定义，不支持重新定义。
除了COL[*]和VAL[*]外，都作为字面量处理，不会深度展开。
COL[*]部分，使用静态替换。
VAL[*]部分，使用PreparedStatement形式执行。

-- REF Y4 '2018-00-00 00:00:00'
SELECT year(now()) as Y4;

-- STR '2018-00-00 00:00:00' $y4_table   #重新定义，以使SQL语法正确。
CREATE TABLE tx_parcel_$y4_table LIKE tx_parcel;
-- 替换后
-- CREATE TABLE tx_parcel_2018 LIKE tx_parcel;

-- STR COL[1] $COL1  #直接定义。
-- STR "`COL[]` = VAL[]" "logno = -99009"  #直接定义，脱引号，模式展开。
-- REF VAL[1] '占位值'
-- REF id 'tx_parcel.checked_id'
SELECT * FROM tx_parcel WHERE create_time = '2018-11-23 12:34:56';

INSERT INTO tx_parcel (`$COL1`) VALUES ('占位值');
-- 替换后
-- INSERT INTO tx_parcel (`id`) VALUES (?);

UPDATE tx_parcel SET logno = -99009 WHERE id='tx_parcel.checked_id';
-- 替换后
-- UPDATE tx_parcel SET `id` = ? ,`create_time` = ? /*循环加下去，逗号分割*/ WHERE id='tx_parcel.checked_id';

2.5. 整数序列 SEQ

SEQ会生成整数序列，只支持静态替换。

参数 格式为格式[开始,结束,步长]，如tx_test_%02d[1,20]
格式为fmt的printf标准格式
开始和结束都时闭区间，是包含的
步长可以省略，默认是1
注意空白

SEQ会其定义处产生循环，但不产生树。对自身及子树有影响。

详见 demo/sql/tree/stbl.sql

-- SEQ `tx_test_%02d[1,10]` tx_test_## #生成tx_test_01到tx_test_10，共10张表
CREATE TABLE `tx_test_##` (
  `id` BIGINT NOT NULL COMMENT 'id',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

2.6. 表名匹配 TBL

TBL根据当前库现有表进行匹配，只支持静态替换

参数 为正则，行为上等同于使用了^$，会对表名进行全匹配，不是部分。
也可以使用\b或 ^|$进行界定

规则同SEQ，详见 demo/sql/tree/stbl.sql。当在Out执行时，表名为当前数据库内所有表。

 -- TBL tx_outer_trknum.* `tx_outer_trknum` # 正则匹配表名。
 ALTER TABLE `tx_outer_trknum`
   ADD COLUMN `label_file` VARCHAR(200) DEFAULT NULL COMMENT '面单文件位置' AFTER `trknum`;

2.7. 条件执行 RUN

执行条件由REF或ENV定义，只对所在的语句有效，执行顺序与SQL行顺序有关。

ONE 以定义占位的节点为根，第一棵树时执行。
FOR 以定义占位的节点为根，每棵树时执行，等效于REF。
END 以定义占位的节点为根，最后一棵树执行。
HAS 表示占位变量有值时执行该树。有值指，
- 数值大于0
- 布尔true
- 非NULL
- 字符串非空（“”）
- 其他类型强转为字符串后非空。
NOT 与HAS相反。

条件执行，有以下约定关系，

多个ONE|FOR|END是OR关系。
HAS|NOT自身或与其他是AND关系。
RUN 可以确定多个父关系，且强于REF。
RUN 在树结束时执行，而REF在树中执行。
数据点增序排列，权重为REF<ONE<FOR<END，同级时算SQL位置。
增加ITSELF占位，表示单独执行，没有任何依赖。

条件执行的例子，参考 demo/sql/tree/*.sql

2.8. 输出执行 OUT

与条件执行 RUN 一样的定义，但不在源DB上执行，而是在目标DB上执行。

注意，在有定义Def语句，如REF或SEQ等，不能使用OUT。因为一个占位在运行时存在多值，从而导致语义混乱或执行时麻烦。

-- ENV DATE_FROM '2018-11-23 12:34:56'
-- REF id 1234567890
SELECT * FROM tx_parcel WHERE create_time = '2018-11-23 12:34:56';

-- OUT FOR 1234567890
REPLACE INTO tx_parcel VALUES(1234567890);

3. 测试手册

使用工程中/demo/sql下的SQL进行所有功能的演示和测试。以下是准备工作，你必须都懂。注意，所有对数据库有写操作的命令，都需要增加--agree才会执行，否则仅输出预计结果。

可以分步人工确认，也可以在工程目录中执行demo/chk/manual.sh自动确认。执行之前，需要增加执行权限，chmod +x ，并设置好mysql连接信息。

3.1. 获得执行文件

### 方法一：下载 ###
# 直接下载release文件，直接到unzip步骤
# https://github.com/trydofor/godbart/releases

### 方法二：编译 ###

git clone https://github.com/trydofor/godbart.git
cd godbart

# 单平台编译
GOOS=linux GOARCH=amd64 go build

# 或全平台发布
chmod +x build.sh
./build.sh

ls -l release 
# 解压对应系统的执行文件，默认linux
unzip release/godbart-linux-amd64.zip

# 得到 godbart 程序

3.2. 修改数据源配置

修改godbart.toml中的数据库用户名，密码，主机，端口等

# 你的用户是 yourname
sed -i 's/trydofor:/yourname:/g' godbart.toml
# 你的密码是 yourpass
sed -i 's/:moilioncircle@/:yourpass@/g' godbart.toml
# 你的ip是 127.0.0.9
sed -i 's/(127.0.0.1:/(127.0.0.9:/g' godbart.toml
# 你的端口是 13306
sed -i 's/:3306)/:13306)/g' godbart.toml

3.3. 创建数据库

# 存在一个可使用的数据库，如一般都有的test
./godbart exec \
 -c godbart.toml \
 -d lcl_test \
 --agree \
 demo/sql/diff/reset.sql
 
 # 或用 mysql命令，创新数据库
 cat demo/sql/diff/reset.sql \
 | mysql -h127.0.0.1 \
 -utrydofor \
 -P3306 \
 -p"moilioncircle"

3.4. Exec 执行脚本

使用 exec 执行init中的脚本初始化 prd_main 数据库。

./godbart exec \
 -c godbart.toml \
 -d prd_main \
 --agree \
 demo/sql/init/

3.5. Revi 版本控制

执行revi中的脚本使 prd_2018 更新到 2018111103 版本（只有结构没有数据）。因为prd_main 版本号比 2018111103 所以会跳过小版本的更新。

./godbart revi \
 -c godbart.toml \
 -d prd_main \
 -d prd_2018 \
 -r 2018111103 \
 --agree \
 demo/sql/revi/

3.7. Sync 结构同步

复制prd_main表结构到dev_main

./godbart sync \
 -c godbart.toml \
 -s prd_main \
 -d dev_main \
 -t tbl,trg \
 --agree
 
# 同步小表（表结构版本）
./godbart sync \
 -c godbart.toml \
 -s prd_main \
 -d dev_main \
 -t row \
 --agree \
 sys_schema_version

3.7. Diff 结构差异

使用 diff 执行比较 prd_main 与 prd_2018, dev_main 差异。

# 查看 prd_main 与 dev_main的表名差异，sync后完全一致
./godbart diff \
 -c godbart.toml \
 -s prd_main \
 -d dev_main \
 -t tbl,trg
 
# 显示 tx_parcel表在prd_main上的创建语句
./godbart show \
 -c godbart.toml \
 -s prd_main \
 -t tbl,trg \
  tx_parcel \
| tee /tmp/ddl-tx_parcel-main.sql

# 比较 tx_parcel 在prd_main和prd_2018详细差异
./godbart diff \
 -c godbart.toml \
 -s prd_main \
 -d prd_2018 \
 -t tbl,trg \
  tx_parcel \
| tee /tmp/diff-tx_parcel-main-2018.sql

3.8. SqlX 静态分析

静态分析 DataTree结构。

./godbart sqlx \
 -c godbart.toml \
 -e "DATE_FROM=2018-01-01 00:00:00" \
 demo/sql/tree/tree.sql \
 | tee /tmp/sqlx-tree.log

3.9. Tree 保存JSON

把数据，保持成TSV（TAB分割），CSV（逗号分割）和JSON。此例中，有脱引号，模式展开 的组合。

# 危险动作，先保持日志查看。
# 注意SQL以DEBUG输出，用TRACE会没有输出。
./godbart tree \
 -c godbart.toml \
 -s prd_main \
 -e "DATE_FROM=2018-01-01 00:00:00" \
 demo/sql/tree/json.sql \
 | tee /tmp/tree-main-json.log
 
#分离和处理，去掉注释和结束符
cat /tmp/tree-main-json.log \
| grep -E '^--' | grep -vE  "^(-- )+(SRC|OUT)" \
| sed -E 's/^-- |;$//g' \
| tee /tmp/tree-main-json.txt

3.10. Tree 迁移数据

此例中，因为危险操作比较多，务必先分离脚本，人工确认。脚本99%可以执行，在二进制或转义字符转换字面量可能有遗漏。

字面量不好描述的类型，可--agree，在程序中以动态数据来执行。

# 危险动作，先保持日志查看
./godbart tree \
 -c godbart.toml \
 -s prd_main \
 -d prd_2018 \
 -e "DATE_FROM=2018-01-01 00:00:00" \
 demo/sql/tree/tree.sql \
2>&1| tee /tmp/tree-main-2018-all.log
 
# 获得全部SQL
cat /tmp/tree-main-2018-all.log \
| grep -vE '^[0-9]{4}/[0-9]{2}|^$' \
| tee /tmp/tree-main-2018-all.sql

# 获得源库SQL
cat /tmp/tree-main-2018-all.sql \
| grep -E '^[^-]|-- SRC' \
| tee /tmp/tree-main-2018-src.sql

# 获得目标库SQL
cat /tmp/tree-main-2018-all.sql \
| grep -E '^--' | cut -c 4- | grep -v  "-- SRC" \
| tee /tmp/tree-main-2018-out.sql

# 直接执行
./godbart tree \
 -c godbart.toml \
 -s prd_main \
 -d prd_2018 \
 -e "DATE_FROM=2018-01-01 00:00:00" \
 --agree \
 demo/sql/tree/tree.sql \
2>&1| tee /tmp/tree-main-2018-all.log

4. 实用小技巧

数据的日常处理，会有很多技巧，能提高数据意识，培养直觉。

4.1. SHELL分离信息

过程信息以log在stderr(2)输出。结果信息以stdout(1)输出， 1和2是描述符，>表重定向，&表合并，组合起来可分离信息。

> main-2018-diff-out.log 结果直接保存文件，控制台不输出。
2> main-2018-diff-err.log 过程保存文件，控制台不输出。
&> main-2018-diff-all.log 全部保存文件，控制台不输出。
| tee main-2018-diff-out.log 结果保存文件，且控制台输出。
2>&1| tee >(grep -vE '^[0-9]{4}' > main-2018-diff-out.log) 同上。
2>&1| tee main-2018-diff-all.log 全部保存文件，且控制台输出。

4.2. 按数据量排序

查询所有表的记录数，对于单表300万的数据，进行按树分离或清理。

-- 按记录数排序，同时查看磁盘空间
SELECT 
    TABLE_NAME,
    TABLE_ROWS,
    FLOOR(DATA_LENGTH  / 1048576) AS DATA_M,
    FLOOR(INDEX_LENGTH / 1048576) AS INDEX_M
FROM
    INFORMATION_SCHEMA.TABLES
WHERE
    TABLE_SCHEMA = 'godbart_prd_main'
ORDER BY 
    TABLE_ROWS DESC, 
    DATA_M DESC;

4.3. 调整分叉位置

多分支的REF会生成多个分叉的节点，可以通过FOR和END调整。

而依赖与多个条件的WHERE，可JOIN到同一个分叉SQL中。

以 ./demo/sql/tree/fork.sql 为例。

4.4. REF的默认值

当REF的SQL返回的0条记录时，以此为根的树就不会存在。我们可以通过以下的SQL来指定默认值，保证能返回1条记录。

-- 通过 INSERT IGNORE 插入默认值
INSERT IGNORE SYS_HOT_SEPARATION VALUES ('tx_parcel',0, NOW());

-- 批量初始化
INSERT IGNORE SYS_HOT_SEPARATION SELECT 
    TABLE_NAME,0,NOW()
FROM
    INFORMATION_SCHEMA.TABLES
WHERE
    TABLE_SCHEMA = 'godbart_prd_main';

-- 通过 聚集函数与CASE WEN
SELECT 
    CASE
        WHEN MAX(CHECKED_ID) IS NULL THEN 0
        ELSE MAX(CHECKED_ID)
    END AS CHECKED_ID
FROM
    SYS_HOT_SEPARATION
WHERE
    TABLE_NAME = 'tx_parcel';

4.５. 全部同步

可以使用 sync -t row 进行小表的数据同步，也可以使用 tree的以下脚本。这些脚本可以使用正则进行批量生成，参考攻城狮朋友圈正则分享。

-- STR SRC-DB SRCDB
-- VAR checked_id 'tx_sender.checked_id'
select checked_id from sys_hot_separation where table_name = 'tx_sender';

-- REF max_id 'tx_sender.max_id'
select max(id) as max_id from tx_sender where id > 'tx_sender.checked_id';

-- OUT FOR 'tx_sender.max_id'
replace into tx_sender
  select * from SRCDB.tx_sender
  where id > 'tx_sender.checked_id' and id <= 'tx_sender.max_id';

-- RUN FOR 'tx_sender.max_id'
replace into sys_hot_separation values ('tx_sender', 'tx_sender.max_id', now());

4.6. 如何对比迁移数据

统计各表的数据变化，查看迁移效果

-- 统计库数据
SELECT 
    TABLE_SCHEMA,
    SUM(TABLE_ROWS)
FROM
    INFORMATION_SCHEMA.TABLES
WHERE
    TABLE_SCHEMA like 'godbart_%'
GROUP BY 
    TABLE_SCHEMA;

-- 统计表数据
SELECT 
    TABLE_NAME,
    TABLE_ROWS
FROM
    INFORMATION_SCHEMA.TABLES
WHERE
    TABLE_SCHEMA = 'godbart_prd_main'
    AND TABLE_ROWS > 0
ORDER BY 
    TABLE_ROWS DESC;

4.7. 如何静态分析和运行时监控

静态分析，第一步，要执行sqlx命令，分析树结构。第二部，不带agree参数在db上执行以下，看debug日志。运行时监控，使用控制端口，telnet连接过去，使用stat|wait|tree命令，还有本机日志。

4.8. `tree`做版本管理（分表）

除了revi，使用tree的VAR和RUN FOR也可以完成版本更新的。

-- 单表 =========================
-- VAR VER v2019010302
SELECT MAX(version) as VER FROM sys_schema_version WHERE version = 2019010302;
-- RUN NOT v2019010302
ALTER TABLE tx_parcel ADD CONSTRAINT uk_track_num UNIQUE (is_deleted, track_num);
-- RUN NOT v2019010302
REPLACE INTO sys_schema_version (version, created) VALUES(2019010302, NOW());

-- 分表 =========================
-- VAR VER v2019010302
SELECT MAX(version) as VER FROM sys_schema_version WHERE version = 2019010302;
-- RUN NOT v2019010302
-- STR tbl `tx_parcel_#` 为分表更新
SELECT tbl FROM (
  SELECT 'tx_parcel_0' AS tbl  UNION ALL
  SELECT 'tx_parcel_1' UNION ALL
  SELECT 'tx_parcel_2' UNION ALL
  SELECT 'tx_parcel_3') TMP;
-- RUN NOT v2019010302
ALTER TABLE `tx_parcel_#` ADD CONSTRAINT uk_track_num UNIQUE (is_deleted, track_num);
-- RUN NOT v2019010302
REPLACE INTO sys_schema_version (version, created) VALUES(2019010302, NOW());

-- 分表 =========================== 0.9.7+

-- SEQ tx_parcel_%02d[1,10] tx_parcel_##create
CREATE TABLE IF NOT EXISTS `tx_parcel_##create` like `tx_parcel`;
-- RUN FOR tx_parcel_##create
INSERT IGNORE `tx_parcel_##create` SELECT * FROM `tx_parcel` limit 1;
-- OUT FOR tx_parcel_##create
CREATE TABLE IF NOT EXISTS `tx_parcel_##create` like `tx_parcel`;


-- TBL tx_parcel_\d+ tx_parcel_##select
-- REF id 'tx_parcel.id'  #提取 id，作为'tx_parcel.id'节点
-- STR VAL[] 'tx_parcel.VALS'
SELECT * FROM `tx_parcel_##select` limit 1;

5. 不想理你的问题

Q01：使用中发现了问题，出现了BUG怎么办？
- 有能力hack code的，就提交PR。
- 没能力的，提交 issue。
- 再不行的，就认命吧。
Q02：我SQL写错了，习惯性输入了--agree，结果数据丢了 :(
- 事后没有后悔药，不要轻易 agree。
- 执行前要确认，要两人确认，想好fallback计划。
- 一定写where false的条件安全SQL。
- 甚至写替换前语法错误的SQL。
Q03：FOR中只有HAS和NOT，会增加>,<或其他运算符么？
- 复杂的条件判断，可以由SQL语句产生，然后REF|VAR。
- 写那么复杂的SQL，不如去编程好了。
Q04：数据树迁移的吞吐量/性能如何？
- 坏消息是吞吐量不太好，好消息是不占资源。
- 实测一棵4层100条SQL的数据树，同机同实例千万数据，每秒迁移10.87棵树。
- 速度依赖于sql索引，golang层面提升不大。
Q05：输出信息太多了/太快了，看不清/来不及处理
- 使用-l trace调整信息输出级别。
- 用 shell的重定向分离信息流。
- 看文档，像吃药一样，看说明书，听医嘱。
Q06：SQL没有正常解析，报错了。
- 确认单个完整的SQL中间没有空行分开，结尾有分隔符。
- 确认一组SQL间，每个独立SQL有分隔符或空行分开。
- 发个issue，贴上SQL，应该时没见过的SQL。

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
art		art
demo		demo
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
build.sh		build.sh
changelog.txt		changelog.txt
go.mod		go.mod
godbart.toml		godbart.toml
main.go		main.go

License

trydofor/godbart

Folders and files

Latest commit

History

Repository files navigation