Dict Trick

这是一组方便处理词库的工具

目前已经完成初步整理的有：

Clean

用于过滤词库中的废词，完成简繁转换，用于中文输入法使用。针对wiki词条和萌娘百科词条做了精准优化和大量测试。处理过程并非直接使用黑名单/正则进行匹配。

一定程度上保留了中英文混合词条
统一调整-``·等符号
从空格、标点切分词条
切分和抛弃大量含序号/数字/数量词的词条，包括但不限于①⒛Ⅰⅻ甲
切分和去除大量非常见汉字的词条
去除部分过短的词条
...

DumpMoeGirl

用户dump萌娘百科的词库，并调用Clean工具完成处理

UserDBClean

rime系列输入法同步用户词库时，会生成userdb.txt格式的用户词库同步文件。
使用此工具可以对用户词库文件切割、分析、整理。

基本逻辑

通过与原词库文件对比，可以根据特征对同步文件的内容进行分类：

词条在白名单中，直接不处理（本次对文件处理后的文件，下次当作白名单文件，可以降低人工处理的工作量）
词库中有这个词，并且编码相同（不需处理）
词条和编码与黑名单完全一致，直接忽略
词条和编码符合黑名单正则规则，输出到单独的文件
词库中有这个词，但是词条编码不同，说明有错误的输入习惯，或者可能词库有错误的编码
词库中没有这个词，说明词条是自造词
对自造词按c值排序，可以再次筛选结果
1. 低频词，可能是错误的造词，需要确认并删除，避免后续打字出现错误的书写
2. 高频词，可能需要加入词库中
3. c=-1，可以直接删除而不输出到文件

经过分类后可以删除原同步文件和userdb文件夹，放置修改后的文件，执行同步

参数说明

此工具和前两个参数有较大差异，特做说明（同样可以把这些参数写入config文件，并用-c参数调用）：

-input                 待处理的文件
-count-group a:b:c:d   按照频率对词条分组，abcd为冒号分割的递增的数字，设定了分组内词条的c值最大值。可以最多分10组。推荐参数 0:3:8:20
-refer                 原方案中的词库文件
-blacklist             黑名单词条所在的文件（使用词条和编码匹配）
-blacklist-regex       词条和编码的正则匹配规则，匹配的词条单独输出到一个文件
-whitelist             不处理的词条所在的文件（只使用词条本身匹配，不比较编码）

使用方法

下载或者build jar文件
下载opencc （由于java具有跨平台性，而opencc本身就是跨平台的，理论上Linux也可以使用这个工具）
根据需求编辑opencc的简繁转换配置文件
根据需求编辑废词文件
根据需求编辑配置文件，仓库中的config.txt是一个示例，已经备注了使用的参数（配置文件可以是任何名称）
使用命令 java -jar DumpMoegirl.jar -c config.txt 来调用配置文件完成爬虫任务
使用命令 java -jar Clean.jar -c config.txt 来调用配置文件完成纯文本词条过滤任务
使用命令 java -jar UserDBClean.jar -c config.txt 来调用配置文件完成纯文本词条过滤任务
当然也可以不使用配置文件，直接在命令行内输入所需参数
词库处理程序运行结束，名称为.dict.txt没有额外后缀的文件为最终文件。如果没有使用-less-output参数，可以得到转换过程产生的其他文件，可以用于进一步分析和改善。同步文件处理程序运行结束，输出一组分离的文件，方便手动分析和处理；同时也自动输出一个名称为.auto_output.txt的合并文件，自动删除了黑名单匹配到的词条，如果有count-group参数则自动删除第一组。

附言

我在使用此工具以及深蓝词库转换工具持续更新萌娘百科、维基百科的rime词库文件，但是由于你并不一定使用了和我相同的配置文件和相同版本的软件，会导致转换的结果可能存在差异。

转换结果和部分配置文件在我的仓库中：

pinyin_simp_wiki.dict.yaml：Github下载
pinyin_simp_moe.dict.yaml：Github下载
废词文件：https://github.com/tumuyan/rime-melt/tree/master/others

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
.idea		.idea
lib		lib
meta		meta
src		src
.gitignore		.gitignore
DumpMoegirlDebugDemo.bat		DumpMoegirlDebugDemo.bat
Readme.md		Readme.md
config.txt		config.txt
dic_spider.iml		dic_spider.iml
wikiClean.bat		wikiClean.bat
wikiCleanL.bat		wikiCleanL.bat

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dict Trick

Clean

DumpMoeGirl

UserDBClean

基本逻辑

参数说明

使用方法

附言

About

Releases 5

Packages

Languages

tumuyan/Dict-Trick

Folders and files

Latest commit

History

Repository files navigation

Dict Trick

Clean

DumpMoeGirl

UserDBClean

基本逻辑

参数说明

使用方法

附言

About

Resources

Stars

Watchers

Forks

Releases 5

Packages 0

Languages

Packages