From 4d1b53535681c942b897d233307af7ae18983eae Mon Sep 17 00:00:00 2001 From: LC1332 Date: Tue, 30 May 2023 18:38:16 +0800 Subject: [PATCH] tokenizer --- data/LuotuoTokenizer.md | 44 +++++++++++++++++++++++++++++++++++++++-- 1 file changed, 42 insertions(+), 2 deletions(-) diff --git a/data/LuotuoTokenizer.md b/data/LuotuoTokenizer.md index 61015e1..e0f73a8 100644 --- a/data/LuotuoTokenizer.md +++ b/data/LuotuoTokenizer.md @@ -8,6 +8,7 @@ + 我们希望有一个中文支持更好的tokenizer,还是和原来的LLaMA对齐 + ## 目标 我们希望我们的Tokenizer有下面这些特征 @@ -22,9 +23,27 @@ + 我们希望有两个token,一个在llama的基础上只增不减,一个还是删除一些英语的token,使得colab普通机器也可以载入这个tokenizer +GLM和Chinese Alpaca > 15G + +## 四角/五笔 + +铜 87720 qmgk +铁 85780 qrwy +铝 86760 qkkg + +苹 44409 aguh +草 44406 ajj +苦 44604 adf + + ## 可能使用到的工具 -+ 四角编码 ++ 四角编码/五笔编码 + ++ 中英文翻译 (这个我们可以去翻译,可以参考github上的新华字典项目) + ++ OpenAI Embedding 4096维 + ## 要注意到的问题 @@ -32,5 +51,26 @@ ## 检验方法 +分析重点word embedding层,下一层 + ++ 比较的是 原模型 跑英语 —————— 新模型 跑中文 + ++ 比low level的时候,feature的average pooling是不是一样 是一样就很厉害 + ++ 如果这个成功,adapt到新语言 就很容易了 + ++ embedding可视化 / 求差 / 余弦。 寻找一个带分类的数据集,准备中英文 MMC4-130k + +## 缓慢启动的路径 + ++ 先试着替换, 找1-2个英文,直接换成 之前没有的中文 + ++ 先试着删除 1-2个 重复的英文 看看会不会影响。 + ++ 试着加一两个中文,并且替换合适的embedding vector + ++ 扫文本,把特别低频的token 都给替换成 中文字 + ++ tokenize的时候能输出成你的id -## \ No newline at end of file ++ 后面可以考虑搞训练了 \ No newline at end of file