Skip to content

Commit

Permalink
tokenizer
Browse files Browse the repository at this point in the history
  • Loading branch information
LC1332 committed May 30, 2023
1 parent 087ea69 commit 4d1b535
Showing 1 changed file with 42 additions and 2 deletions.
44 changes: 42 additions & 2 deletions data/LuotuoTokenizer.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,6 +8,7 @@

+ 我们希望有一个中文支持更好的tokenizer,还是和原来的LLaMA对齐


## 目标

我们希望我们的Tokenizer有下面这些特征
Expand All @@ -22,15 +23,54 @@

+ 我们希望有两个token,一个在llama的基础上只增不减,一个还是删除一些英语的token,使得colab普通机器也可以载入这个tokenizer

GLM和Chinese Alpaca > 15G

## 四角/五笔

铜 87720 qmgk <heng1-87><heng2-72><heng3-0>
铁 85780 qrwy <heng1-87><heng2-58><heng3-0>
铝 86760 qkkg <heng1-87><heng2-66><heng3-0>

苹 44409 aguh <zong1-44><zong2-40><zong3-9>
草 44406 ajj
苦 44604 adf


## 可能使用到的工具

+ 四角编码
+ 四角编码/五笔编码

+ 中英文翻译 (这个我们可以去翻译,可以参考github上的新华字典项目)

+ OpenAI Embedding 4096维


## 要注意到的问题

+ 要注意

## 检验方法

分析重点word embedding层,下一层

+ 比较的是 原模型 跑英语 —————— 新模型 跑中文

+ 比low level的时候,feature的average pooling是不是一样 是一样就很厉害

+ 如果这个成功,adapt到新语言 就很容易了

+ embedding可视化 / 求差 / 余弦。 寻找一个带分类的数据集,准备中英文 MMC4-130k

## 缓慢启动的路径

+ 先试着替换, 找1-2个英文,直接换成 之前没有的中文

+ 先试着删除 1-2个 重复的英文 看看会不会影响。

+ 试着加一两个中文,并且替换合适的embedding vector

+ 扫文本,把特别低频的token 都给替换成 中文字

+ tokenize的时候能输出成你的id

##
+ 后面可以考虑搞训练了

0 comments on commit 4d1b535

Please sign in to comment.