From 4d1b53535681c942b897d233307af7ae18983eae Mon Sep 17 00:00:00 2001
From: LC1332 <chengli.thu@gmail.com>
Date: Tue, 30 May 2023 18:38:16 +0800
Subject: [PATCH] tokenizer

---
 data/LuotuoTokenizer.md | 44 +++++++++++++++++++++++++++++++++++++++--
 1 file changed, 42 insertions(+), 2 deletions(-)
diff --git a/data/LuotuoTokenizer.md b/data/LuotuoTokenizer.md
index 61015e1..e0f73a8 100644
--- a/data/LuotuoTokenizer.md
+++ b/data/LuotuoTokenizer.md
@@ -8,6 +8,7 @@
 
 + 我们希望有一个中文支持更好的tokenizer，还是和原来的LLaMA对齐
 
+
 ## 目标
 
 我们希望我们的Tokenizer有下面这些特征
@@ -22,9 +23,27 @@
 
 + 我们希望有两个token，一个在llama的基础上只增不减，一个还是删除一些英语的token，使得colab普通机器也可以载入这个tokenizer
 
+GLM和Chinese Alpaca > 15G
+
+## 四角/五笔
+
+铜 87720 qmgk  <heng1-87><heng2-72><heng3-0>
+铁 85780 qrwy  <heng1-87><heng2-58><heng3-0>
+铝 86760 qkkg  <heng1-87><heng2-66><heng3-0>
+
+苹 44409 aguh <zong1-44><zong2-40><zong3-9> 
+草 44406 ajj
+苦 44604 adf
+
+
 ## 可能使用到的工具
 
-+ 四角编码
++ 四角编码/五笔编码
+
++ 中英文翻译 （这个我们可以去翻译，可以参考github上的新华字典项目）
+
++ OpenAI Embedding 4096维
+
 
 ## 要注意到的问题
 
@@ -32,5 +51,26 @@
 
 ## 检验方法
 
+分析重点word embedding层，下一层
+
++ 比较的是 原模型 跑英语 —————— 新模型 跑中文
+
++ 比low level的时候，feature的average pooling是不是一样 是一样就很厉害
+
++ 如果这个成功，adapt到新语言 就很容易了
+
++ embedding可视化 / 求差 / 余弦。 寻找一个带分类的数据集，准备中英文 MMC4-130k
+
+## 缓慢启动的路径
+
++ 先试着替换， 找1-2个英文，直接换成 之前没有的中文
+
++ 先试着删除 1-2个 重复的英文 看看会不会影响。 
+
++ 试着加一两个中文，并且替换合适的embedding vector
+
++ 扫文本，把特别低频的token 都给替换成 中文字
+
++ tokenize的时候能输出成你的id
 
-##
\ No newline at end of file
++ 后面可以考虑搞训练了
\ No newline at end of file