chinese-word-segmentation

中文分词。

1 数据集

1.1 简介

主题：第二次国际中文分词 Bakeoff
数据发布时间：2005-11-18（Release 1）
数据集内容：文件夹中包含了训练集、测试集和黄金标准（gold-standard）的数据。同时还有用于计算分数的脚本以及用于生成 baseline 和 topline 的简单分词程序。

1.2 训练集和测试集

训练集和测试集包含了四种不同的数据：

--------------------------------------------------------------------------------
Corpus             Encoding         Word        Words     Character   Characters
                                    Types                   Types
--------------------------------------------------------------------------------
Academia Sinica    Big Five Plus   141,340    5,449,698     6,117      8,368,050
CityU              HKSCS Big Five   69,085    1,455,629     4,923      2,403,355
Peking University  CP936            55,303    1,109,947     4,698      1,826,448
Microsoft Research CP936            88,119    2,368,391     5,167      4,050,469
--------------------------------------------------------------------------------

其中 Academia Sinica 和 CityU 为繁体字，我们这里只针对简体字进行分词，所以选取 Peking University 和 Microsoft Research 进行训练和测试。

另外每种数据集又包含了两种不同的编码格式：

GB2312
UTF-8

我们这里选取 UTF-8 编码的语料。

1.3 下载地址

Second International Chinese Word Segmentation Bakeoff

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
datas		datas
experiment		experiment
models		models
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

chinese-word-segmentation

1 数据集

1.1 简介

1.2 训练集和测试集

1.3 下载地址

About

Releases

Packages

Languages

License

Ailln/chinese-word-segmentation

Folders and files

Latest commit

History

Repository files navigation

chinese-word-segmentation

1 数据集

1.1 简介

1.2 训练集和测试集

1.3 下载地址

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages