线上分享: Synonyms 中文近义词工具包 #21

hailiang-wang · 2018-01-15T07:13:12Z

description

目前很缺乏质量好的中文近义词库，于是便考虑使用word2vec训练一个高质量的同义词库将"非标准表述" 映射到 "标准表述"，这就是Synonyms的起源。
在经典的信息检索系统中，相似度的计算是基于匹配的，而且是Query经过分词后与文档库的严格的匹配，这种就缺少了利用词汇之间的“关系”。
而word2vec使用大量数据，利用上下文信息进行训练，将词汇映射到低维空间，产生了这种“关系”，这种“关系”是基于距离的。有了这种“关系”，就可以进一步利用词汇之间的距离进行检索。所以，在算法层面上，检索更是基于了“距离”而非“匹配”，基于“语义”而非“形式”。

项目地址：
https://github.com/huyingxi/Synonyms

主要内容：

应用场景
现有的近义词包
N-gram模型介绍
word2vec原理
使用的开放数据集
训练过程
计算句子相似度公式
待改进的地方

分享渠道：

Gitchat - 在线分享

时间：

2018年2月7日

报名：

微信扫一扫

hailiang-wang added a commit that referenced this issue Jan 15, 2018

#21 add web sharing link

950983c

hailiang-wang mentioned this issue Jan 15, 2018

请问words.nearby.json.gz 这个临近词的词典是怎么学出来的啊，万分感谢 #23

Closed

hailiang-wang closed this as completed Mar 2, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

线上分享: Synonyms 中文近义词工具包 #21

线上分享: Synonyms 中文近义词工具包 #21

hailiang-wang commented Jan 15, 2018

线上分享: Synonyms 中文近义词工具包 #21

线上分享: Synonyms 中文近义词工具包 #21

Comments

hailiang-wang commented Jan 15, 2018

description

分享渠道：

时间：

报名：