方法说明

该代码方法用到了开源工具Hanlp，和官方的预训练模型bert-base-chinese。

项目目录结构如下：

其中expirement_attr、expirement_er和expirement_re三个文件夹下分别是做评测过程中进行的一些相关实验，data文件夹下存放的评测数据。

1.实体抽取方法

通过Hanlp实体识别工具，抽取“人物”和“机构”两种类型的实体。

通过规则，抽取“研报“，“文章“，“风险“，“ 机构“四种类型的实体。

除了规则匹配外，还可以采用远程监督的方法，主要用于抽取研报中的实体，具体流程如下图所示：

1.使用规则和外部工具抽取一部分实体

2.将原始数据平均分成两半，一半用于训练，一半用于测试，对用于训练的一半数据使用远程监督进行标注

3.采用将远程监督方法标注的数据按4:1划分，分别作为训练和验证集，训练模型

4.使用上一步训练出的模型在测试集上进行预测，抽取出一部分实体

5.查看是否达到中止循环的条件，达到条件后中止

6.通过规则匹配的方法筛选掉一些实体，剩下的实体加入种子知识图谱，然后从第2步开始，重复上一次训练，迭代进行实体抽取

2.属性抽取方法

使用规则匹配的抽取方法

3.关系抽取方法

使用规则匹配的抽取方法

程序运行说明

需要先安装python3.7和pytorch1.3

然后需要使用以下命令安装相关依赖库：

pip install jieba
pip install hanlp
pip install pytorch_pretrained_bert

使用如下命令启动程序：

python main.py

最终结果存放在

output文件夹下，名称为answers.json

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
expirement_attr		expirement_attr
expirement_er		expirement_er
expirement_re		expirement_re
images		images
model_attribute		model_attribute
model_entity		model_entity
model_relation		model_relation
output		output
utils		utils
extract_attrs.py		extract_attrs.py
extract_entities.py		extract_entities.py
extract_relations.py		extract_relations.py
main.py		main.py
parameters.py		parameters.py
readme.md		readme.md
regulation.py		regulation.py
result_process.py		result_process.py
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

方法说明

1.实体抽取方法

2.属性抽取方法

3.关系抽取方法

程序运行说明

About

Releases

Packages

Languages

kevinuserdd/ccks_kg

Folders and files

Latest commit

History

Repository files navigation

方法说明

1.实体抽取方法

2.属性抽取方法

3.关系抽取方法

程序运行说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages