Skip to content

quanterk/Multi-label_text_classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

Multi-label_text_classification

NLP项目分类:百度试题数据集多标签文本分类

背景说明

​ 本项目是多标签分类:原始数据集来自语百度题库,大概20w条左右

​ 本人尝试从古典方法LDA,Bayes 到 FASTTXT, TEXTCNN, 到后来的GCN , BERT, ERNIE. 框架主要是tensorflow,keras.以及百度的paddlehub. 目的是回顾以及对比整个分本分类的流程以及各大经典模型 ,欢迎各位进行交流. 其中LDA ,贝叶斯, 只用notebook 进行了展示, 采用了部分数据做实验,意在展示传统方法的使用。后面的Bert 是基于作者的源码进行了改写,也会附上说明文档, ERNIE 则是在 百度AISTUIO 调用了finetun 的API.

数据说明

原始数据集为高中地理,历史,生物,政治四门学科数据,每个学科下各包含第一层知识点,如历史下分为近代史,现代史,古代史
原始数据示例:

方法: 1.转为单标签多分类 2.分类器链(to do) 3.序列生成(to do)

[题目]
我国经济体制改革首先在农村展开。率先实行包产到组、包产到户的农业生产责任制的省份是( )
①四川 ②广东 ③安徽 ④湖北A. ①③B. ①④C. ②④D. ②③题型: 单选题|难度: 简单|使用次数: 0|纠错复制收藏到空间加入选题篮查看答案解析答案:A解析:本题主要考察的是对知识的识记能力,比较容易。根据所学知识可知,在四川和安徽,率先实行包产到组、包产到户的农业生产责任制,故①③正确;②④不是。所以答案选A。知识点:
[知识点:]

经济体制改革,中国的振兴

对数据处理:

  • 将数据的[知识点:]作为数据的第四层标签,显然不同数据的第四层标签数量不一致
  • 你可以自己处理原数据,也可直接用我处理好的 Multi-label_text_classification \ data \baidu_95.csv
  • 仅保留题目作为数据特征,删除[题型]及[答案解析]
  • 全部95个标签如下:
['生物性污染', '细胞有丝分裂不同时期的特点', '液泡的结构和功能', '组成细胞的化学元素', '兴奋在神经纤维上的传导',        '不完全显性', '免疫系统的组成', '生物技术在其他方面的应用', '群落的结构', '中央官制——三公九卿制', '核糖体的结构和功能',        '人体免疫系统在维持稳态中的作用', '皇帝制度', '激素调节', '伴性遗传', '地球运动的地理意义', '宇宙中的地球', '地球运动的基本形式',        '基因工程的原理及技术', '体液免疫的概念和过程', '基因的分离规律的实质及应用', '蛋白质的合成', '地球的内部圈层结构及特点',        '人口增长与人口问题', '经济学常识', '劳动就业与守法经营', '器官移植', '生物技术实践', '垄断组织的出现', '基因工程的概念',        '神经调节和体液调节的比较', '人口与城市', '组成细胞的化合物', '地理', '文艺的春天', '生物工程技术',        '基因的自由组合规律的实质及应用', '郡县制', '人体水盐平衡调节', '内质网的结构和功能', '人体的体温调节',        '免疫系统的功能', '科学社会主义常识', '与细胞分裂有关的细胞器', '太阳对地球的影响', '古代史', '清末民主革命风潮',        '复等位基因', '人工授精、试管婴儿等生殖技术', '“重农抑商”政策', '生态系统的营养结构', '减数分裂的概念',        '地球的外部圈层结构及特点', '细胞的多样性和统一性', '政治', '工业区位因素', '细胞大小与物质运输的关系',        '夏商两代的政治制度', '农业区位因素', '溶酶体的结构和功能', '生产活动与地域联系', '内环境的稳态', '遗传与进化',        '胚胎移植', '生物科学与社会', '近代史', '第三产业的兴起和“新经济”的出现', '公民道德与伦理常识', '中心体的结构和功能',        '社会主义市场经济的伦理要求', '高中', '选官、用官制度的变化', '减数分裂与有丝分裂的比较', '遗传的细胞基础',        '地球所处的宇宙环境', '培养基与无菌技术', '生活中的法律常识', '高尔基体的结构和功能', '社会主义是中国人民的历史性选择',        '人口迁移与人口流动', '现代史', '地球与地图', '走进细胞', '生物', '避孕的原理和方法', '血糖平衡的调节',        '现代生物技术专题', '海峡两岸关系的发展', '生命活动离不开细胞', '兴奋在神经元之间的传递', '历史', '分子与细胞',        '拉马克的进化学说', '遗传的分子基础', '稳态与环境']

4层标签数据集

模型

  1. fasttest
  2. textcnn
  3. gcn
  4. bert 5.bert_CNN 6.bert_RNN
  5. ERNIE 2.0min
  6. xlnet(to do )

实验结果

数据集 模型 类别 Acc Micro-F1 Macro-F1
Baidu FastText 95 - 0.421 0.234
Baidu TextCnn 95 - 0.82478 0.578
Baidu GCN 95 - 0.8755 0.6914
Baidu Transformer 95 - 0.90403605 0.79695547
Baidu BERT_3layes_label 21 0.7958 0.941 0.163
Baidu BERT 95 0.5788 0.917 0.781
Baidu BERT+CNN 95 0.5698 0.913 0.763
Baidu BERT+RNN 95 0.5753 0.905 0.792
Baidu ERNIE 2.0min 95 0.5948 0.919 0.783

About

百度知识点标注—多模型

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published