NLP项目分类:百度试题数据集多标签文本分类
背景说明
本项目是多标签分类:原始数据集来自语百度题库,大概20w条左右
本人尝试从古典方法LDA,Bayes 到 FASTTXT, TEXTCNN, 到后来的GCN , BERT, ERNIE. 框架主要是tensorflow,keras.以及百度的paddlehub. 目的是回顾以及对比整个分本分类的流程以及各大经典模型 ,欢迎各位进行交流. 其中LDA ,贝叶斯, 只用notebook 进行了展示, 采用了部分数据做实验,意在展示传统方法的使用。后面的Bert 是基于作者的源码进行了改写,也会附上说明文档, ERNIE 则是在 百度AISTUIO 调用了finetun 的API.
原始数据集为高中
下地理
,历史
,生物
,政治
四门学科数据,每个学科下各包含第一层知识点,如历史
下分为近代史
,现代史
,古代史
。
原始数据示例:
方法: 1.转为单标签多分类 2.分类器链(to do) 3.序列生成(to do)
[题目]
我国经济体制改革首先在农村展开。率先实行包产到组、包产到户的农业生产责任制的省份是( )
①四川 ②广东 ③安徽 ④湖北A. ①③B. ①④C. ②④D. ②③题型: 单选题|难度: 简单|使用次数: 0|纠错复制收藏到空间加入选题篮查看答案解析答案:A解析:本题主要考察的是对知识的识记能力,比较容易。根据所学知识可知,在四川和安徽,率先实行包产到组、包产到户的农业生产责任制,故①③正确;②④不是。所以答案选A。知识点:
[知识点:]经济体制改革,中国的振兴
对数据处理:
- 将数据的[知识点:]作为数据的第四层标签,显然不同数据的第四层标签数量不一致
- 你可以自己处理原数据,也可直接用我处理好的 Multi-label_text_classification \ data \baidu_95.csv
- 仅保留题目作为数据特征,删除[题型]及[答案解析]
- 全部95个标签如下:
['生物性污染', '细胞有丝分裂不同时期的特点', '液泡的结构和功能', '组成细胞的化学元素', '兴奋在神经纤维上的传导', '不完全显性', '免疫系统的组成', '生物技术在其他方面的应用', '群落的结构', '中央官制——三公九卿制', '核糖体的结构和功能', '人体免疫系统在维持稳态中的作用', '皇帝制度', '激素调节', '伴性遗传', '地球运动的地理意义', '宇宙中的地球', '地球运动的基本形式', '基因工程的原理及技术', '体液免疫的概念和过程', '基因的分离规律的实质及应用', '蛋白质的合成', '地球的内部圈层结构及特点', '人口增长与人口问题', '经济学常识', '劳动就业与守法经营', '器官移植', '生物技术实践', '垄断组织的出现', '基因工程的概念', '神经调节和体液调节的比较', '人口与城市', '组成细胞的化合物', '地理', '文艺的春天', '生物工程技术', '基因的自由组合规律的实质及应用', '郡县制', '人体水盐平衡调节', '内质网的结构和功能', '人体的体温调节', '免疫系统的功能', '科学社会主义常识', '与细胞分裂有关的细胞器', '太阳对地球的影响', '古代史', '清末民主革命风潮', '复等位基因', '人工授精、试管婴儿等生殖技术', '“重农抑商”政策', '生态系统的营养结构', '减数分裂的概念', '地球的外部圈层结构及特点', '细胞的多样性和统一性', '政治', '工业区位因素', '细胞大小与物质运输的关系', '夏商两代的政治制度', '农业区位因素', '溶酶体的结构和功能', '生产活动与地域联系', '内环境的稳态', '遗传与进化', '胚胎移植', '生物科学与社会', '近代史', '第三产业的兴起和“新经济”的出现', '公民道德与伦理常识', '中心体的结构和功能', '社会主义市场经济的伦理要求', '高中', '选官、用官制度的变化', '减数分裂与有丝分裂的比较', '遗传的细胞基础', '地球所处的宇宙环境', '培养基与无菌技术', '生活中的法律常识', '高尔基体的结构和功能', '社会主义是中国人民的历史性选择', '人口迁移与人口流动', '现代史', '地球与地图', '走进细胞', '生物', '避孕的原理和方法', '血糖平衡的调节', '现代生物技术专题', '海峡两岸关系的发展', '生命活动离不开细胞', '兴奋在神经元之间的传递', '历史', '分子与细胞', '拉马克的进化学说', '遗传的分子基础', '稳态与环境']
- fasttest
- textcnn
- gcn
- bert 5.bert_CNN 6.bert_RNN
- ERNIE 2.0min
- xlnet(to do )
数据集 | 模型 | 类别 | Acc | Micro-F1 | Macro-F1 |
---|---|---|---|---|---|
Baidu | FastText | 95 | - | 0.421 | 0.234 |
Baidu | TextCnn | 95 | - | 0.82478 | 0.578 |
Baidu | GCN | 95 | - | 0.8755 | 0.6914 |
Baidu | Transformer | 95 | - | 0.90403605 | 0.79695547 |
Baidu | BERT_3layes_label | 21 | 0.7958 | 0.941 | 0.163 |
Baidu | BERT | 95 | 0.5788 | 0.917 | 0.781 |
Baidu | BERT+CNN | 95 | 0.5698 | 0.913 | 0.763 |
Baidu | BERT+RNN | 95 | 0.5753 | 0.905 | 0.792 |
Baidu | ERNIE 2.0min | 95 | 0.5948 | 0.919 | 0.783 |