本项目为2021年第一学期自然语言课程的课程设计项目。受Kaggle平台的恶意评价竞赛的启发,通过融合基于Tf-Idf的机器学习模型与基于Bert的预训练模型构建了恶意评论打分系统。团队将此系统打包为可以直接使用的应用程序,并把将实现思路投稿至arXiv网站。在此项目的基础上尝试了更多预处理模型,并参与Kaggle平台的恶意评价竞赛,获得了前39%的名次。
software
:编译好的程序文件report_latex
:报告的latex源码pic
:图片导出文件夹input
:各大数据集infer_model
:推理模型code
:实现代码文件夹
模型的训练与推理在code
文件夹下。
Base_xxx.ipynb
表示的是基于机器学习的方案,Bert_xxx
表示基于Bert预训练模型的方案。xxx_train.ipynb
表示训练代码,xxx_infer
表示推理代码。EDA_xxx.ipynb
表示对不同训练集的开放数据探索。Display.ipynb
为项目展示代码
程序运行的路径为software\pack1\dist\infer1\infer1.exe
。直接运行Toxic Comments Hunter
程序即可。需要调整一下窗口的大小以做到更好的呈现效果。输入一段恶意评论,或者是善意的评论,输出一个打分的分数。