-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Data processing #3
Comments
这部分的处理脚本确实也是没整理好,因为比较杂乱,但是思路都是一致的。 要构建template,首先要获得对句子每个单词的一个检测结果,比如二分类。检测结果有两种或的方式,一就是自己训练一个分类器,可以直接预测检测结果。二是先对源句进行纠正,然后根据纠正后的句子和正确的target计算errant文件或者.m2文件,再根据这个标记文件去抽取错误位置。 由于GECToR本身不是一个检测模型,所以只能用上边第二种方法,先纠正一遍,得到一个m2文件,再去抽取GECToR的检测结果。这是检测信息的获取方式,而真实的错误信息只能通过方法二获取。 比如,对于bea-dev数据集来说,它的m2编辑文件是
之后就得到了每个句子的检测标签,比如:
然后再根据检测标签和源句去制作template,脚本如下:
这里的gold是为了表示pred和gold对,代码里会根据gold检测是否有这一对的文件,gold就是用真实target计算出来的检测信息。后边tok和bpe是为了使用fairseq进行的一些处理脚本,具体可以参考:https://zhuanlan.zhihu.com/p/401844695 |
好的,非常感谢您的回复! |
您好!读了您的论文觉得非常有趣!于是想尝试着学习一下,想着重头实验下您的工作,于是我下载了原始的数据集,但是代码好像都是论文图2的右半部分,对于检测模板建造的代码我好像没有找到,我看论文中说是通过GECtor获得预测的标签这个得到也是一个句子把?,然后通过errant获得真实的label ,这部分您是如何处理的?我在您给的脚本中看见我标记的地方,这是提前处理好的带有模板的数据吗?这个如何才能获得这样的数据?
The text was updated successfully, but these errors were encountered: