diff --git a/8-10/201721198584/final project/readme b/8-10/201721198584/final project/readme new file mode 100644 index 00000000..020b9758 --- /dev/null +++ b/8-10/201721198584/final project/readme @@ -0,0 +1,12 @@ +题目:东方快车谋杀案案情分析与可视化(Murder on the Orient Express) + +小组成员(计算机):杨丽雪,雷舒婷,苗菁菁 + +内容: +1、人物关系可视化(包括人物姓名、职业、关系、行为等) +2、对案情(以时间、地点为发展轴线)的分析与可视化 +3、分析谁是凶手? + +网站访问:点击文件 东方快车谋杀案的案情分析\python\templates\index.html + +注:项目答辩后修改部分在项目技术文档中已用红色标记 diff --git "a/8-10/201721198584/final project/\344\270\234\346\226\271\345\277\253\350\275\246\350\260\213\346\235\200\346\241\210\347\232\204\346\241\210\346\203\205\345\210\206\346\236\220.zip" "b/8-10/201721198584/final project/\344\270\234\346\226\271\345\277\253\350\275\246\350\260\213\346\235\200\346\241\210\347\232\204\346\241\210\346\203\205\345\210\206\346\236\220.zip" new file mode 100644 index 00000000..97d052dd Binary files /dev/null and "b/8-10/201721198584/final project/\344\270\234\346\226\271\345\277\253\350\275\246\350\260\213\346\235\200\346\241\210\347\232\204\346\241\210\346\203\205\345\210\206\346\236\220.zip" differ diff --git a/8-10/201721198584/medium-homework b/8-10/201721198584/medium-homework new file mode 100644 index 00000000..a98a4585 --- /dev/null +++ b/8-10/201721198584/medium-homework @@ -0,0 +1,7 @@ +Ontonotes语料 +Ontonotes工程是由BBN公司,宾夕法尼亚大学,科罗拉多大学,南加州大学信息科学研究所,布拉迪斯大学等共同合作发起的一个项目.该项目以标注一个融合多重浅层语义以及句子结构信息的大型语料库Ontonotes为目标. +Ontonotes语料发展到现在总共有5个版本,其中Ontonotes V4.0和Ontonotes V5.0分别是CONLL2011 shared task以及CONLL2012 shared task的指定训练、测试语料,值得一提的是该两次共享任务为了便于测试共指消解对提供的语料大部分进行了预处理.由于Ontonotes语料融合了多种渐层语法信息,以及免费的给广大共指消解研究者提供了标注的训练预料以及测试语料,使得研究者真正意义上有了可以相互比较的平台,因此将极大的促进共指消解的发展. +Ontonotes语料库中包含有中文,英文,阿拉伯文三种语言,英文和中文大约有一百万个字,这些语料来源于新闻,杂志,网页信息,脱口秀节目数据. +Ontonotes针对每一文本共有五种类型的标注(句法标注、命名体标注、命题标注、词性标注、共指标注),这些标注信息都可以很好地用在共指消解中. +ACE语料和Ontonotes语料采用不同的策略去标注共指类,主要有两点不同:① ACE语料在建立共指类时只考虑ACE实体类型中的名词短语,而Ontonotes语料没有这个方面的限制(例如:名词,动词,代词等),因此Ontonotes标注产生的共指类将远多于ACE标注.② ACE会对单独的实体表达标注为一个聚类体,但是Ontonotes没有这样标注.Ontonotes语料采用的是SGML标注方法,用〈COREF ID =“x”TYPE=“y”〉分别表示实体以及参照表达式的左边边界,用〈/COREF〉分别表 +示实体、参照表达式的右边边界.采用ID数字属性判断是否存在一个共指类中.