评价包括两大类,一个是位置无关的指标:Precision
,Recall
,F-score
,以及位置相关的指标,包括MAP
,NDCG
,ERR
。后者常见于信息检索的评价系统中,详见。
多标签的评价标准中,使用最多的就是Precision
,Recall
,F-score
, MAP@n
。
C-P,C-R,C-F1 and O-P, O-R, O-F1 and MAP@3 is available in CangJe.
准确率,指的是检索结果集合中,真正符合Query的结果的个数,除以检索结果的个数。
召回率,指的是检索结果集合中,真正符合Query的结果的个数,除以全部相关结果的个数。
F值
是同时考虑到了准确率和召回率,相当于是准确率和召回率的一种加权。
β的值既是n,一般情况下使用的是F1
值,即准确率和召回率同等重要。
类别平均准召,样本平均准召是衡量多标签系统的常用评价指标,前者指的是以类别为单位,衡量系统在每个类别上的准确率和召回率;后者指的是以样本为代为,衡量系统在每个样本上的准确率和召回率。
其中N^c
代表预测成类别c
并且Groundtruth也是c
;N^p
代表预测成类别c
的个数;N^g
Groundtruth是c
的个数。
其中N^c
代表预测成类别c
并且Groundtruth也是c
;N^p
代表预测类别的个数;N^g
Groundtruth的个数。
位置相关的评价指标,指的是对检索结果按照列表进行评价,不能忽略掉返回的顺序。这类指标是把多标签的每个标签想象成有顺序的,对系统进行评价。
准确率和召回率都只能衡量检索性能的一个方面,大多数情况下用户其实很关心搜索结果的排序。最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候,肯定会影响准确率。所以可以把准确率看成是召回率的一种函数,Precision=f(Recall),在R上进行积分,可以求P的期望均值。公式如下:
其中rel(k)
表示第k个文档是否相关,若相关则为1,否则为0,P(k)
表示前k个文档的准确率。 AveP的计算方式可以简单的认为是:
position(r)
为返回结果列表中的位置,例如一个返回列表,长度为10, 只有1,2,5是相关的结果,则: