对于额外数据的使用范围的疑问 #16

Rhythmblue · 2023-07-05T05:43:26Z

请问是任意额外数据都能使用吗，包括与商品相关的开源数据集
请问网络爬取的带caption或者tag的数据可以使用吗
可以用unseen类别去获取额外的数据吗

binwang777 · 2023-07-05T06:24:30Z

你好，可以用额外数据，但不可以用unseen类别。比赛结束后选手需上传模型及方案，并公布额外数据来源。

wusize · 2023-07-05T09:34:25Z

可以使用unseen类别去过滤公开/爬取的数据集吗？
所以对额外数据集使用的限制到底是哪些？不可以使用unseen类别去获取数据，算是很重要的限制了，初赛都要结束了才明确下来。可能有些人很多天都白干了。能否把详细的规则公布一下？

wusize · 2023-07-05T09:52:31Z

在现有的OVD 的setting中，有很多方法在训练过程中都预设已知unseen类比，比如Detic/object-centric-ovd在预处理Caption和分类数据的时候会过滤掉不包含LVIS类别的图片。
在5月21号的回答中，主办方表示没有限制，这直接决定了很多人的技术路线（额外数据而不是蒸馏）。现在初赛结束还不到一个月，突然改变规则，对使用相关路线的队伍极不公平。

yuxie11 · 2023-07-05T13:02:05Z

unseen类数据的使用需要遵循的原则是不破坏OVD问题的定义，否则就会变成已知类别的目标检测而失去本次竞赛的意义。对于额外数据的使用限制，您可以参照以下规则：

参赛者可以用unseen类别去过滤公开/爬取的数据
数据集的使用需要明确地不包含人工标注的unseen类的位置信息，包括但不限于参赛者清洗的数据集、公开/网络的数据集，主办方提供的训练集、主办方提供的测试集等

wusize · 2023-07-05T13:34:57Z

unseen类数据的使用需要遵循的原则是不破坏OVD问题的定义，否则就会变成已知类别的目标检测而失去本次竞赛的意义。对于额外数据的使用限制，您可以参照以下规则：

参赛者可以用unseen类别去过滤公开/爬取的数据

数据集的使用需要明确地不包含人工标注的unseen类的位置信息，包括但不限于参赛者清洗的数据集、公开/网络的数据集，主办方提供的训练集、主办方提供的测试集等

額外的數據裏不能包含unseen類的位置信息(bbox)可以理解, 否則就成了有標注的目標檢測;

但是如果只是用unseen類別的名字作爲搜索引擎的關鍵字爬取圖片呢? 這和先爬取,再用unseen類別的名字去過濾篩選,本質上沒有區別,都利用了unseen類別名稱.

目前的OVD 論文,主要有兩種,一種是利用弱監督的數據,比如分類數據和caption數據,這些數據有image-level的標簽,但沒有bbox的標注,如ov-rcnn, detic, object-centric-ovd. 根據unseen類別名稱爬取圖片構造分類數據作爲弱監督的信號可以算為這一種;

另外一種不利用任何額外的弱監督數據,只利用CLIP,對其蒸餾或直接基於CLIP搭建檢測器,比如ViLD和BARON, 以及F-VLM.

wusize · 2023-07-05T13:46:58Z

第一種裏面,有些人會利用unseen類別來清理數據,如detic,object-centric-ovd; 也有的在訓練過程中完全對unseen類別完全不可知,只從caption裏解析noun, 比如VLDet.

請問這次比賽對於弱監督信號的限制是哪一種? (我認爲用unseen類別篩選爬取的數據和直接用unseen類別去爬取數據是等價的,後者可以做到和前者一樣,無非是時間更長一點; 對於公開的分類數據集,這兩者就是一回事).

wusize · 2023-07-05T17:40:32Z

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是：使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似？即：使用的外部数据不能包含unseen类别的bbox，除此之外没有限制。

yuxie11 · 2023-07-06T02:21:22Z

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是：使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似？即：使用的外部数据不能包含unseen类别的bbox，除此之外没有限制。

上述提到的爬取过滤均不受限制，但使用的外部数据不能包含unseen类的位置信息

wusize · 2023-07-06T02:41:43Z

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是：使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似？即：使用的外部数据不能包含unseen类别的bbox，除此之外没有限制。

上述提到的爬取过滤均不受限制，但使用的外部数据不能包含unseen类的位置信息

嗯嗯，感谢您的回复。
现在我的理解是：
可以用的数据：弱监督数据，即只能允许有图像层级（image-level）的标注（caption和分类标签）
不可以用的数据：可能带有unseen类别位置信息的数据，即检测数据集，visual grounding数据集（phrase localization和refering comprehension）。
最后一个问题：在爬取互联网图片时使用unseen类别的名称作为关键字是允许的吗？

yuxie11 · 2023-07-06T02:56:10Z

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是：使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似？即：使用的外部数据不能包含unseen类别的bbox，除此之外没有限制。

上述提到的爬取过滤均不受限制，但使用的外部数据不能包含unseen类的位置信息

嗯嗯，感谢您的回复。现在我的理解是：可以用的数据：弱监督数据，即只能允许有图像层级（image-level）的标注（caption和分类标签）不可以用的数据：可能带有unseen类别位置信息的数据，即检测数据集，visual grounding数据集（phrase localization和refering comprehension）。最后一个问题：在爬取互联网图片时使用unseen类别的名称作为关键字是允许的吗？

上述理解是对的，最后一个问题提到的方式是允许的。

wusize · 2023-07-06T03:01:15Z

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是：使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似？即：使用的外部数据不能包含unseen类别的bbox，除此之外没有限制。

上述提到的爬取过滤均不受限制，但使用的外部数据不能包含unseen类的位置信息

嗯嗯，感谢您的回复。现在我的理解是：可以用的数据：弱监督数据，即只能允许有图像层级（image-level）的标注（caption和分类标签）不可以用的数据：可能带有unseen类别位置信息的数据，即检测数据集，visual grounding数据集（phrase localization和refering comprehension）。最后一个问题：在爬取互联网图片时使用unseen类别的名称作为关键字是允许的吗？

上述理解是对的，最后一个问题提到的方式是允许的。

好的，感谢回复

GG-Bonds · 2023-07-12T14:54:18Z

所以，你们都是用了额外数据做的啊；难怪点数这么高

可以使用unseen类别去过滤公开/爬取的数据集吗？

所以对额外数据集使用的限制到底是哪些？不可以使用unseen类别去获取数据，算是很重要的限制了，初赛都要结束了才明确下来。可能有些人很多天都白干了。能否把详细的规则公布一下？

binwang777 closed this as completed Jul 5, 2023

binwang777 reopened this Jul 5, 2023

yuxie11 mentioned this issue Jul 6, 2023

可以使用预训练模型或额外的数据集吗 #7

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

对于额外数据的使用范围的疑问 #16

对于额外数据的使用范围的疑问 #16

Rhythmblue commented Jul 5, 2023 •

edited

Loading

binwang777 commented Jul 5, 2023

wusize commented Jul 5, 2023 •

edited

Loading

wusize commented Jul 5, 2023 •

edited

Loading

yuxie11 commented Jul 5, 2023

wusize commented Jul 5, 2023

wusize commented Jul 5, 2023 •

edited

Loading

wusize commented Jul 5, 2023

yuxie11 commented Jul 6, 2023 •

edited

Loading

wusize commented Jul 6, 2023

yuxie11 commented Jul 6, 2023

wusize commented Jul 6, 2023

GG-Bonds commented Jul 12, 2023

对于额外数据的使用范围的疑问 #16

对于额外数据的使用范围的疑问 #16

Comments

Rhythmblue commented Jul 5, 2023 • edited Loading

binwang777 commented Jul 5, 2023

wusize commented Jul 5, 2023 • edited Loading

wusize commented Jul 5, 2023 • edited Loading

yuxie11 commented Jul 5, 2023

wusize commented Jul 5, 2023

wusize commented Jul 5, 2023 • edited Loading

wusize commented Jul 5, 2023

yuxie11 commented Jul 6, 2023 • edited Loading

wusize commented Jul 6, 2023

yuxie11 commented Jul 6, 2023

wusize commented Jul 6, 2023

GG-Bonds commented Jul 12, 2023

Rhythmblue commented Jul 5, 2023 •

edited

Loading

wusize commented Jul 5, 2023 •

edited

Loading

wusize commented Jul 5, 2023 •

edited

Loading

wusize commented Jul 5, 2023 •

edited

Loading

yuxie11 commented Jul 6, 2023 •

edited

Loading