config_tasks/all_tasks.yml

TASK1:
  name: VQA
  type: VL-classifier
  num_labels: 3129
  loss: BCEWithLogitLoss
  process: normal
  task_id: 1
  dataroot: datasets/vqa/annotations
  features_h5path1: datasets/mscoco/resnet101_faster_rcnn_genome_imgfeats/volta/trainval_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 23
  max_region_num: 36
  batch_size: 256
  eval_batch_size: 1024
  train_split: train
  val_split: val
  lr: 0.00004
  num_epoch: 20
TASK2:
  name: GenomeQA
  type: VL-classifier
  loss: BCEWithLogitLoss
  process: normal
  task_id: 2
  dataroot: datasets/visual_genome/
  features_h5path1: datasets/visual_genome/vg_resnext152_faster_rcnn_genome.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 26
  max_region_num: 36
  batch_size: 128
  eval_batch_size: 1024
  train_split: train
  val_split: val
  lr: 0.00004
  num_epoch: 20
TASK3:
  name: VisualDialog
  type: VL-logit
  loss: CrossEntropyLoss
  process: dialog
  task_id: 3
  dataroot: datasets/visual_dialog
  features_h5path1: datasets/coco/features_100/COCO_trainval_resnext152_faster_rcnn_genome.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: datasets/visual_dialog/visdial_1.0_train.json
  val_annotations_jsonpath: datasets/visual_dialog/visdial_1.0_val.json
  max_seq_length: 16
  max_region_num: 36
  batch_size: 64
  train_split: train
  val_split: val
  lr: 0.00004
  num_epoch: 20
TASK4:
  name: Visual7w
  type: V-logit-mc
  loss: BCEWithLogitLoss
  process: normal
  task_id: 4
  dataroot: datasets/v7w/visual7w-pointing
  features_h5path1: datasets/v7w/v7w_imgfeat/vilbert/v7w_feat.lmdb
  features_h5path2: datasets/v7w/v7w_gt_imgfeat/vilbert/v7w_gt_feat.lmdb
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 20
  max_region_num: 200
  batch_size: 256
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 20
TASK5:
  name: VCR_Q-A
  type: VL-logit
  loss: CrossEntropyLoss
  process: expand
  task_id: 5
  dataroot: datasets/vcr
  features_h5path1: datasets/vcr/vcr_imgfeat/vilbert/vcr_feat.lmdb
  features_h5path2: datasets/vcr/vcr_gt_imgfeat/vilbert/vcr_gt_feat.lmdb
  train_annotations_jsonpath: datasets/vcr/annotations/train.jsonl
  val_annotations_jsonpath: datasets/vcr/annotations/val.jsonl
  max_seq_length: 60
  max_region_num: 36
  batch_size: 64
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 10
TASK6:
  name: VCR_QA-R
  type: VL-logit
  loss: CrossEntropyLoss
  process: expand
  task_id: 6
  dataroot: datasets/vcr
  features_h5path1: datasets/vcr/vcr_imgfeat/vilbert/vcr_feat.lmdb
  features_h5path2: datasets/vcr/vcr_gt_imgfeat/vilbert/vcr_gt_feat.lmdb
  train_annotations_jsonpath: datasets/vcr/annotations/train.jsonl
  val_annotations_jsonpath: datasets/vcr/annotations/val.jsonl
  max_seq_length: 80
  max_region_num: 36
  batch_size: 64
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 10
TASK7:
  name: RetrievalCOCO
  type: VL-logit
  num_labels: 1
  loss: CrossEntropyLoss
  process: retrieval
  task_id: 7
  dataroot: datasets/mscoco
  features_h5path1: datasets/mscoco/resnet101_faster_rcnn_genome_imgfeats/volta/trainval_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: datasets/mscoco/annotations/train_ann.jsonl
  val_annotations_jsonpath: datasets/mscoco/annotations/valid_ann.jsonl
  max_seq_length: 30
  max_region_num: 36
  batch_size: 64
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 20
TASK8:
  name: RetrievalFlickr30k
  type: VL-logit
  num_labels: 1
  loss: CrossEntropyLoss
  process: retrieval
  task_id: 8
  dataroot: datasets/flickr30k
  features_h5path1: datasets/flickr30k/resnet101_faster_rcnn_genome_imgfeats/volta/flickr30k_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: datasets/flickr30k/annotations/train_ann.jsonl
  val_annotations_jsonpath: datasets/flickr30k/annotations/valid_ann.jsonl
  max_seq_length: 30
  max_region_num: 36
  batch_size: 64
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 20
TASK9:
  name: refcoco
  type: V-logit
  loss: BCEWithLogitLoss
  process: normal
  task_id: 9
  dataroot: datasets/refcoco_unc/annotations
  features_h5path1: datasets/refcoco_unc/resnet101_faster_rcnn_genome_imgfeats/volta/refcoco_unc_dets36_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 20
  max_region_num: 36
  batch_size: 256
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 20
TASK10:
  name: refcoco+
  type: V-logit
  loss: BCEWithLogitLoss
  process: normal
  task_id: 10
  dataroot: datasets/refcoco+_unc/annotations
  features_h5path1: datasets/refcoco+_unc/resnet101_faster_rcnn_genome_imgfeats/volta/refcoco+_unc_dets36_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 20
  max_region_num: 36
  batch_size: 256
  eval_batch_size: 1024
  train_split: train
  val_split: val
  lr: 0.00002
  num_epoch: 20
TASK11:
  name: refcocog
  type: V-logit
  loss: BCEWithLogitLoss
  process: normal
  task_id: 11
  dataroot: datasets/refcocog_umd/annotations
  features_h5path1: datasets/refcocog_umd/resnet101_faster_rcnn_genome_imgfeats/volta/refcocog_umd_dets36_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 20
  max_region_num: 36
  batch_size: 256
  train_split: train
  val_split: val
  start_iteration: 0
  lr: 0.00002
  num_epoch: 20
TASK12:
  name: NLVR2
  type: VL-binary-classifier
  num_labels: 2
  loss: BCEWithLogitLoss
  process: nlvr
  task_id: 12
  dataroot: datasets/nlvr2/annotations
  features_h5path1: datasets/nlvr2/resnet101_faster_rcnn_genome_imgfeats/volta/nlvr2_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 40
  max_region_num: 36
  batch_size: 64
  eval_batch_size: 512
  train_split: train
  val_split: dev
  lr: 0.00002
  num_epoch: 20
TASK13: 
  name: VisualEntailment
  type: VL-tri-classifier
  num_labels: 3
  loss: BCEWithLogitLoss
  process: normal
  task_id: 13
  dataroot: datasets/snli_ve/annotations
  features_h5path1: datasets/flickr30k/resnet101_faster_rcnn_genome_imgfeats/volta/flickr30k_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 56
  max_region_num: 36
  batch_size: 128
  eval_batch_size: 1024
  train_split: train
  val_split: dev
  lr: 0.00002
  num_epoch: 20
TASK14:
  name: GuessWhat
  type: VL-tri-classifier
  loss: BCEWithLogitLoss
  process: normal
  task_id: 14
  dataroot: datasets/guesswhat/
  features_h5path1: datasets/coco/features_100/COCO_trainval_resnext152_faster_rcnn_genome.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 25
  max_region_num: 36
  batch_size: 256
  eval_batch_size: 1024
  train_split: train
  val_split: valid
  lr: 0.00004
  num_epoch: 20
TASK15:
  name: GQA
  type: VL-classifier-GQA
  num_labels: 1842
  loss: BCEWithLogitLoss
  process: normal
  task_id: 15
  dataroot: datasets/gqa/annotations
  features_h5path1: datasets/gqa/resnet101_faster_rcnn_genome_imgfeats/volta/vg_gqa_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 26
  max_region_num: 36
  batch_size: 256
  eval_batch_size: 1024
  train_split: train
  val_split: val
  lr: 0.00004
  num_epoch: 20
TASK16:
  name: Foil
  type: VL-binary-classifier
  num_labels: 2
  loss: CrossEntropyLoss
  process: normal
  task_id: 16
  dataroot:  datasets/Foil
  features_h5path1: datasets/coco/features_100/COCO_trainval_resnext152_faster_rcnn_genome.lmdb
  features_h5path2: ''
  train_annotations_jsonpath:  datasets/Foil/foilv1.0_train_2017.json
  val_annotations_jsonpath:  datasets/Foil/foilv1.0_test_2017.json
  max_seq_length: 20
  max_region_num: 36
  batch_size: 256
  eval_batch_size: 1024
  train_split: train
  val_split: val
  lr: 0.00004
  num_epoch: 20
TASK17:
  name: GuessWhatPointing
  type: V-logit-mc
  loss: BCEWithLogitLoss
  process: normal
  task_id: 17
  dataroot: datasets/guesswhat/
  features_h5path1: datasets/mscoco/mscoco_imgfeat/vilbert/trainval_feat.lmdb
  features_h5path2: datasets/guesswhat/guesswhat_gt_imgfeat/vilbert/guesswhat_gt_feat.lmdb
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 256
  max_region_num: 306
  batch_size: 32
  train_split: train
  val_split: valid
  lr: 0.00002
  num_epoch: 20
TASK18:
  name: FlickrGrounding
  type: V-logit
  loss: BCEWithLogitLoss
  process: normal
  task_id: 18
  dataroot: datasets/flickr30k/
  features_h5path1: datasets/flickr30k/flickr30k_resnext152_faster_rcnn_genome.lmdb
  features_h5path2: datasets/flickr30k/flickr30k_gt_resnext152_faster_rcnn_genome.lmdb
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 24
  max_region_num: 200
  batch_size: 256
  train_split: train
  val_split: val
  lr: 0.000002
  num_epoch: 20
TASK19:
  name: FlickrGrounding
  type: V-logit
  loss: BCEWithLogitLoss
  process: normal
  task_id: 18
  dataroot: datasets/flickr30k_entities/
  features_h5path1: datasets/flickr30k/resnet101_faster_rcnn_genome_imgfeats/volta/flickr30k_feat.lmdb
  features_h5path2: ''
  train_annotations_jsonpath: ''
  val_annotations_jsonpath: ''
  max_seq_length: 38
  max_region_num: 36
  batch_size: 16
  train_split: ''
  val_split: val