stanford-crfm · teetone · Jun 6, 2023 · Jun 6, 2023
diff --git a/src/helm/benchmark/metrics/images/image_critique_metrics.py b/src/helm/benchmark/metrics/images/image_critique_metrics.py
@@ -5,8 +5,8 @@
 from helm.benchmark.adaptation.request_state import RequestState
 from helm.benchmark.adaptation.scenario_state import ScenarioState
 from helm.benchmark.adaptation.adapter_spec import AdapterSpec
-from helm.benchmark.metrics.metric import Metric, MetricResult
-from helm.benchmark.metrics.metric_name import MetricName
+from helm.benchmark.metrics.metric import Metric, MetricResult, add_context
+from helm.benchmark.metrics.metric_name import MetricContext, MetricName
 from helm.benchmark.metrics.metric_service import MetricService
 from helm.benchmark.metrics.statistic import Stat, merge_stat
 from helm.common.critique_request import CritiqueTaskTemplate, CritiqueQuestionTemplate, CritiqueRequest, QuestionType
@@ -116,14 +116,15 @@ def evaluate(
 
         all_stats: Dict[MetricName, Stat] = {}
         for request_state in request_states:
+            context = MetricContext.from_instance(request_state.instance)
             stats = self.evaluate_generation(
                 scenario_state.adapter_spec,
                 request_state,
                 metric_service,
                 eval_cache_path,
             )
             for stat in stats:
-                merge_stat(all_stats, stat)
+                merge_stat(all_stats, add_context(stat, context))
 
         return MetricResult(aggregated_stats=list(all_stats.values()), per_instance_stats=[])
 

diff --git a/src/helm/benchmark/metrics/images/photorealism_critique_metrics.py b/src/helm/benchmark/metrics/images/photorealism_critique_metrics.py
@@ -5,8 +5,8 @@
 from helm.benchmark.adaptation.request_state import RequestState
 from helm.benchmark.adaptation.scenario_state import ScenarioState
 from helm.benchmark.adaptation.adapter_spec import AdapterSpec
-from helm.benchmark.metrics.metric import Metric, MetricResult
-from helm.benchmark.metrics.metric_name import MetricName
+from helm.benchmark.metrics.metric import Metric, MetricResult, add_context
+from helm.benchmark.metrics.metric_name import MetricContext, MetricName
 from helm.benchmark.metrics.metric_service import MetricService
 from helm.benchmark.metrics.statistic import Stat, merge_stat
 from helm.benchmark.scenarios.scenario import Reference
@@ -67,14 +67,15 @@ def evaluate(
 
         all_stats: Dict[MetricName, Stat] = {}
         for request_state in request_states:
+            context = MetricContext.from_instance(request_state.instance)
             stats = self.evaluate_generation(
                 scenario_state.adapter_spec,
                 request_state,
                 metric_service,
                 eval_cache_path,
             )
             for stat in stats:
-                merge_stat(all_stats, stat)
+                merge_stat(all_stats, add_context(stat, context))
 
         return MetricResult(aggregated_stats=list(all_stats.values()), per_instance_stats=[])