Lyon-NLP · wissam-sib · Jun 12, 2024 · Jun 13, 2024 · imenelydiaker · Jun 12, 2024
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.pdf b/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.pdf
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.png b/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.png
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_models.pdf b/analyses_outputs/results_correlations/spearman_corr_heatmap_models.pdf
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_models.png b/analyses_outputs/results_correlations/spearman_corr_heatmap_models.png
diff --git a/analyses_outputs/results_correlations/spearman_corr_matrix_datasets.csv b/analyses_outputs/results_correlations/spearman_corr_matrix_datasets.csv
diff --git a/analyses_outputs/results_correlations/spearman_corr_matrix_models.csv b/analyses_outputs/results_correlations/spearman_corr_matrix_models.csv
diff --git a/script_mteb_french/results_analysis/dataset_correlation.py b/script_mteb_french/results_analysis/dataset_correlation.py
@@ -33,10 +33,19 @@ def parse_args() -> Namespace:
     # Get results
     rp = ResultsParser()
     results_df = rp(args.results_folder, return_main_scores=False)
+    # sort by first level before dropping it
+    results_df = results_df.sort_index(axis=1)
     results_df = results_df.droplevel(0, axis=1)
+    results_df.columns = results_df.columns.map(
+        lambda x: x.split("_")[0]
+    )
+    #remove duplicates columns and keep the first one
+    results_df = results_df.loc[:,~results_df.columns.duplicated()]
     results_df.index = results_df.index.map(
         lambda x: os.path.basename(x)
     )
+    # keep first index if duplicated
+    results_df = results_df[~results_df.index.duplicated(keep="first")]
     # Prepare output folder
     if not os.path.exists(args.output_folder):
         os.makedirs(args.output_folder)