Lyon-NLP · imenelydiaker · May 30, 2024 · May 31, 2024 · May 31, 2024 · May 31, 2024
diff --git a/analyses_outputs/results.xlsx b/analyses_outputs/results.xlsx
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.pdf b/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.pdf
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.png b/analyses_outputs/results_correlations/spearman_corr_heatmap_datasets.png
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_models.pdf b/analyses_outputs/results_correlations/spearman_corr_heatmap_models.pdf
diff --git a/analyses_outputs/results_correlations/spearman_corr_heatmap_models.png b/analyses_outputs/results_correlations/spearman_corr_heatmap_models.png
diff --git a/analyses_outputs/results_correlations/spearman_corr_matrix_datasets.csv b/analyses_outputs/results_correlations/spearman_corr_matrix_datasets.csv
diff --git a/analyses_outputs/results_correlations/spearman_corr_matrix_models.csv b/analyses_outputs/results_correlations/spearman_corr_matrix_models.csv
diff --git a/analyses_outputs/statistical_tests/conover_friedman.pdf b/analyses_outputs/statistical_tests/conover_friedman.pdf
diff --git a/analyses_outputs/statistical_tests/conover_friedman.png b/analyses_outputs/statistical_tests/conover_friedman.png
diff --git a/analyses_outputs/statistical_tests/critical_difference_diagram.pdf b/analyses_outputs/statistical_tests/critical_difference_diagram.pdf
diff --git a/analyses_outputs/statistical_tests/critical_difference_diagram.png b/analyses_outputs/statistical_tests/critical_difference_diagram.png
diff --git a/rename_DiaBLaBitextMining_files.sh b/rename_DiaBLaBitextMining_files.sh
@@ -0,0 +1,7 @@
+for f in results/*/*/DiaBLa*; do
+    mv "$f" "${f/DiaBLa/DiaBla}"
+done   
+
+for f in results/*/DiaBLa*; do
+    mv "$f" "${f/DiaBLa/DiaBla}"
+done  
diff --git a/requirements.analysis.txt b/requirements.analysis.txt
@@ -1,5 +1,6 @@
 # This environment is dedicated to result analysis
-mteb @ git+https://github.com/Lyon-NLP/mteb-french.git #removing the other mteb above for now (to adapt when mteb-french gets merged)
+#mteb @ git+https://github.com/Lyon-NLP/mteb-french.git #removing the other mteb above for now (to adapt when mteb-french gets merged)
+mteb==1.7.56
 matplotlib>=3.8.2
 openpyxl>=3.1.2
 pandas>=2.1.3

diff --git a/...base-10lang-cased/DiaBLaBitextMining.json → ...base-10lang-cased/DiaBlaBitextMining.json b/...base-10lang-cased/DiaBLaBitextMining.json → ...base-10lang-cased/DiaBlaBitextMining.json
diff --git a/...base-15lang-cased/DiaBLaBitextMining.json → ...base-15lang-cased/DiaBlaBitextMining.json b/...base-15lang-cased/DiaBLaBitextMining.json → ...base-15lang-cased/DiaBlaBitextMining.json
diff --git a/...base-25lang-cased/DiaBLaBitextMining.json → ...base-25lang-cased/DiaBlaBitextMining.json b/...base-25lang-cased/DiaBLaBitextMining.json → ...base-25lang-cased/DiaBlaBitextMining.json
diff --git a/...base-25lang-cased/DiaBLaBitextMining.json → ...base-25lang-cased/DiaBlaBitextMining.json b/...base-25lang-cased/DiaBLaBitextMining.json → ...base-25lang-cased/DiaBlaBitextMining.json
diff --git a/...-base-en-fr-cased/DiaBLaBitextMining.json → ...-base-en-fr-cased/DiaBlaBitextMining.json b/...-base-en-fr-cased/DiaBLaBitextMining.json → ...-base-en-fr-cased/DiaBlaBitextMining.json
diff --git a/...fr-es-pt-it-cased/DiaBLaBitextMining.json → ...fr-es-pt-it-cased/DiaBlaBitextMining.json b/...fr-es-pt-it-cased/DiaBLaBitextMining.json → ...fr-es-pt-it-cased/DiaBlaBitextMining.json
diff --git a/...ert-base-fr-cased/DiaBLaBitextMining.json → ...ert-base-fr-cased/DiaBlaBitextMining.json b/...ert-base-fr-cased/DiaBLaBitextMining.json → ...ert-base-fr-cased/DiaBlaBitextMining.json
diff --git a/results/Lajavaness/sentence-camembert-large/FloresBitextMining.json b/results/Lajavaness/sentence-camembert-large/FloresBitextMining.json
@@ -0,0 +1,22 @@
+{
+  "dataset_revision": "80dc3040d19756742c9a18267ab30f54fb8e226b",
+  "dev": {
+    "eng_Latn-fra_Latn": {
+      "accuracy": 0.9979939819458375,
+      "f1": 0.9973253092611166,
+      "main_score": 0.9973253092611166,
+      "precision": 0.9969909729187563,
+      "recall": 0.9979939819458375
+    },
+    "evaluation_time": 154.02,
+    "fra_Latn-eng_Latn": {
+      "accuracy": 0.9939819458375125,
+      "f1": 0.9919759277833501,
+      "main_score": 0.9919759277833501,
+      "precision": 0.9909729187562688,
+      "recall": 0.9939819458375125
+    }
+  },
+  "mteb_dataset_name": "FloresBitextMining",
+  "mteb_version": "1.7.56"
+}
diff --git a/...roissant-llm-base/DiaBLaBitextMining.json → ...roissant-llm-base/DiaBlaBitextMining.json b/...roissant-llm-base/DiaBLaBitextMining.json → ...roissant-llm-base/DiaBlaBitextMining.json
diff --git a/...ultilingual-cased/DiaBLaBitextMining.json → ...ultilingual-cased/DiaBlaBitextMining.json b/...ultilingual-cased/DiaBLaBitextMining.json → ...ultilingual-cased/DiaBlaBitextMining.json
diff --git a/...tilingual-uncased/DiaBLaBitextMining.json → ...tilingual-uncased/DiaBlaBitextMining.json b/...tilingual-uncased/DiaBLaBitextMining.json → ...tilingual-uncased/DiaBlaBitextMining.json
diff --git a/...rt/camembert-base/DiaBLaBitextMining.json → ...rt/camembert-base/DiaBlaBitextMining.json b/...rt/camembert-base/DiaBLaBitextMining.json → ...rt/camembert-base/DiaBlaBitextMining.json
diff --git a/...t/camembert-large/DiaBLaBitextMining.json → ...t/camembert-large/DiaBlaBitextMining.json b/...t/camembert-large/DiaBLaBitextMining.json → ...t/camembert-large/DiaBlaBitextMining.json
diff --git a/...ce-camembert-base/DiaBLaBitextMining.json → ...ce-camembert-base/DiaBlaBitextMining.json b/...ce-camembert-base/DiaBLaBitextMining.json → ...ce-camembert-base/DiaBlaBitextMining.json
diff --git a/...e-camembert-large/DiaBLaBitextMining.json → ...e-camembert-large/DiaBlaBitextMining.json b/...e-camembert-large/DiaBLaBitextMining.json → ...e-camembert-large/DiaBlaBitextMining.json
diff --git a/...bert-base-uncased/DiaBLaBitextMining.json → ...bert-base-uncased/DiaBlaBitextMining.json b/...bert-base-uncased/DiaBLaBitextMining.json → ...bert-base-uncased/DiaBlaBitextMining.json
diff --git a/...ingual-light-v3.0/DiaBLaBitextMining.json → ...ingual-light-v3.0/DiaBlaBitextMining.json b/...ingual-light-v3.0/DiaBLaBitextMining.json → ...ingual-light-v3.0/DiaBlaBitextMining.json
diff --git a/...multilingual-v3.0/DiaBLaBitextMining.json → ...multilingual-v3.0/DiaBlaBitextMining.json b/...multilingual-v3.0/DiaBLaBitextMining.json → ...multilingual-v3.0/DiaBlaBitextMining.json
diff --git a/...aubert_base_cased/DiaBLaBitextMining.json → ...aubert_base_cased/DiaBlaBitextMining.json b/...aubert_base_cased/DiaBLaBitextMining.json → ...aubert_base_cased/DiaBlaBitextMining.json
diff --git a/...bert_base_uncased/DiaBLaBitextMining.json → ...bert_base_uncased/DiaBlaBitextMining.json b/...bert_base_uncased/DiaBLaBitextMining.json → ...bert_base_uncased/DiaBlaBitextMining.json
diff --git a/...ubert_large_cased/DiaBLaBitextMining.json → ...ubert_large_cased/DiaBlaBitextMining.json b/...ubert_large_cased/DiaBLaBitextMining.json → ...ubert_large_cased/DiaBlaBitextMining.json
diff --git a/...stral-7b-instruct/DiaBLaBitextMining.json → ...stral-7b-instruct/DiaBlaBitextMining.json b/...stral-7b-instruct/DiaBLaBitextMining.json → ...stral-7b-instruct/DiaBlaBitextMining.json
diff --git a/...tilingual-e5-base/DiaBLaBitextMining.json → ...tilingual-e5-base/DiaBlaBitextMining.json b/...tilingual-e5-base/DiaBLaBitextMining.json → ...tilingual-e5-base/DiaBlaBitextMining.json
diff --git a/...ilingual-e5-large/DiaBLaBitextMining.json → ...ilingual-e5-large/DiaBlaBitextMining.json b/...ilingual-e5-large/DiaBLaBitextMining.json → ...ilingual-e5-large/DiaBlaBitextMining.json
diff --git a/...ilingual-e5-small/DiaBLaBitextMining.json → ...ilingual-e5-small/DiaBlaBitextMining.json b/...ilingual-e5-small/DiaBLaBitextMining.json → ...ilingual-e5-small/DiaBlaBitextMining.json
diff --git a/.../udever-bloom-1b1/DiaBLaBitextMining.json → .../udever-bloom-1b1/DiaBlaBitextMining.json b/.../udever-bloom-1b1/DiaBLaBitextMining.json → .../udever-bloom-1b1/DiaBlaBitextMining.json
diff --git a/...udever-bloom-560m/DiaBLaBitextMining.json → ...udever-bloom-560m/DiaBlaBitextMining.json b/...udever-bloom-560m/DiaBLaBitextMining.json → ...udever-bloom-560m/DiaBlaBitextMining.json
diff --git a/results/laser2/DiaBLaBitextMining.json → results/laser2/DiaBlaBitextMining.json b/results/laser2/DiaBLaBitextMining.json → results/laser2/DiaBlaBitextMining.json
diff --git a/...ransformers/LaBSE/DiaBLaBitextMining.json → ...ransformers/LaBSE/DiaBlaBitextMining.json b/...ransformers/LaBSE/DiaBLaBitextMining.json → ...ransformers/LaBSE/DiaBlaBitextMining.json
diff --git a/...all-MiniLM-L12-v2/DiaBLaBitextMining.json → ...all-MiniLM-L12-v2/DiaBlaBitextMining.json b/...all-MiniLM-L12-v2/DiaBLaBitextMining.json → ...all-MiniLM-L12-v2/DiaBlaBitextMining.json
diff --git a/.../all-MiniLM-L6-v2/DiaBLaBitextMining.json → .../all-MiniLM-L6-v2/DiaBlaBitextMining.json b/.../all-MiniLM-L6-v2/DiaBLaBitextMining.json → .../all-MiniLM-L6-v2/DiaBlaBitextMining.json
diff --git a/...ilingual-cased-v2/DiaBLaBitextMining.json → ...ilingual-cased-v2/DiaBlaBitextMining.json b/...ilingual-cased-v2/DiaBLaBitextMining.json → ...ilingual-cased-v2/DiaBlaBitextMining.json
diff --git a/...-MiniLM-L6-cos-v1/DiaBLaBitextMining.json → ...-MiniLM-L6-cos-v1/DiaBlaBitextMining.json b/...-MiniLM-L6-cos-v1/DiaBLaBitextMining.json → ...-MiniLM-L6-cos-v1/DiaBlaBitextMining.json
diff --git a/...ual-MiniLM-L12-v2/DiaBLaBitextMining.json → ...ual-MiniLM-L12-v2/DiaBlaBitextMining.json b/...ual-MiniLM-L12-v2/DiaBLaBitextMining.json → ...ual-MiniLM-L12-v2/DiaBlaBitextMining.json
diff --git a/...ual-mpnet-base-v2/DiaBLaBitextMining.json → ...ual-mpnet-base-v2/DiaBlaBitextMining.json b/...ual-mpnet-base-v2/DiaBLaBitextMining.json → ...ual-mpnet-base-v2/DiaBlaBitextMining.json
diff --git a/.../sentence-t5-base/DiaBLaBitextMining.json → .../sentence-t5-base/DiaBlaBitextMining.json b/.../sentence-t5-base/DiaBLaBitextMining.json → .../sentence-t5-base/DiaBlaBitextMining.json
diff --git a/...sentence-t5-large/DiaBLaBitextMining.json → ...sentence-t5-large/DiaBlaBitextMining.json b/...sentence-t5-large/DiaBLaBitextMining.json → ...sentence-t5-large/DiaBlaBitextMining.json
diff --git a/...rs/sentence-t5-xl/DiaBLaBitextMining.json → ...rs/sentence-t5-xl/DiaBlaBitextMining.json b/...rs/sentence-t5-xl/DiaBLaBitextMining.json → ...rs/sentence-t5-xl/DiaBlaBitextMining.json
diff --git a/...s/sentence-t5-xxl/DiaBLaBitextMining.json → ...s/sentence-t5-xxl/DiaBlaBitextMining.json b/...s/sentence-t5-xxl/DiaBLaBitextMining.json → ...s/sentence-t5-xxl/DiaBlaBitextMining.json
diff --git a/...base-multilingual/DiaBLaBitextMining.json → ...base-multilingual/DiaBlaBitextMining.json b/...base-multilingual/DiaBLaBitextMining.json → ...base-multilingual/DiaBlaBitextMining.json
diff --git a/...embedding-3-large/DiaBLaBitextMining.json → ...embedding-3-large/DiaBlaBitextMining.json b/...embedding-3-large/DiaBLaBitextMining.json → ...embedding-3-large/DiaBlaBitextMining.json
diff --git a/...embedding-3-small/DiaBLaBitextMining.json → ...embedding-3-small/DiaBlaBitextMining.json b/...embedding-3-small/DiaBLaBitextMining.json → ...embedding-3-small/DiaBlaBitextMining.json
diff --git a/...embedding-ada-002/DiaBLaBitextMining.json → ...embedding-ada-002/DiaBlaBitextMining.json b/...embedding-ada-002/DiaBLaBitextMining.json → ...embedding-ada-002/DiaBlaBitextMining.json
diff --git a/results/voyage-2/DiaBLaBitextMining.json → results/voyage-2/DiaBlaBitextMining.json b/results/voyage-2/DiaBLaBitextMining.json → results/voyage-2/DiaBlaBitextMining.json
diff --git a/...lts/voyage-code-2/DiaBLaBitextMining.json → ...lts/voyage-code-2/DiaBlaBitextMining.json b/...lts/voyage-code-2/DiaBLaBitextMining.json → ...lts/voyage-code-2/DiaBlaBitextMining.json
diff --git a/...er-multilingual-3/DiaBLaBitextMining.json → ...er-multilingual-3/DiaBlaBitextMining.json b/...er-multilingual-3/DiaBLaBitextMining.json → ...er-multilingual-3/DiaBlaBitextMining.json
diff --git a/...tilingual-large-3/DiaBLaBitextMining.json → ...tilingual-large-3/DiaBlaBitextMining.json b/...tilingual-large-3/DiaBLaBitextMining.json → ...tilingual-large-3/DiaBlaBitextMining.json
diff --git a/.../xlm-roberta-base/DiaBLaBitextMining.json → .../xlm-roberta-base/DiaBlaBitextMining.json b/.../xlm-roberta-base/DiaBLaBitextMining.json → .../xlm-roberta-base/DiaBlaBitextMining.json
diff --git a/...xlm-roberta-large/DiaBLaBitextMining.json → ...xlm-roberta-large/DiaBlaBitextMining.json b/...xlm-roberta-large/DiaBLaBitextMining.json → ...xlm-roberta-large/DiaBlaBitextMining.json
diff --git a/script_mteb_french/results_analysis/results_parser.py b/script_mteb_french/results_analysis/results_parser.py
@@ -7,15 +7,20 @@
 import pandas as pd
 
 DATASET_KEYS = {
-    "DiaBLaBitextMining": ["fr-en"],
+    "DiaBlaBitextMining": ["fr-en"],
     "FloresBitextMining": MTEB(tasks=['FloresBitextMining'], task_langs=['fr', 'en']).tasks[0].langs,
     "MasakhaNEWSClassification": MTEB(tasks=['MasakhaNEWSClassification'], task_langs=['fr']).tasks[0].langs,
     "MasakhaNEWSClusteringS2S": MTEB(tasks=['MasakhaNEWSClusteringS2S'], task_langs=['fr']).tasks[0].langs,
     "MasakhaNEWSClusteringP2P": MTEB(tasks=['MasakhaNEWSClusteringP2P'], task_langs=['fr']).tasks[0].langs,
+    "XPQARetrieval": MTEB(tasks=['XPQARetrieval'], task_langs=['fr']).tasks[0].langs,
 }
 
+HF_SUBSETS_VALUES = ["fra-fra"]
+ISO3_LANGUAGE = ["fra-Latn"]
 
-MODELS_TO_IGNORE = ['voyage-01', 'voyage-02', 'voyage-lite-01']
+MODELS_TO_IGNORE = ['voyage-01', 'voyage-02', 'voyage-lite-01', 'Geotrend/distilbert-base-en-fr-es-pt-it-cased', 
+                    'Geotrend/bert-base-10lang-cased', 'Geotrend/bert-base-15lang-cased', 'Geotrend/bert-base-25lang-cased',
+                    'dangvantuan/sentence-camembert-large', 'distilbert-base-uncased']
 
 
 class ResultsParser:
@@ -126,8 +131,21 @@ def _get_task_score(self, task_name:str, task_results:str, subkey:str|None = Non
             result_name_score (tuple[str, str]): the name of the task and name of the main scoring metric 
                 for that task
         """
-        key = subkey if subkey else self.lang
         selected_split = split if split else self.split
+
+        if task_results["mteb_version"].startswith("1.11.1"):
+            result = None
+            for eval in task_results["scores"][selected_split]:
+                hf_subset = eval['hf_subset']
+                languages = eval['languages'] # used when hf_subset = "default"
+                if (hf_subset == subkey) or (hf_subset in HF_SUBSETS_VALUES) or (languages == ISO3_LANGUAGE):
+                    result = eval["main_score"]
+                    continue
+            main_score = self.tasks_main_scores_map[task_name]
+            result_name_score = (task_name, main_score)
+            return result, result_name_score
+
+        key = subkey if subkey else self.lang
         result = task_results[selected_split]
         if key in result:
             result = result[key]
@@ -173,7 +191,7 @@ def _convert_to_results_dataframe(self, result_dict:dict):
                         else:
                             subkeys = [None]
                         for split in self.eval_splits_map[task_name]:
-                            if split in task_results:
+                            if (split in task_results) or ("scores" in task_results and split in task_results["scores"]):
                                 for subkey in subkeys:
                                     result, result_name_score = self._get_task_score(task_name, task_results, subkey, split)
                                     dataset_name = f"{task_name}_{split}_{subkey}" if subkey and task_type == "BitextMining" else f"{task_name}_{split}"

diff --git a/script_mteb_french/run_benchmark.py b/script_mteb_french/run_benchmark.py
@@ -70,8 +70,6 @@
     "OrdalieTech/Solon-embeddings-base-0.1",
     "manu/sentence_croissant_alpha_v0.3",
     "manu/sentence_croissant_alpha_v0.2",
-    "manu/bge-m3-custom-fr",
-    "BAAI/bge-m3",
 ]
 
 # these models max_length is indicated to be 514 whereas the embedding layer actually supports 512