msaid-de · gessulat · May 16, 2023 · May 16, 2023
diff --git a/mokapot/__init__.py b/mokapot/__init__.py
@@ -15,7 +15,7 @@
     except DistributionNotFound:
         pass
 
-from .dataset import LinearPsmDataset, OnDiskPsmDataset
+from .dataset import LinearPsmDataset, OnDiskPsmDataset, read_file
 from .model import Model, PercolatorModel, save_model, load_model
 from .brew import brew
 from .parsers.pin import read_pin, read_percolator

diff --git a/mokapot/confidence.py b/mokapot/confidence.py
@@ -523,6 +523,9 @@ def _assign_confidence(
                 self._proteins,
                 self._rng,
             )
+            proteins = proteins.sort_values(
+                by=self._score_column, ascending=False
+            ).reset_index(drop=True)
             proteins_path = "proteins.csv"
             proteins.to_csv(proteins_path, index=False, sep=sep)
             levels += ["proteins"]
@@ -791,15 +794,27 @@ def assign_confidence(
         level_data_path.append(peptides_path)
     if proteins:
         levels.append("proteins")
-
-    output_columns = [
+    out_columns_psms_peps = [
         "PSMId",
         "peptide",
         "score",
         "q-value",
         "posterior_error_prob",
         "proteinIds",
     ]
+    out_columns_proteins = [
+        "mokapot protein group",
+        "best peptide",
+        "stripped sequence",
+        "score",
+        "q-value",
+        "posterior_error_prob",
+    ]
+    output_columns = {
+        "psms": out_columns_psms_peps,
+        "peptides": out_columns_psms_peps,
+        "proteins": out_columns_proteins,
+    }
 
     for _psms, score, desc, prefix in zip(psms, scores, descs, prefixes):
         metadata_columns = [
@@ -824,12 +839,12 @@ def assign_confidence(
                 outfile_d = str(dest_dir_prefix) + f"decoys.{level}"
                 if not append_to_output_file:
                     with open(outfile_t, "w") as fp:
-                        fp.write(f"{sep.join(output_columns)}\n")
+                        fp.write(f"{sep.join(output_columns[level])}\n")
                 out_files.append([outfile_t])
                 if decoys:
                     if not append_to_output_file:
                         with open(outfile_d, "w") as fp:
-                            fp.write(f"{sep.join(output_columns)}\n")
+                            fp.write(f"{sep.join(output_columns[level])}\n")
                     out_files[-1].append(outfile_d)
 
             reader = read_file_in_chunks(

diff --git a/tests/system_tests/test_system.py b/tests/system_tests/test_system.py
@@ -18,33 +18,55 @@
 pytestmark = pytest.mark.filterwarnings("error")
 
 
-def test_compare_to_percolator():
+def test_compare_to_percolator(tmp_path):
     """Test that mokapot get almost the same answer as Percolator"""
     dat = mokapot.read_pin(os.path.join("data", "phospho_rep1.pin"))
-    dat.add_proteins(os.path.join("data", "human_sp_td.fasta"))
-    res, _ = mokapot.brew(dat)
+    proteins = mokapot.read_fasta(os.path.join("data", "human_sp_td.fasta"))
+    psms, models, scores, desc = mokapot.brew(dat)
+    mokapot.assign_confidence(
+        psms=psms,
+        scores=scores,
+        descs=desc,
+        dest_dir=tmp_path,
+        proteins=proteins,
+        prefixes=[None],
+    )
 
     perc_path = os.path.join("data", "percolator.{p}.txt")
+    moka_path = os.path.join(tmp_path, "targets.{p}")
     perc_res = {
-        p: mokapot.read_percolator(perc_path.format(p=p))
-        for p in ["psms", "peptides", "proteins"]
+        p: mokapot.read_file(perc_path.format(p=p)) for p in ["proteins"]
+    }
+    moka_res = {
+        p: mokapot.read_file(moka_path.format(p=p)) for p in ["proteins"]
     }
 
-    for level in ["psms", "peptides", "proteins"]:
+    for level in ["proteins"]:
         logging.info("Testing level: %s", level)
-
+        perc = perc_res[level]
+        moka = moka_res[level]
         if level != "proteins":
-            perc = perc_res[level].rename(
-                columns={"PSMId": "SpecId", "peptide": "Peptide"}
+            merged = pd.merge(
+                moka, perc, on="PSMId", suffixes=("_mokapot", "_percolator")
             )
         else:
-            perc = perc_res[level]
-            res.proteins["ProteinId"] = res.proteins[
-                "mokapot protein group"
-            ].str.split(", ", expand=True)[0]
+            moka["ProteinId"] = moka["mokapot protein group"].str.split(
+                ", ", expand=True
+            )[0]
+            merged = pd.merge(
+                moka,
+                perc,
+                on="ProteinId",
+                suffixes=("_mokapot", "_percolator"),
+            )
+            pd.set_option("display.max_columns", None)
 
-        merged = pd.merge(res.confidence_estimates[level], perc)
-        assert merged["mokapot q-value"].corr(merged["q-value"]) > 0.99
         assert (
-            merged["mokapot PEP"].corr(merged["posterior_error_prob"]) > 0.99
+            merged["q-value_mokapot"].corr(merged["q-value_percolator"]) > 0.99
+        )
+        assert (
+            merged["posterior_error_prob_mokapot"].corr(
+                merged["posterior_error_prob_percolator"]
+            )
+            > 0.99
         )