Update predict_parquet.py

EliHei2 · Dec 9, 2024 · fb58fc1 · fb58fc1
1 parent f712172
commit fb58fc1
Showing 1 changed file with 5 additions and 5 deletions.
diff --git a/src/segger/prediction/predict_parquet.py b/src/segger/prediction/predict_parquet.py
@@ -640,14 +640,14 @@ def _get_id():
             step_start_time = time()
             print(f"Saving transcirpts.parquet...")
         transcripts_save_path = save_dir / "segger_transcripts.parquet"
-        transcripts_df_filtered = transcripts_df_filtered.repartition(npartitions=100)
+        # transcripts_df_filtered = transcripts_df_filtered.repartition(npartitions=100)
         transcripts_df_filtered.to_parquet(
             transcripts_save_path,
             engine="pyarrow",  # PyArrow is faster and recommended
             compression="snappy",  # Use snappy compression for speed
-            write_index=False,  # Skip writing index if not needed
-            append=False,  # Set to True if you're appending to an existing Parquet file
-            overwrite=True,
+            # write_index=False,  # Skip writing index if not needed
+            # append=False,  # Set to True if you're appending to an existing Parquet file
+            # overwrite=True,
         )  # Dask handles Parquet well
         if verbose:
             elapsed_time = time() - step_start_time
@@ -658,7 +658,7 @@ def _get_id():
             step_start_time = time()
             print(f"Saving anndata object...")
         anndata_save_path = save_dir / "segger_adata.h5ad"
-        segger_adata = create_anndata(transcripts_df_filtered.compute(), **anndata_kwargs)  # Compute for AnnData
+        segger_adata = create_anndata(transcripts_df_filtered, **anndata_kwargs)  # Compute for AnnData
         segger_adata.write(anndata_save_path)
         if verbose:
             elapsed_time = time() - step_start_time