phac-nml · peterk87 · Mar 4, 2021 · Mar 2, 2021 · Mar 2, 2021 · Mar 2, 2021
diff --git a/bio_hansel/main.py b/bio_hansel/main.py
@@ -12,15 +12,15 @@
 import attr
 import pandas as pd
 
-from . import program_desc, __version__, program_name
-from .const import SUBTYPE_SUMMARY_COLS, REGEX_FASTQ, REGEX_FASTA, JSON_EXT_TMPL
-from .subtype import Subtype
-from .subtype_stats import subtype_counts
-from .subtyper import \
+from bio_hansel import program_desc, __version__, program_name
+from bio_hansel.const import SUBTYPE_SUMMARY_COLS, REGEX_FASTQ, REGEX_FASTA, JSON_EXT_TMPL
+from bio_hansel.subtype import Subtype
+from bio_hansel.subtype_stats import subtype_counts
+from bio_hansel.subtyper import \
     subtype_contigs_samples, \
     subtype_reads_samples
-from .metadata import read_metadata_table, merge_results_with_metadata
-from .utils import (genome_name_from_fasta_path, get_scheme_fasta, does_file_exist, collect_fastq_from_dir,
+from bio_hansel.metadata import read_metadata_table, merge_results_with_metadata
+from bio_hansel.utils import (genome_name_from_fasta_path, get_scheme_fasta, does_file_exist, collect_fastq_from_dir,
                     group_fastqs, collect_fasta_from_dir, init_subtyping_params, df_field_fillna)
 
 SCRIPT_NAME = 'hansel'
@@ -81,6 +81,9 @@ def init_parser():
     parser.add_argument('--min-kmer-freq',
                         type=int,
                         help='Min k-mer freq/coverage')
+    parser.add_argument('--min-kmer-frac',
+                        type=float,
+                        help='Proportion of k-mer required for detection (0.0 - 1)')
     parser.add_argument('--max-kmer-freq',
                         type=int,
                         help='Max k-mer freq/coverage')
@@ -258,6 +261,8 @@ def main():
     if output_kmer_results:
         if len(dfs) > 0:
             dfall: pd.DataFrame = pd.concat([df.sort_values('is_pos_kmer', ascending=False) for df in dfs], sort=False)
+            #Error message is redundant accross each of the k-mers
+            dfall = dfall.drop(columns=['qc_message'])
             dfall = df_field_fillna(dfall)
             dfall.to_csv(output_kmer_results, **kwargs_for_pd_to_table)
             logging.info('Kmer results written to "{}".'.format(output_kmer_results))

diff --git a/bio_hansel/subtyper.py b/bio_hansel/subtyper.py
@@ -228,6 +228,24 @@ def parallel_query_reads(reads: List[Tuple[List[str], str]],
     outputs = [x.get() for x in res]
     return outputs
 
+def filter_by_kmer_fraction(df,min_kmer_frac=0.05):
 st, df = process_subtyping_results(st, df[df.is_kmer_freq_okay], scheme_subtype_counts) 
 st, df = process_subtyping_results(st, df[df.is_kmer_freq_okay], scheme_subtype_counts) 
+    """Filter out noisy kmers from high coverage datasets
+
+    Args:
+        df: BioHansel k-mer frequence pandas df
+        min_kmer_frac: float 0 - 1 on the minimum fraction a kmer needs to be to be considered valid
+
+    Returns:
+        - pd.DataFrame with k-mers which satisfy the min-fraction
+    """
+    position_counts = df['refposition'].value_counts().rename_axis('position').reset_index(name='counts')
+    valid_indexes = []
+    for index,row in df.iterrows():
+        frac = row['refposition'] / position_counts.loc[position_counts['position'] == row['refposition'], 'counts'].iloc[0]
+        if frac > min_kmer_frac:
+            valid_indexes.append(index)
+    return df[df.index.isin(valid_indexes)]
+
 
 def subtype_reads(reads: Union[str, List[str]],
                   genome_name: str,
@@ -285,6 +303,9 @@ def subtype_reads(reads: Union[str, List[str]],
     df['subtype'] = subtypes
     df['is_pos_kmer'] = ~df.kmername.str.contains('negative')
     df['is_kmer_freq_okay'] = (df.freq >= subtyping_params.min_kmer_freq) & (df.freq <= subtyping_params.max_kmer_freq)
+    #apply a scaled approach for filtering of k-mers required for high coverage amplicon data
+    df = filter_by_kmer_fraction(df,subtyping_params.min_kmer_frac)
+
     st.avg_kmer_coverage = df['freq'].mean()
     st, df = process_subtyping_results(st, df[df.is_kmer_freq_okay], scheme_subtype_counts)
     st.qc_status, st.qc_message = perform_quality_check(st, df, subtyping_params)

diff --git a/bio_hansel/subtyping_params.py b/bio_hansel/subtyping_params.py
@@ -8,9 +8,10 @@ class SubtypingParams(object):
     min_ambiguous_kmers = attr.ib(default=3, validator=attr.validators.instance_of(int))
     max_perc_intermediate_kmers = attr.ib(default=0.05, validator=attr.validators.instance_of(float))
     min_kmer_freq = attr.ib(default=8, validator=attr.validators.instance_of((float, int)))
-    max_kmer_freq = attr.ib(default=10000, validator=attr.validators.instance_of((float, int)))
+    min_kmer_frac = attr.ib(default=0.05, validator=attr.validators.instance_of(float))
+    max_kmer_freq = attr.ib(default=1000000, validator=attr.validators.instance_of((float, int)))
     min_coverage_warning = attr.ib(default=20, validator=attr.validators.instance_of((float, int)))
-    max_degenerate_kmers = attr.ib(default=100000, validator=attr.validators.instance_of(int))
+    max_degenerate_kmers = attr.ib(default=10000000, validator=attr.validators.instance_of(int))
 
     @max_perc_missing_kmers.validator
     def _validate_max_perc_missing_kmers(self, attribute, value):

diff --git a/bio_hansel/utils.py b/bio_hansel/utils.py
@@ -200,6 +200,8 @@ def init_subtyping_params(args: Optional[Any] = None,
             subtyping_params.min_coverage_warning = args.low_cov_warning
         if args.min_kmer_freq:
             subtyping_params.min_kmer_freq = args.min_kmer_freq
+        if args.min_kmer_frac:
+            subtyping_params.min_kmer_frac = args.min_kmer_frac
         if args.max_kmer_freq:
             subtyping_params.max_kmer_freq = args.max_kmer_freq
         if args.max_degenerate_kmers: