RNA パイプライン設定ファイルについて



HGCスパコンの場合,このファイルは /share/pub/genomon/genomon_pipeline-2.6.3/genomon_conf/ にあります.



解析に使用するリファレンスファイル ([REFERENCE] セクション) やソフトウェア ([SOFTWARE] セクション) のパスをパイプライン設定ファイルに記入します.
各種ソフトウェアのインストールについは :doc:`install` を参照してください.
# prepared reference fasta file
star_genome                             = # the path to the GRCh37.STAR-2.5.2a
ref_fasta                               = # the path to the reference genome

# prepared tools
samtools                                = # the path to the samtools-1.2/samtools
tophat2                                 = # the path to the tophat-2.0.14.Linux_x86_64/tophat2
STAR                                    = # the path to the STAR-2.5.2a/bin/Linux_x86_64_static/STAR
STAR-Fusion                             = # the path to the STAR-Fusion-master/STAR-Fusion
bedtools                                = # the path to the bedtools-2.24.0/bin/bedtools
biobambam                               = # the path to the biobambam-0.0.191/bin
blat                                    = # the path to the blat_x86_64/blat
htslib                                  = # the path to the htslib-1.3
fusionfusion                            = # the path to the bin/fusionfusion
fusion_utils                            = # the path to the bin/fusion_utils
chimera_utils                           = # the path to the bin/chimera_utils
intron_retention_utils                  = # the path to the bin/intron_retention_utils
genomon_expression                      = # the path to the bin/genomon_expression
genomon_pa                              = # the path to the bin/genomon_pa
paplot                                  = # the path to the bin/paplot



[bam_tofastq] もしくは [fastq] でシーケンスファイルを指定したとき,使用します.
[bam_import] ではアライメントを行いませんので,このオプションは使用しません.



qsub_option はジョブ投入時のオプションです.
 # bamをfastqに変換するジョブの設定です
 # [bam_tofastq] でシーケンスファイルを指定したときのみ,使用します.
 qsub_option = -q '!mjobs_rerun.q' -l s_vmem=2G,mem_req=2G

 # Genomonが次のコマンドの実行時,{params}に設定するオプションを指定できます
 # /path/to/bamtofastq {params} \
 # filename=$in.bam F=$out1.fastq F2=$out2.fastq \
 # T=$temp S=$single O=$unmatched_pair1 O2=unmatched_pair2
params = collate=1 exclude=QCFAIL,SECONDARY,SUPPLEMENTARY tryoq=0

 # Genomonでは STAR にてアライメントを行っており,
 # Genomonが次のコマンドの実行時,{star_params}に設定するオプションを指定できます
 # STAR に関する解説はSTARドキュメントを別途参照してください.
 # /path/to/star --genomeDir $star_genome \
 # --readFilesIn $fastq1 $fastq2 \
 # --outFileNamePrefix $out_prefix \
 # {star_params}
 qsub_option = -pe def_slot 6 -l s_vmem=5.3G,mem_req=5.3G
 star_params = --runThreadN 6 --outSAMstrandField intronMotif --outSAMunmapped Within --alignMatesGapMax 500000 --alignIntronMax 500000 --alignSJstitchMismatchNmax -1 -1 -1 -1 --outSJfilterDistToOtherSJmin 0 0 0 0 --outSJfilterOverhangMin 12 12 12 12 --outSJfilterCountUniqueMin 1 1 1 1 --outSJfilterCountTotalMin 1 1 1 1 --chimSegmentMin 12 --chimJunctionOverhangMin 12 --outSAMtype BAM Unsorted

 # Genomonでは STARでアライメントしたbamに対して,"samtools sort" を使用してソートしており,
 # Genomonが次のコマンドの実行時,{star_params}に設定するオプションを指定できます.
 # "samtools sort" に関する解説はsamtoolsドキュメントを別途参照してください.
 # /path/to/samtools sort -T $Aligned.sortedByCoord.out \
 # {samtools_sort_params} $Aligned.out.bam \
 # -O bam > $Aligned.sortedByCoord.out.bam
 samtools_sort_params = -@ 6 -m 3G


[fusionfusion] で設定したサンプルに対して解析を行います.
# 1) Count supporting read pairs for each chimera junction
# Genomonが次のコマンドの実行時,{params}に設定するオプションを指定できます
# chimera_utils に関する解説はchimera_utilsドキュメントを別途参照してください.
# /path/to/chimera_utils count {params} \
# $chimeric_sam $output
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=5.3G,mem_req=5.3G
params =

# 2) Merge chimeric junction count file
# Genomonが次のコマンドの実行時,{params}に設定するオプションを指定できます
# chimera_utils に関する解説はchimera_utilsドキュメントを別途参照してください.
# /path/to/merge_control count {params} \
# $count_list $output
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=5.3G,mem_req=5.3G
params =

3)  融合遺伝子を検出します.
# Genomonでは 融合遺伝子検出のためfusionfusionを使用しており,
# Genomonが次のコマンドの実行時,{params}に設定するオプションを指定できます
# fusionfusion に関する解説はfusionfusionドキュメントを別途参照してください.
# /path/to/fusionfusion --star $chimeric_sam \
# --out $output_prefix --reference_genome $reference_genome \
# {params}
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=5.3G,mem_req=5.3G
params = --grc

# Genomonおすすめフィルタ
# 検出された融合遺伝子に対して,よく使用されるフィルタリングをあらかじめ実施します
# {sample}.fusion.fusion.result.txt から {sample}.fusion.fusion.result.filt.txt を作成します
# Genomonが次のコマンドの実行時,{filt_params}に設定するオプションを指定できます
# fusionfusion に関する解説はfusionfusionドキュメントを別途参照してください.
# /path/to/fusion_utils filt \
# $input.txt $output.txt \
# {filt_params}
filt_params = --filter_same_gene --grc


[expression] で設定したサンプルに対して解析を行います.
# Genomonでは 発現量の計算のためgenomon_expressionを使用しており,
# Genomonが次のコマンドの実行時,{params}に設定するオプションを指定できます
# genomon_expression に関する解説はgenomon_expressionドキュメントを別途参照してください.
# /path/to/genomon_expression {additional_params} \
# $input_bam $output_prefix
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=5.3G,mem_req=5.3G
params = --grc

Intron Retention

ここではIntron Retentionに関するオプションについて解説します.
[intron_retention] で設定したサンプルに対して解析を行います.
# Genomonでは intron_retentionの検出のためintron_retention_utilsを使用しており,
# Genomonが次のコマンドの実行時,{params}に設定するオプションを指定できます
# intron_retention_utils に関する解説はintron_retention_utilsドキュメントを別途参照してください.
# /path/to/intron_retention_utils simple_count \
# {params} $input_bam $output_prefix
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=5.3G,mem_req=5.3G
params = --grc

Post Analysis

ここでは STAR, fusionfusion の解析結果をレポート出力するPost Analysisという機能のオプションについて解説します.

Post Analysisによるマージされた結果が必要ですので,レポート出力するには [post_analysis] と [paplot] 両方が有効(enable = True)にする必要があります.
# GenomonではGenomonPostAnalysisというソフトウェアを用いて,サンプル毎の結果ファイルを1つのファイルにマージしています
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=2G,mem_req=2G

# Genomon Post Analysisを使用しない場合はFalse
enable = True

# post analysisの設定ファイルです.インストールした場所にありますので,パスを設定してください
config_file = # the path to the GenomonPostAnalysis-1.0.2/genomon_post_analysis.cfg

# paplotというソフトウェアを用いてレポートを作成します
qsub_option = -q '!mjobs_rerun.q' -l s_vmem=2G,mem_req=2G

# paplotを使用しない場合はFalse
enable = True

# ペアを設定していないサンプルをpaplotの対象から除く場合はFalse
include_unpair = True
# コントロールパネルを使用しないサンプルをpaplotの対象から除く場合はFalse
include_unpanel = True

# paplotの設定ファイルです.
# paplotをインストールした場所/config_template/ 配下にGenomon用の設定ファイルがありますので,パスを設定してください
config_file = # the path to the paplot-0.5.5/paplot.cfg

# index.htmlの設定です.通常変更する必要はありません
title = Genomon_RNA
remarks = Data used in this report were generated using below software.
software = genomon_pipeline:Genomon-Pipeline, STAR:STAR, fusionfusion:fusionfusion