05-pkg-3-query.Rmd

# Molecular Data Query {#data-query}

## TCGA query
- Search molecular identifiers for TCGA samples via list `pancan_identifier_help` referring to Figure \@ref(fig:tcga-ids)

```{r query-tcga-func, echo = FALSE}
data = readxl::read_excel("images/table_01.xlsx")
data = subset(data, Database == "TCGA")
knitr::kable(
  data, caption = 'Specilized functions to query TCGA molecular data',
  align = "l",
  booktabs = TRUE
)
```

### get_pancan_gene_value()
- `get_pancan_gene_value(identifier, norm = c("tpm", "fpkm", "nc"))`

```{r message=FALSE, cache=TRUE}
data.list = get_pancan_gene_value("TP53", norm = "tpm")
data = data.list$expression
head(data.frame(value=data))
```

Information of available datasets:

|               Xena Hub               |                        Xena Datasets                         | Sample Size |        Unit        |
| :----------------------------------: | :----------------------------------------------------------: | :---------: | :----------------: |
| [toilHub](https://toil.xenahubs.net) | [TcgaTargetGtex_rsem_gene_tpm](https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_rsem_gene_tpm&host=https://toil.xenahubs.net) |    19131    |  log2(tpm+0.001)   |
| [toilHub](https://toil.xenahubs.net) | [TcgaTargetGtex_rsem_gene_fpkm](https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_rsem_gene_fpkm&host=https://toil.xenahubs.net) |    19131    |  log2(fpkm+0.001)  |
| [toilHub](https://toil.xenahubs.net) | [TcgaTargetGtex_RSEM_Hugo_norm_count](https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_RSEM_Hugo_norm_count&host=https://toil.xenahubs.net) |    19120    | log2(norm_count+1) |


### get_pancan_transcript_value()
- `get_pancan_transcript_value(identifier, norm = c("tpm", "fpkm", "nc"))`

```{r message=FALSE, cache=TRUE}
data.list = get_pancan_transcript_value("ENST00000456328", norm = "tpm")
data = data.list$expression
head(data.frame(value=data))
```

Information of available datasets:

|               Xena Hub               |                        Xena Datasets                         | Sample Size |       Unit       |
| :----------------------------------: | :----------------------------------------------------------: | :---------: | :--------------: |
| [toilHub](https://toil.xenahubs.net) | [TcgaTargetGtex_rsem_isoform_tpm](https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_rsem_isoform_tpm&host=https://toil.xenahubs.net) |    19131    | log2(tpm+0.001)  |
| [toilHub](https://toil.xenahubs.net) | [TcgaTargetGtex_RSEM_isoform_fpkm](https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_RSEM_isoform_fpkm&host=https://toil.xenahubs.net) |    19129    | log2(fpkm+0.001) |
| [toilHub](https://toil.xenahubs.net) | [TcgaTargetGtex_rsem_isopct](https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_rsem_isopct&host=https://toil.xenahubs.net) |    19131    |      IsoPct      |


### get_pancan_protein_value()
- `get_pancan_protein_value(identifier)`

```{r message=FALSE, cache=TRUE}
data.list = get_pancan_protein_value("ACC_pS79")
data = data.list$expression
head(data.frame(value=data))
```

Information of available datasets:

|                      Xena Hub                      |                        Xena Datasets                         | Sample Size |    Unit    |
| :------------------------------------------------: | :----------------------------------------------------------: | :---------: | :--------: |
| [pancanAtlasHub](https://pancanatlas.xenahubs.net) | [TCGA-RPPA-pancan-clean.xena](https://xenabrowser.net/datapages/?dataset=TCGA-RPPA-pancan-clean.xena&host=https://pancanatlas.xenahubs.net) |    7744     | norm_value |

### get_pancan_mutation_status()
- `get_pancan_mutation_status(identifier)`

```{r message=FALSE, cache=TRUE}
data = get_pancan_mutation_status("TP53")
head(data.frame(value=data))
```
Information of available datasets:

|                      Xena Hub                      |                        Xena Datasets                         | Sample Size | Unit |
| :------------------------------------------------: | :----------------------------------------------------------: | :---------: | :--: |
| [pancanAtlasHub](https://pancanatlas.xenahubs.net) | [mc3.v0.2.8.PUBLIC.nonsilentGene.xena](https://xenabrowser.net/datapages/?dataset=mc3.v0.2.8.PUBLIC.nonsilentGene.xena&host=https://pancanatlas.xenahubs.net) |    9104     |  NA  |

### get_pancan_cn_value()
- `get_pancan_cn_value(identifier, gistic2 = TRUE, use_thresholded_data = FALSE)`

```{r message=FALSE, cache=TRUE}
data.list = get_pancan_cn_value("TP53")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                      Xena Hub                      |                        Xena Datasets                         | Sample Size |                             Unit                             |
| :------------------------------------------------: | :----------------------------------------------------------: | :---------: | :----------------------------------------------------------: |
|        [tcgaHub](https://tcga.xenahubs.net)        | [..._Gistic2_all_data_by_genes](https://xenabrowser.net/datapages/?dataset=TCGA.PANCAN.sampleMap/Gistic2_CopyNumber_Gistic2_all_data_by_genes&host=https://tcga.xenahubs.net) |    10845    |                     Gistic2 copy number                      |
|        [tcgaHub](https://tcga.xenahubs.net)        | [..._Gistic2_all_thresholded.by_genes](https://xenabrowser.net/datapages/?dataset=TCGA.PANCAN.sampleMap/Gistic2_CopyNumber_Gistic2_all_thresholded.by_genes&host=https://tcga.xenahubs.net) |    10845    | -2,-1,0,1,2: 2 copy  del,1 copy del,no change,amplification,high-amplification |
| [pancanAtlasHub](https://pancanatlas.xenahubs.net) | [..._SNP_6_whitelisted.gene.xena](https://xenabrowser.net/datapages/?dataset=broad.mit.edu_PANCAN_Genome_Wide_SNP_6_whitelisted.gene.xena&host=https://pancanatlas.xenahubs.net) |    10873    |                      log(tumor/normal)                       |

### get_pancan_methylation_value()
```{r eval=FALSE, cache=TRUE}
get_pancan_methylation_value(
  identifier,
  type = c("450K", "27K"),
  rule_out = NULL,
  aggr = c("NA", "mean", "Q0", "Q25", "Q50", "Q75", "Q100")
)
```
- `rule_out`: exclude some CpG site(s) under one gene;
- `aggr`: select one aggregation method to calculate gene-level methylation (Default: "NA"(mean)).

```{r message=FALSE, cache=TRUE}
data.list = get_pancan_methylation_value("TP53")
data = data.list$data
head(data.frame(value=data))
```

Information of available datasets:

|              Xena Hub              |                        Xena Datasets                         | Sample Size |    Unit    |
| :--------------------------------: | :----------------------------------------------------------: | :---------: | :--------: |
| [gdcHub](https://gdc.xenahubs.net) | [GDC-PANCAN.methylation450.tsv](https://xenabrowser.net/datapages/?dataset=GDC-PANCAN.methylation450.tsv&host=https://gdc.xenahubs.net) |    9736     | beta value |
| [gdcHub](https://gdc.xenahubs.net) | [GDC-PANCAN.methylation27.tsv](https://xenabrowser.net/datapages/?dataset=GDC-PANCAN.methylation27.tsv&host=https://gdc.xenahubs.net) |    2595     | beta value |


### get_pancan_miRNA_value()
- `get_pancan_miRNA_value(identifier, gistic2 = TRUE, use_thresholded_data = FALSE)`

```{r message=FALSE, cache=TRUE}
data.list = get_pancan_miRNA_value("hsa-let-7a-2-3p")
data = data.list$expression
head(data.frame(value=data))
```
Information of available datasets:

|                      Xena Hub                      |                        Xena Datasets                         | Sample Size |        Unit        |
| :------------------------------------------------: | :----------------------------------------------------------: | :---------: | :----------------: |
| [pancanAtlasHub](https://pancanatlas.xenahubs.net) | [pancanMiRs_EBadjOnProtocolPlatformWithoutRepsWithUnCorrectMiRs_08_04_16.xena](https://xenabrowser.net/datapages/?dataset=pancanMiRs_EBadjOnProtocolPlatformWithoutRepsWithUnCorrectMiRs_08_04_16.xena&host=https://pancanatlas.xenahubs.net) |    10818    | log2(norm_value+1) |


## PCAWG query
- Search molecular identifiers for TCGA samples via list `pcawg_identifier` referring to Figure \@ref(fig:pc-ids)

```{r query-pcawg-func, echo = FALSE}
data = readxl::read_excel("images/table_01.xlsx")
data = subset(data, Database == "PCAWG")
knitr::kable(
  data, caption = 'Specilized functions to query PCAWG molecular data',
  align = "l",
  booktabs = TRUE
)
```
### get_pcawg_gene_value()
- `get_pcawg_gene_value(identifier)`

```{r message=FALSE, cache=TRUE}
data.list = get_pcawg_gene_value("TP53")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                Xena Hub                |                        Xena Datasets                         | Sample Size |        Unit         |
| :------------------------------------: | :----------------------------------------------------------: | :---------: | :-----------------: |
| [pcawgHub](https://pcawg.xenahubs.net) | [tophat_star_fpkm_uq.v2_aliquot_gl.sp.log](https://xenabrowser.net/datapages/?dataset=tophat_star_fpkm_uq.v2_aliquot_gl.sp.log&host=https://pcawg.xenahubs.net) |    1521     | log2(fpkm-uq+0.001) |

### get_pcawg_fusion_value()
- `get_pcawg_fusion_value(identifier)`

```{r message=FALSE, cache=TRUE}
data.list = get_pcawg_fusion_value("SAMD11")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                Xena Hub                |                        Xena Datasets                         | Sample Size |                    Unit                    |
| :------------------------------------: | :----------------------------------------------------------: | :---------: | :----------------------------------------: |
| [pcawgHub](https://pcawg.xenahubs.net) | [pcawg3_fusions_PKU_EBI.gene_centric.sp.xena](https://xenabrowser.net/datapages/?dataset=pcawg3_fusions_PKU_EBI.gene_centric.sp.xena&host=https://pcawg.xenahubs.net) |    1359     | binary fusion call, 1  fusion, 0 otherwise |


### get_pcawg_miRNA_value()
- `get_pcawg_miRNA_value(identifier, norm = c("TMM", "UQ"))`

```{r message=FALSE, cache=TRUE}
data.list = get_pcawg_miRNA_value("hsa-let-7a-2-3p")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                Xena Hub                |                        Xena Datasets                         | Sample Size |       Unit        |
| :------------------------------------: | :----------------------------------------------------------: | :---------: | :---------------: |
| [pcawgHub](https://pcawg.xenahubs.net) | [x3t2m1.mature.TMM.mirna.matrix.log](https://xenabrowser.net/datapages/?dataset=x3t2m1.mature.TMM.mirna.matrix.log&host=https://pcawg.xenahubs.net) |    1524     | log2(cpm-TMM+0.1) |
| [pcawgHub](https://pcawg.xenahubs.net) | [x3t2m1.mature.UQ.mirna.matrix.log](https://xenabrowser.net/datapages/?dataset=x3t2m1.mature.UQ.mirna.matrix.log&host=https://pcawg.xenahubs.net) |    1524     | log2(cpm-uq+0.1)  |

### get_pcawg_promoter_value()
- `get_pcawg_promoter_value(identifier, type = c("raw", "relative", "outlier"))`

```{r message=FALSE, cache=TRUE}
data.list = get_pcawg_promoter_value("prmtr.1")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                Xena Hub                |                        Xena Datasets                         | Sample Size |                             Unit                             |
| :------------------------------------: | :----------------------------------------------------------: | :---------: | :----------------------------------------------------------: |
| [pcawgHub](https://pcawg.xenahubs.net) | [rawPromoterActivity.sp](https://xenabrowser.net/datapages/?dataset=rawPromoterActivity.sp&host=https://pcawg.xenahubs.net) |    1359     |                    raw promoter activity                     |
| [pcawgHub](https://pcawg.xenahubs.net) | [promoterCentricTable_0.2_1.0.sp](https://xenabrowser.net/datapages/?dataset=promoterCentricTable_0.2_1.0.sp&host=https://pcawg.xenahubs.net) |    1359     |    -1 (low expression),  0 (normal), 1 (high expression)     |
| [pcawgHub](https://pcawg.xenahubs.net) | [relativePromoterActivity.sp](https://xenabrowser.net/datapages/?dataset=relativePromoterActivity.sp&host=https://pcawg.xenahubs.net) |    1359     | portion of  transcription activity of the gene driven by the promoter |

### get_pcawg_APOBEC_mutagenesis_value()
- `get_pcawg_APOBEC_mutagenesis_value(identifier)`

```{r message=FALSE, cache=TRUE}
data.list = get_pcawg_APOBEC_mutagenesis_value("A3A_or_A3B")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                Xena Hub                |                        Xena Datasets                         | Sample Size | Unit |
| :------------------------------------: | :----------------------------------------------------------: | :---------: | :--: |
| [pcawgHub](https://pcawg.xenahubs.net) | [MAF_Aug31_2016_sorted_A3A_A3B_comparePlus.sp](https://xenabrowser.net/datapages/?dataset=MAF_Aug31_2016_sorted_A3A_A3B_comparePlus.sp&host=https://pcawg.xenahubs.net) |    2072     |  NA  |


## CCLE query
- Search molecular identifiers for TCGA samples via list `ccle_identifier` referring to Figure \@ref(fig:pc-ids)

```{r query-ccle-func, echo = FALSE}
data = readxl::read_excel("images/table_01.xlsx")
data = subset(data, Database == "CCLE")
knitr::kable(
  data, caption = 'Specilized functions to query CCLE molecular data',
  align = "l",
  booktabs = TRUE
)
```
### get_ccle_gene_value()
- `get_ccle_gene_value(identifier, norm = c("rpkm", "nc"))`

```{r message=FALSE, cache=TRUE}
data.list = get_ccle_gene_value("TP53", norm = "rpkm")
data = data.list$expression
head(data.frame(value=data))
```
Information of available datasets:

|                   Xena Hub                   |                        Xena Datasets                         | Sample Size |     Unit      |
| :------------------------------------------: | :----------------------------------------------------------: | :---------: | :-----------: |
| [publicHub](https://ucscpublic.xenahubs.net) | [ccle/CCLE_DepMap_18Q2_RNAseq_RPKM_20180502](https://xenabrowser.net/datapages/?dataset=ccle/CCLE_DepMap_18Q2_RNAseq_RPKM_20180502&host=https://ucscpublic.xenahubs.net) |    1076     |     RPKM      |
| [publicHub](https://ucscpublic.xenahubs.net) | [ccle/CCLE_DepMap_18Q2_RNAseq_reads_20180502.log2](https://xenabrowser.net/datapages/?dataset=ccle/CCLE_DepMap_18Q2_RNAseq_reads_20180502.log2&host=https://ucscpublic.xenahubs.net) |    1076     | log2(count+1) |

### get_ccle_protein_value()
- `get_ccle_protein_value(identifier)`

```{r message=FALSE, cache=TRUE}
data.list = get_ccle_protein_value("14-3-3_beta")
data = data.list$expression
head(data.frame(value=data))
```
Information of available datasets:

|                   Xena Hub                   |                        Xena Datasets                         | Sample Size | Unit |
| :------------------------------------------: | :----------------------------------------------------------: | :---------: | :--: |
| [publicHub](https://ucscpublic.xenahubs.net) | [ccle/CCLE_RPPA_20180123](https://xenabrowser.net/datapages/?dataset=ccle/CCLE_RPPA_20180123&host=https://ucscpublic.xenahubs.net) |     899     |  NA  |

### get_ccle_mutation_status()
- `get_ccle_mutation_status(identifier)`

```{r message=FALSE, cache=TRUE}
data = get_ccle_mutation_status("TP53")
data = data[data$genes=="TP53",c("sampleID", "genes")]
head(na.omit(data))
```
Information of available datasets:

|                   Xena Hub                   |                        Xena Datasets                         | Sample Size | Unit |
| :------------------------------------------: | :----------------------------------------------------------: | :---------: | :--: |
| [publicHub](https://ucscpublic.xenahubs.net) | [ccle/CCLE_DepMap_18Q2_maf_20180502](https://xenabrowser.net/datapages/?dataset=ccle/CCLE_DepMap_18Q2_maf_20180502&host=https://ucscpublic.xenahubs.net) |    1549     |  NA  |

### get_ccle_cn_value()
- `get_ccle_cn_value(identifier)`

```{r message=FALSE, cache=TRUE}
data.list = get_ccle_cn_value("TP53")
data = data.list$data
head(data.frame(value=data))
```
Information of available datasets:

|                   Xena Hub                   |                        Xena Datasets                         | Sample Size |        Unit        |
| :------------------------------------------: | :----------------------------------------------------------: | :---------: | :----------------: |
| [publicHub](https://ucscpublic.xenahubs.net) | [ccle/CCLE_copynumber_byGene_2013-12-03](https://xenabrowser.net/datapages/?dataset=ccle/CCLE_copynumber_byGene_2013-12-03&host=https://ucscpublic.xenahubs.net) |    1043     | log(copy number/2) |

## General query

### query_pancan_value()
A function that integrates all above functions for quick query of TPC molecular data
```{r eval=FALSE}
query_pancan_value(
  molecule,
  data_type = c("mRNA", "transcript", "protein", "mutation", "cnv", "methylation",
    "miRNA", "fusion", "promoter", "APOBEC"),
  database = c("toil", "ccle", "pcawg"),
  reset_id = NULL,
  opt_pancan = .opt_pancan
)
```

```{r}
.opt_pancan
```

- Single molecule query with modified opt_pancan
```{r message=FALSE, cache=TRUE}
opt_pancan = .opt_pancan
opt_pancan$toil_mRNA$norm = "nc"
data.list = query_pancan_value(
  molecule = "TP53",
  data_type = "mRNA",
  database = "toil",
  opt_pancan = opt_pancan
)
data = data.list$expression
head(data.frame(value=data))
```

- Molecular signature query
```{r message=FALSE, cache=TRUE}
# a space must exist in the signature string
signature <- "TP53 + 2*KRAS - 1.3*PTEN" 
data.list = query_pancan_value(
  molecule = signature,
  data_type = "mRNA",
  database = "toil",
  opt_pancan = opt_pancan
)
data = data.list$value
head(data.frame(value=data))
```


### query_molecule_value()
A function to query general molecular data of most matrix datasets of UCSC Xena repository

- Genomic matrix repository
```{r}
data_meta = UCSCXenaTools::XenaData
data_meta_gm = subset(data_meta, Type=="genomicMatrix")
# see the 'XenaDatasets' column
head(data_meta_gm[,c("XenaHostNames","XenaCohorts","XenaDatasets","DataSubtype")])
```

- `query_molecule_value(dataset, molecule)`
```{r message=FALSE}
dataset <- "TCGA-BRCA.htseq_fpkm.tsv"
data <- query_molecule_value(dataset, "TP53") # also support signature 
head(data.frame(value=data))
```