Análise modular de dados de expressão para avaliação de múltiplos tumores com auxílio de métodos heurísticos

Carregando...
Imagem de Miniatura

Data

2022-08-26

Autores

Seco, Giordano Bruno Sanches

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Os grandes avanços nas ciências biológicas, especialmente na área das ciências ômicas, tem permitido aos pesquisadores realizar a coleta de grandes quantidades de dados biológicos. O TCGA (The Cancer Genome Atlas) é uma base de dados online que contém dados de diversos tipos de tumores e níveis de informação biológica, como por exemplo: expressão de mRNA (RNA-seq), expressão de microRNA (miRNA; miRseq) e metilação. Apesar das possibilidades que essa abundância de dados traz para os pesquisadores, tal área ainda carece de métodos de integração desses dados. O objetivo desta tese é o desenvolvimento de uma metodologia integrativa para avaliação de tecidos tumorais com o uso de três níveis de informação biológica (dados de RNA-seq, metilação e miRNA). Essa metodologia é baseada em machine learning não supervisionado, para obter um mapa modular que é composto por tumores e seus processos biológicos. Os processos biológicos foram prospectados do Gene Ontology e avaliados os níveis de profundidade de cada processo biológico para os módulos, bem como a frequência média de sondas induzidas ou reprimidas dos processos. Por meio de análise estatística, foi possível elaborar os mapas modulares que foram capazes de determinar vias biológicas de importância geral em 32 tumores. Tais achados envolvem vias como: síntese e transporte de lipídios, regulação da metilação, fibrinólise, regulação da atividade transcricional, transição epitélio-mesênquima, homeostase iônica, regulação de receptores de células do sistema imune e regulação de vias de sinalização mediadas por proteínas tirosina quinase. Foi realizada também uma análise mais específica do tumor mamário (BRCA),com auxílio de redes mRNA-mRNA (RNAseq e metilação) e miRNA-mRNA (miRseq). Esta última análise, conseguiu demonstrar que o tumor mamário tinha como alteradas, principalmente, as vias de diferenciação e desenvolvimento tecidual, efluxo de colesterol, angiogênese e vascularização. Em especial, a metodologia foi capaz de determinar genes e miRNAs cuja expressão ou metilação apresentam-se significantemente induzidos ou reprimidos nos dados como: o AR, ARHGDIG, PPARG, SUMO1 e o STAT3. Saliento que essa é uma metodologia de análise exploratória alternativa desenvolvida para reaproveitamento de grandes quantidades de dados biológicos. Especialmente quando esses dados não apresentem paridade caso/controle, o que dificulta a realização da análise de expressão diferencial, considerada como padrão ouro.
Recent advances in biological sciences, especially in the area of omics sciences, have allowed researchers to collect large amounts of biological data. TCGA (The Cancer Genome Atlas) is an online database that contains data on different types of tumors and levels of biological information, such as: mRNA expression (RNA-seq), microRNA expression (miRNA; miRseq) and methylation. Despite the possibilities that this abundance of data brings to researchers, the area still lacks methods of integrating these data. The objective of this thesis is the development of an integrative methodology for the evaluation of tumor tissues using three levels of biological information (RNA-seq, methylation and miRNA data). This methodology is based on unsupervised machine learning, to obtain a modular map that is composed of tumors and their biological processes. The biological processes were prospected from Gene Ontology and the depth levels of each biological process for the modules were evaluated, as well as the average frequency of induced or suppressed probes of the processes. Through statistical analysis, it was possible to elaborate modular maps that were able to determine biological pathways of general importance in 32 tumors. Our findings involve pathways such as: lipid synthesis and transport, methylation regulation, fibrinolysis, transcriptional activity regulation, epithelial-mesenchymal transition, ionic homeostasis, regulation of immune system cell receptors and regulation of signaling pathways mediated by tyrosine kinase proteins. A more specific analysis of the mammary tumor (BRCA) was also performed, with the aid of mRNA-mRNA (RNAseq and methylation) and miRNA-mRNA (miRseq) networks. This last analysis was able to demonstrate that the mammary tumor had mainly altered pathways of tissue differentiation and development, cholesterol efflux, angiogenesis and vascularization. In particular, the methodology was able to determine genes and miRNAs whose expression or methylation are significantly induced or repressed in data such as: AR, ARHGDIG, PPARG, SUMO1 and STAT3. I emphasize that this is an alternative exploratory analysis methodology developed to reuse large amounts of biological data. Especially when these data do not present case/control parity, which makes it difficult to perform differential expression analysis, considered the gold standard.

Descrição

Palavras-chave

Aprendizado de máquina, Bioinformática, Câncer

Como citar