Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais

Carregando...
Imagem de Miniatura

Data

2022-10-21

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

O neuroblastoma é o tumor sólido extracraniano mais comum em indivı́duos com idade inferior a 15 anos. É uma doença extremamente heterogênea, podendo regredir ou evoluir de forma espontânea e, em alguns casos, se mostrar bastante agressiva. Alguns sistemas como o International Neuroblastoma Staging System (INSS) e o International Neuroblastoma Patho- logy Classification (INPC), permitem classificar o estágio da doença, relacionando-o a um prognóstico favorável ou desfavorável com base em caracterı́sticas histológicas. Com o surgimento das tecnologias de sequenciamento NGS, associadas a técnicas como o RNA-seq, mo- delos preditivos robustos e versáteis puderam ser desenvolvidos e aplicados ao câncer. Várias abordagens para o estudo de neoplasias pediátricas, entretanto, foram adaptadas de pesquisas oncológicas relacionadas a adultos. Porém, cânceres infantis apresentam taxas de mutações recorrentes muito baixas em relação a adultos, demandando novas abordagens para melhor compreender vulnerabilidades e etiologias especı́ficas. Nos últimos anos, um aumento de memória, poder de processamento e capacidade de armazenamento aumentaram a importância da computação para a biologia, tornando possı́vel a implementação de abordagens capazes de resolver problemas antes considerados difı́ceis. Dentre elas, destaca-se o aprendizado de máquina, o qual permite modelar a relação entre um conjunto de valores observáveis (entradas) e um grupo de variáveis relacionadas a estes valores (saı́das). Neste contexto, utilizamos regressão logı́stica, redes neurais artificiais com multilayer perceptron e árvore de decisão, todas técnicas de aprendizado supervisionado, para a análise de assinaturas transcricionais em dados de RNA-seq de pacientes com neuroblastoma. Desenvolvemos diferentes modelos preditivos baseados nas variáveis sobrevivência, progressão do tumor, alto risco e classe tumoral, com o propósito de caracterizar prognósticos clı́nicos favoráveis e desfavoráveis. Aplicamos recursos de bibliotecas das linguagens Python e R na criação dos modelos, seleção de features e ba- lanceamento dos dados. Dentre os principais resultados, conseguimos, por exemplo, predizer a sobrevivência (vivo ou morto) com 91,33% de acurácia. Além disso, para compreendermos biologicamente o melhor modelo encontrado, conduzimos uma análise de enriquecimento funcional em termos de processos biológicos do Gene Ontology e ontologias relacionadas à doenças - este, através da biblioteca DOSE da linguagem R. Isso nos permitiu associar as fe- atures (subconjunto de transcritos utilizados pelo modelo) a processos biológicos relacionados à funções de desenvolvimento e divisão celular, além de ontologias de doenças referentes ao neuroblastoma.
Neuroblastoma is the most common extracranial solid tumor in children. It is an extremely heterogeneous disease, which may spontaneously regress or evolve and, in some cases, be quite aggressive. Some systems such as the International Neuroblastoma Staging System (INSS) and the International Neuroblastoma Pathology Classification (INPC), make it possible to classify the stage of the disease, relating it to a favorable or unfavorable prognosis based on histological characteristics. NGS sequencing technologies, associated to techniques such as RNA-seq, make it possible to develop robust and versatile predictive models applied to cancer studies. Several approaches to the study of pediatric neoplasms have been adapted from adult oncology research. However, childhood cancers have very low rates of recurrent mutations in relation to adults, requiring new approaches to better understand vulnerabilities and specific etiologies. In the last years, increased memory, processing power and storage capacity have increased the importance of computer science to biology, making it possible to implement approaches that can solve problems once considered too dificult. In this scenario, we highlight machine learning techniques, which allows us to model the relationship between a set of observable values (input) and a group of variables related to these values (outputs). In this context, we used logistic regression, artificial neural networks with multilayer perceptron and decision tree, all supervised learning techniques, for the analysis of transcriptional signatures in RNA-seq data from patients with neuroblastoma. We developed different predictive models based on the variables survival, tumor progression, high risk and tumor class in order to characterize favorable and unfavorable clinical outcomes. We applyed resources from Python and R programming languages libraries to create the models, select features and balance the datasets. Among the main results, we were able, for example, to predict survival (alive or dead) with 91.33% accuracy. Furthermore, in order to biologically understand the best model found, we conducted a functional enrichment analysis in terms of biological processes from Gene Ontology and ontologies related to diseases- this one, by DOSE library from R language. This made it possible to associate the features (subset of transcripts used by the model) to biological processes related to developmental functions and cell division, as well as disease ontologies related to neuroblastoma.

Descrição

Palavras-chave

Aprendizado de máquina, Assinaturas transcricionais, Neuroblastoma, Predição, Prognóstico

Como citar