Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11

Carregando...
Imagem de Miniatura

Data

2019-04-30

Autores

Alves, Camila Cristina de Oliveira

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

A Síndrome de Microdeleção 22q11 (SD22q11), causada por uma deleção de aproximadamente 3Mb na região 22q11, apresenta uma frequencia média de 1 em 4000 a 9800 nascidos vivos sendo considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down. De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e o principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1. A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais. Nesse trabalho aplicamos ferramentas de bioinformática com o intuito de descobrir padrões clínicos e sistêmicos da deleção 22q11, classificando casos sindrômicos em típicos e atípicos e estudando o impacto da deleção em redes de interação proteína-proteína (PPI). Para avaliação dos sinais clínicos que pudessem diferenciar pacientes sindrômicos foi aplicado uma metodologia baseada em aprendizado de máquina para classificar os casos em típico e atípico de acordo com os sinais clínicos através do algoritmo J48 (um algoritmo de árvore de decisão). As árvores de decisão selecionadas foram altamente precisas. Sinais clínicos como fissura oral, insuficiência velofaríngea, atraso no desenvolvimento de fala e linguagem, incapacidade de aprendizagem específica, anormalidade comportamental e atraso de crescimento foram indicativos para classificação dos casos. Já a avaliação do impacto da deleção da região 22q11 foi realizada através de estudos envolvendo redes biológicas. Assim, os genes codificadores de proteínas envolvidos na deleção foram removidos da rede PPI humana para simular a deleção. Diferentes análises topológicas foram utilizadas para comparar a rede global (GN) com a rede paciente (PN). Além disso foi verificado as comunidades de ambas as redes e realizou-se uma análise de enriquecimento de ontologia. Os resultados mostraram que não há diferença significativa ao comparar GN e PN, porém observamos que há diferença entre as comunidades dessas redes. Além disso, foi possível analisar diferentes genes que estavam presentes em regiões enriquecidas com termos ontológicos semelhantes. Dessa forma, podemos concluir que estudos envolvendo Aprendizado de Máquina e Redes Biológicas podem apontar novas hipoteses no estudo da SD22q11 além de ter potencial para esclarecer diversos aspectos de diferentes patologias que não são prontamente acessíveis pela biologia molecular convencional ou abordagens genéticas.
The 22q11 Microdeletion Syndrome (22q11DS), caused by a deletion of approximately 3Mb in the 22q11 region, has an average frequency of 1 in 4000 to 9800 live births and is considered the most frequent microdeletion syndrome and the second most common cause of developmental delay and severe congenital disease after Down syndrome. According to the size and location of the deletion, different genes may be affected and the main gene considered to be responsible for the classic signs of the syndrome is TBX1. 22q11DS is characterized by a very broad phenotypic spectrum with pleiotropic effects that result in the involvement of variable organs and/or systems with more than 180 clinical signs already described, both physical and behavioral. In this work, we applied bioinformatics tools to detect clinical and systemic patterns of 22q11 deletion, classifying typical and atypical syndromic cases, and studying the impact of deletion on protein-protein interaction (PPI) networks. To evaluate clinical signs that could differentiate syndromic patients, a machine-learning based methodology was used to classify the cases into typical and atypical according to the clinical signs through the algorithm J48 (a decision tree algorithm). The selected decision trees were highly accurate. Clinical signs such as oral fissure, velopharyngeal insufficiency, speech and language development delay, specific learning disability, behavioral abnormality and growth delay were indicative for case classification. The evaluation of the impact of the 22q11 region deletion was performed through studies involving biological networks. To achieve this goal, the protein coding genes involved in the deletion were removed from the human PPI network to mimic the deletion. Different topological analyzes were used to compare the global network (GN) with the patient network (PN). In addition, the communities of both networks were verified and an ontology enrichment analysis was performed. The results showed that there is no significant difference when comparing GN and PN, but we observed that there is difference between the communities of these networks. In addition, it was possible to analyze different genes that were present in regions enriched with similar ontological terms. Thus, we can conclude that studies involving Machine Learning and Biological Networks may point out new hypotheses in the study of 22q11DS and have the potential to clarify several aspects of different pathologies that are not readily accessible by conventional molecular biology or genetic approaches.

Descrição

Palavras-chave

22q11SD, Síndrome DiGeorge, Aprendizado de máquinas, Rede de interação proteína-proteína, 22q11DS, DiGeorge syndrome, Machine learning, Protein-protein interaction network

Como citar