UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO ” Campus de Botucatu Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11 CAMILA CRISTINA DE OLIVEIRA ALVES BOTUCATU-SP 2019 UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO ” Campus de Botucatu Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11 CAMILA CRISTINA DE OLIVEIRA ALVES Orientadora: Profa. Dra. Lucilene Arilho Ribeiro Bicudo Co-orientador: Prof. Dr. Guilherme Targino Valente Dissertação apresentada ao Instituto de Biociências, Câmpus de Botucatu, UNESP, para obtenção do título de Mestre no Programa de Pós-Graduação em Ciências Biológicas (Genética). BOTUCATU-SP 2019 Palavras-chave: 22q11DS; Aprendizado de máquinas; Rede de interação proteína-proteína; Síndrome DiGeorge. Alves, Camila Cristina de Oliveira. Aprendizado de máquina e biologia de sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11 / Camila Cristina de Oliveira Alves. - Botucatu, 2019 Dissertação (mestrado) - Universidade Estadual Paulista "Júlio de Mesquita Filho", Instituto de Biociências de Botucatu Orientador: Lucilene Arilho Ribeiro Bicudo Coorientador: Guilherme Targino Valente Capes: 20205007 1. Aprendizado de máquina. 2. Interação proteína-proteína. 3. Cromossomos - Distúrbios. 4. Cromossomos humanos par 22. DIVISÃO TÉCNICA DE BIBLIOTECA E DOCUMENTAÇÃO - CÂMPUS DE BOTUCATU - UNESP BIBLIOTECÁRIA RESPONSÁVEL: ROSANGELA APARECIDA LOBO-CRB 8/7500 FICHA CATALOGRÁFICA ELABORADA PELA SEÇÃO TÉC. AQUIS. TRATAMENTO DA INFORM. iv Aos meus pais Eliete e Neto, e a toda minha família e amigos pelo auxilio e constante incentivo. v AGRADECIMENTOS A minha orientadora Profa. Dra. Lucilene Arilho Ribeiro Bicudo pela oportunidade, pelo aprdendizado profissional e pessoal e pela confiança depositada em mim. Ao meu co-orientador Prof. Dr. Guilherme Targino Valente por me receber em seu laboratório e sua equipe. Obrigada pela colaboração, por todo ensinamento, incentivo, paciência e acolhimento. Sou muito grata por todo esforço e empenho durante esse tempo, tenho uma enorme admiração pela pessoa e profissional que você é. Ao Me. Ivan Rodrigo Wolf por compartilhar seus conhecimentos e pelo auxilio desde a escrita do projeto, a colaboração em cada fase do trabalho até as sugestões e correções durante a elaboração da dissertação. Obrigada por me receber no laboratório, pela paciência e amizade. Ao Dr. Bruno Faulin Gamba por todo o apoio e parceria. Muito obrigada pelos conselhos, orientações e toda ajuda na interpretação dos resultados e na elaboração dessa dissertação! Aos meus amigos Lucas Farinazzo, Luiz Card, Lucas Lazari, Guilherme Luz, Eric Kawagoe e Giovanna Rock, que fizeram parte dessa jornada. Muito obrigada pelo acolhimento no laboratório, pelo apoio, orientações, risadas e por tantos momentos compartilhados. Guardarei boas lembranças. A Camila Vaz Souza e Talita Aleixo que me acolheram em Botucatu da melhor forma e me deram todo o apoio durante o mestrado. Aprendi muito com vocês! Obrigada por todo o companheirismo. A todos os outros amigos e colegas da Pós-graduação em Genética que contribuíram com esse trabalho tanto de forma direta quanto indireta. Agradeço aos meus pais, Neto e Eliete por todo o apoio, conselhos, companheirismo, carinho, paciência e por estarem comigo em cada conquista. Vocês são meus exemplos de força e perseverança, amo vocêis! A CAPES pela bolsa de estudos concedida! vi RESUMO ALVES, CCO. Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11. 2019, 117 p. Dissertação de mestrado – Instituto de Biociências de Botucatu, Univeeresidade Estadual Paulista “Júlio de Mesquita Filho”. A Síndrome de Microdeleção 22q11 (SD22q11), causada por uma deleção de aproximadamente 3Mb na região 22q11, apresenta uma frequencia média de 1 em 4000 a 9800 nascidos vivos sendo considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down. De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e o principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1. A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais. Nesse trabalho aplicamos ferramentas de bioinformática com o intuito de descobrir padrões clínicos e sistêmicos da deleção 22q11, classificando casos sindrômicos em típicos e atípicos e estudando o impacto da deleção em redes de interação proteína-proteína (PPI). Para avaliação dos sinais clínicos que pudessem diferenciar pacientes sindrômicos foi aplicado uma metodologia baseada em aprendizado de máquina para classificar os casos em típico e atípico de acordo com os sinais clínicos através do algoritmo J48 (um algoritmo de árvore de decisão). As árvores de decisão selecionadas foram altamente precisas. Sinais clínicos como fissura oral, insuficiência velofaríngea, atraso no desenvolvimento de fala e linguagem, incapacidade de aprendizagem específica, anormalidade comportamental e atraso de crescimento foram indicativos para classificação dos casos. Já a avaliação do impacto da deleção da região 22q11 foi realizada através de estudos envolvendo redes biológicas. Assim, os genes codificadores de proteínas envolvidos na deleção foram removidos da rede PPI humana para simular a deleção. Diferentes análises topológicas foram utilizadas para comparar a rede global (GN) com a rede paciente (PN). Além disso foi verificado as comunidades de ambas as redes e realizou-se uma análise de enriquecimento de ontologia. Os resultados mostraram que não há diferença significativa ao comparar GN e PN, porém observamos que há diferença entre as comunidades dessas redes. Além disso, foi possível analisar diferentes genes que estavam presentes em regiões enriquecidas com termos ontológicos semelhantes. Dessa forma, podemos concluir que estudos envolvendo Aprendizado de Máquina e Redes Biológicas podem apontar novas hipoteses no estudo da SD22q11 além de ter potencial para esclarecer diversos aspectos de diferentes patologias que não são prontamente acessíveis pela biologia molecular convencional ou abordagens genéticas. Palavras-chaves: 22q11SD; Síndrome DiGeorge; Aprendizado de máquinas; Rede de interação proteína-proteína. vii ABSTRACT ALVES, CCO. Machine Learning and Systems Biology applied to the study of the 22q11 Microdeletion Syndrome. 2019, 117 p. Master’s degree in Science – Instituto de Biociências de Botucatu, Universidade Estadual Paulista “Júlio de Mesquita Filho”. The 22q11 Microdeletion Syndrome (22q11DS), caused by a deletion of approximately 3Mb in the 22q11 region, has an average frequency of 1 in 4000 to 9800 live births and is considered the most frequent microdeletion syndrome and the second most common cause of developmental delay and severe congenital disease after Down syndrome. According to the size and location of the deletion, different genes may be affected and the main gene considered to be responsible for the classic signs of the syndrome is TBX1. 22q11DS is characterized by a very broad phenotypic spectrum with pleiotropic effects that result in the involvement of variable organs and/or systems with more than 180 clinical signs already described, both physical and behavioral. In this work, we applied bioinformatics tools to detect clinical and systemic patterns of 22q11 deletion, classifying typical and atypical syndromic cases, and studying the impact of deletion on protein-protein interaction (PPI) networks. To evaluate clinical signs that could differentiate syndromic patients, a machine-learning based methodology was used to classify the cases into typical and atypical according to the clinical signs through the algorithm J48 (a decision tree algorithm). The selected decision trees were highly accurate. Clinical signs such as oral fissure, velopharyngeal insufficiency, speech and language development delay, specific learning disability, behavioral abnormality and growth delay were indicative for case classification. The evaluation of the impact of the 22q11 region deletion was performed through studies involving biological networks. To achieve this goal, the protein coding genes involved in the deletion were removed from the human PPI network to mimic the deletion. Different topological analyzes were used to compare the global network (GN) with the patient network (PN). In addition, the communities of both networks were verified and an ontology enrichment analysis was performed. The results showed that there is no significant difference when comparing GN and PN, but we observed that there is difference between the communities of these networks. In addition, it was possible to analyze different genes that were present in regions enriched with similar ontological terms. Thus, we can conclude that studies involving Machine Learning and Biological Networks may point out new hypotheses in the study of 22q11DS and have the potential to clarify several aspects of different pathologies that are not readily accessible by conventional molecular biology or genetic approaches. Keywords: 22q11DS; DiGeorge syndrome; Machine learning; Protein-protein interaction network. viii SUMÁRIO INTRODUÇÃO E REVISÃO DA LITERATURA .......................................................... 11 1. Estrutura do genoma ................................................................................................. 11 2. Síndrome de microdeleção 22q11 ............................................................................. 12 2.1. Nomenclatura ................................................................................................... 13 2.2. Frequência ........................................................................................................ 14 2.3. Etiologia .......................................................................................................... 15 2.4. Caracteristicas clínicas ..................................................................................... 18 2.5. Diagnóstico ..................................................................................................... 21 2.6. Tratamento ....................................................................................................... 23 3. Aprendizado de máquinas ......................................................................................... 24 3.1. Dados de entrada ou Input ................................................................................ 25 3.2. Árvores de decisão ........................................................................................... 26 3.3. Algoritmo de classificação J48 ......................................................................... 31 3.4. Medidas de desempenho .................................................................................. 32 4. Rede de interação proteina-proteina .......................................................................... 34 4.1. Biologia de sistemas ......................................................................................... 34 4.2. Teoria dos grafos .............................................................................................. 35 4.3. Propriedades gerais das redes ........................................................................... 37 4.4. Modelos de redes biológicas ............................................................................ 39 OBJETIVOS ....................................................................................................................... 42 1. Objetivo geral .......................................................................................................... 42 2. Objetivos específicos ............................................................................................... 42 REFERÊNCIAS ................................................................................................................. 44 CAPÍTULO 1 ...................................................................................................................... 53 1. Introduction .............................................................................................................. 54 2. Methods .................................................................................................................... 55 2.1. Data collection .................................................................................................. 55 2.2. Data preparation ............................................................................................... 55 2.3. Decision-tree Modeling .................................................................................... 56 3. Results ...................................................................................................................... 57 3.1 Data collation and preparation ........................................................................... 57 ix 3.2 Decision tree model ........................................................................................... 59 4. Discussion ................................................................................................................ 61 5. Conclusion ……………………………………………………………………….... 65 6. Reference …………………………………………………………………….......... 65 7. Supplementary material ............................................................................................ 68 7.1. Supplementary table 1 ...................................................................................... 68 7.2. Supplementary table 2 ...................................................................................... 69 CAPÍTULO 2 …………………………………………………………………………….. 74 1. Introduction ……………………………………………………………………...... 75 2. Methods …………………………………………………………………………... 77 2.1. Data sources ………………………………………………………….…….... 77 2.2. Establish patient and global network ………………………………………… 77 2.3. Network metrics ……………………………………………………............... 77 2.4. Neighbouring genes in the context of communities ………………………….. 78 2.5. Gene Ontology Enrichment Analysis …………………………….….............. 78 3. Results …………………………………………………………………………...... 78 3.1 Analysis of the PPI networks of each established group …………….………... 78 3.2. Community context analysis of neighbouring proteins ……………................. 79 3.3. Gene Ontology Enrichment Analysis ............................................................... 83 4. Discussion ................................................................................................................ 87 5. Conclusion ……………………………………………………………………….... 92 6. References ………………………………………………………………………... 93 7. Supplementary material …………………………………………………………... 101 7.1 Supplementary material 1 .................................................................................. 101 7.2 Supplementary material 2 .................................................................................. 102 7.3. Supplementary material 3 ................................................................................ 103 INTRODUÇÃO E REVISÃO DA LITERATURA 11 INTRODUÇÃO E REVISÃO DA LITERATURA 1. ESTRUTURA DO GENOMA Distúrbios genômicos são doenças resultantes da perda ou ganho de material cromossômico. Os rearranjos cromossômicos em humanos são diversos, frequentes e geralmente resultam em anormalidades fenotípicas, defeitos de nascimento e letalidade embrionária (Shaffer and Lupski, 2000). As desordens genômicas mais comuns e delineadas são divididas em duas categorias principais: as que resultam da perda do número de cópias (deleções) e do ganho de número de cópias (duplicações) (Picchi, 1997). Além disso, alguns rearranjos cromossômicos ocorrem em segmentos menores, assim, deleções cromossômicas muito pequenas que não são detectadas pela microscopia, utilizando métodos citogenéticos tradicionais, são denominadas microdeleções (Shaffer and Lupski, 2000). Ao longo do genoma, várias cópias de Regiões de repetição de pequeno número de cópias (LCRs - Low Copy Repeats) podem ser encontrados (Cardoso et al., 2016). Os LCRs são sequencias homologas, com comprimento maior ou igual a 1Kb, que foram gerados através de eventos de duplicação (Cardoso et al., 2016; Harel and Lupski, 2018). Os LCRs com sequencias de alta homologia podem promover uma recombinação homóloga não alélica (NAHR) (Shaffer and Lupski, 2000; Shaikh, Kurahashi and Emanuel, 2001; Burnside, 2015). Dois tipos de NAHR podem ocorrer entre os LCRs: eventos Intercromossômicos entre LCRs parálogos ou eventos Intracromossômicos (Figura 1). Assim, LCRs levam a ocorrência de NAHR que resultam em variações no número de cópias (CNVs). O tamanho das CNVs é de mais de 50pb e pode resultar em 1,2% de diferença em relação ao genoma humano de referência (Zarrei et al., 2015; Nowakowska, 2017). Além disso, um continuo espectro de fenótipos é resultante de recorrentes CNVs (Zarrei et al., 2015; Harel and Lupski, 2018). 12 Figura 1. Diagrama dos dois tipos diferentes NAHR (Recombinação Homóloga Não Alélica) que podem ocorrer entre LCRs (Repetições de Pequeno Número de Cópias). No lado esquerdo, observa-se um rearranjo intercromossômico entre dois LCRs, indicados como A e D respectivamente. Esse processo resulta em uma duplicação ou deleção de genes nos gametas resultantes ( O "X" mostra o cruzamento dos dois cromossomos). Já no lado direito, está esquematizado uma recombinação intracromossômica que ocorre devido cruzamento (indicado por "X") dentro de um alelo, resultando em um deleção ou um cromossomo em anel (não viável). Imagem adaptada de McDonald-McGinn et al., 2015. 2. SÍNDROME DE MICRODELEÇÃO 22q11 Distúrbios genômicos, resultantes de recorrentes CNVs, foram descritos nos cromossomos 2, 7, 15, 16, 17 e 22 (Lupski, 1998; Shaffer and Lupski, 2000). Dentre estes, destaca-se a região q11 do cromossomo 22, uma área rica em genes que apresenta um conjunto de regiões de LCRs as quais predispõe à deleção ou duplicação dessa região (Guo et al., 2011). Dessa forma, a deleção (que geralmente possui 3Mb) na região 1 banda 1 do braço longo (q) do cromossomo 22 é considerada a etiologia da Síndrome de Microdeleção 22q11 (SD22q11) (Figura 2). 13 Figura 2. Representação do cromossomo 22 mostrando os braços curtos (p), braços longos (q) e o centrômero. A deleção na região 22q11 ocorre no braço longo de um dos dois cromossomos (representado pelas linhas tracejadas) devido a recombinação homóloga não alélica (NAHR) entre as regiões de repetição de pequeno número de copias (LCRs) A e D (Modificado de McDonald-McGinn et al., 2015). 2.1. Nomenclatura A Síndrome de microdeleção 22q11 foi descrita em várias partes do mundo de diferentes formas e em diferentes momentos. Consequentemente diferentes nomes foram atrelados a essa condição dando a entender que existiam diferentes desordens relacionadas a deleção 22q11 (Robin and Shprintzen, 2005). Wulfsberg e colaboradores (1996) compararam a evolução do estudo referente a deleção 22q11 com a fábula indiana que descreve um grupo de homens cegos tentando descrever um elefante cada um examinando uma parte separada (McDonald-McGinn, Zackai and Low, 1997). A primeira descrição publicada foi o relato de um grupo de pacientes com voz anasalada e diminuição da mímica facial realizada por Sedlačkova em 1955 (Rosa et al., 2009). No decorrer do anos, outros clínicos descreveram diferentes pacientes que apresentavam anomalias do arco aórtico associado a outros sinais como dismorfia facial, deficit cognitivo ou deficiência imune. Porém, a primeira descrição clínica formal foi publicada por DiGeorge que descreveu que os pacientes sindrômicos apresentavam: hipopartireoidismo, defeitos cardíacos conotruncais, dismorfismo facial e imunodeficiência (DIGEORGE, 1968). Assim, ela ficou conhecida na época como Síndrome de DiGeorge (SDG; OMIM#188400). 14 Em 1976, Kinouchi e colaboradores relataram uma síndrome a qual se caracterizava por cardiopatia congênita e aparência facial típica que ele denominou como Síndrome da anomalia facial conotruncal (CTAF). Na mesma época, Shprintzen relatou um quadro de cardiopatia congênita, voz anasalada com anomalias de palato, aparência facial característica e dificuldades de aprendizagem em diferentes pacientes e usou o termo Síndrome Velocardiofacial (SVCF; OMIM#192430) para caracterizar o quadro, que também ficou conhecido como Síndrome de Shprintzen (Robin and Shprintzen, 2005). No início de 1990 diversos grupos associaram uma microdeleção 22q11.2 em pacientes com a sequencia DiGeorge mas que possuíam diferentes manifestações clínicas. Essa foi a base para associar os diferentes casos já relatados a uma mesma região cromossômica (Goodship et al., 1998; Swillen et al., 2000). Dessa forma ficou claro que não havia diferentes síndromes e sim diferentes manisfestações clínicas para uma deleção na mesma região cromossômica (Robin and Shprintzen, 2005). Com o intuito de unificar as diferentes nomenclaturas relacionados à deleção 22q11, Bassett e colaborados sugeriram o termo Síndrome de deleção 22q11, o qual é utilizado até hoje (Rosa et al., 2009). Assim, depois da ampla utilização da técnica de FISH, as síndromes anteriormente conhecidas como SDG, SVCF e a CTAF passaram a ser referidas por sua etiologia cromossômica como SD22q11 (Bassett et al., 2011). 2.2. Frequência Estima-se que a frequência média da ocorrência da SD22q11 é de 1 em 4000 a 9800 nascidos vivos, porém ainda não há estudos que confirmem essa incidência ao nascimento (Burnside, 2015; Panamonta et al., 2016; Dugoff, Mennuti and McDonald-McGinn, 2017). Porém, a variável nomenclatura, a variabilidade fenotípica e, consequentemente, a dificuldade no diagnóstico tornam o cálculo da frequência subestimado (Miller et al., 2010; Rosenfeld et al., 2013). Apesar da situação observada para a SD22q11, essa é considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down (Burnside, 2015). Além disso, é responsável por aproximadamente 2,4% dos indivíduos com deficiência no desenvolvimento e cerca de 10% a 15% dos pacientes com tetralogia de Fallot (Bassett et al., 2011). Do ponto de vista hereditário, a SD22q11 é herdada de forma autossômica dominante, em até 10% dos indivíduos, e observa-se que indivíduos do sexo masculino e feminino são igualmente afetados (Lindsay, 2001). Poŕem, a maioria das deleções do cromossomo 22q11 15 (cerca de 90%) são esporádicas (deleção de novo) (Bassett et al., 2011). A identificação de uma deleção esporádica implica em baixo risco de recorrência (1 a 3%), enquanto que em uma deleção herdada, há um risco de 50% de transmissão da deleção (McDonald-McGinn et al., 1997). 2.3. Etiologia A área pericentromérica do cromossomo 22 tem uma complexa estrutura que contém oito LCRs distintos (LCR22A-H) com alta homologia entre si levando a ocorrência de NAHR (Sullivan, 2019). Dessa forma, as deleções observadas são causadas por um evento de recombinação homóloga não alélica durante a meiose (Scambler, 2000; Bittel et al., 2009; Rosa et al., 2009). Na maioria das vezes, a deleção é secundária a um erro de pareamento das sequências de DNA entre dois cromossomos 22 (intercromossômica), de forma que a LCR proximal de um deles reconhece a distal do outro (Scambler, 2000; Bittel et al., 2009; Rosa et al., 2009). De acordo com a sua posição em relação ao centrômero, as deleções envolvendo as regiões LCR22 são designadas como: deleção na região proximal (A–B, A–D, A–E, A–F), central (B–D, C–D), distal tipo 1 (C–E, D–E, D–F), tipo 2 (E–F) e tipo 3 (inclui o gene SMARCB1) (Lindsay, 2001; Burnside, 2015) (Figura 3). Como pode ser observado, as extensões de deleções 22q11 são variáveis, mas estudos indicam que aproximadamente 90% das deleções que ocorrem na SD22q11 se estendam da LCR22-A a LCR22-D, compreendendo 3Mb. Devido a frequência observada, essa extensão é conhecida como Região Tipicamente Deletada (Typically Deleted Region - TDR) e abrange um número estimado de 90 genes conhecidos ou preditos incluindo 46 genes codificadores de proteínas e microRNAs, 10 RNAs não codificantes e 27 pseudogenes (Dugoff, Mennuti and McDonald-McGinn, 2017). Em aproximadamente 8% dos pacientes ocorre uma deleção menor de 1.5Mb, que compreende em torno de 24 genes, e a minoria dos pacientes apresentam deleções atípicas, com um número variável de genes afetados (Edelmann, Pandita and Morrow, 1999; Yamagishi and Srivastava, 2003; Rosa et al., 2009; McDonald-McGinn et al., 2015). 16 Figura 3. Região proximal 22q11 de acordo com UCSC Genome Browser. A classificação das deleções envolvendo as regiões LCR22 são esquematizadas. Deleção na região proximal (A–B, A–D, A–E, A–F), central (B–D, C–D), distal tipo 1 (C–E, D–E, D–F), tipo 2 (E–F) e tipo 3(inclui o gene SMARCB1). Além disso, genes chaves presentes na região podem ser observados. Imagem modificada de Burnside., 2015. Sandrin-Garcia (Sandrin-Garcia et al., 2007) destaca que pacientes que apresentam a deleção de 1.5Mb, compartilham sinais clínicos característicos da síndrome com pacientes que possuem a deleção de 3Mb. Dessa forma, o aspecto fenotípico típico da SD22q11 normalmente ocorre independentemente do tamanho da deleção da região 22q11 e, por isso, ainda não foi possível realizar uma correlação do tamanho da deleção com o fenótipo. Além disso, é importante salientar que indivíduos afetados possuem a deleção em apenas um dos cromossomos 22, presume-se, portanto, que essa é uma síndrome que envolve genes haploinsuficientes (Bassett et al., 2011). De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e alguns desses genes têm sido associados ao fenótipo da SD22q11. O principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1, o qual foi identificado em modelos murinos na região proximal da deleção, entre os LCRsA-B (Dugoff, Mennuti and McDonald-McGinn, 2017). É um membro da família gênica T-box, um grupo 17 com fatores de transcrição evolutivamente conservados que compartilham domínios de ligação ao DNA, chamados T-box (Bollag et al., 1994). Foi demonstrado que a mutação no gene TBX1 produz um amplo espectro fenótipo, incluindo artérias do arco aórtico anormais, comumente associadas a Síndrome de microdeleção 22q11(Jerome and Papaioannou, 2001). Gao e colaboradores (Gao et al., 2015) utilizaram camundongos com o gene TBX1 silenciado para determinar a base molecular dos defeitos dentários observados em pacientes com a síndrome e determinaram que esse gene é essencial para o desenvolvimento embrionário. Estudos em modelos animais também demostraram que a haploinsuficiência de TBX1 provoca uma remodelação e crescimento anormal da faringe e estruturas relacionadas a ela, o que explica vários achados clínicos da síndrome, incluindo dismorfia facial, defeitos no palato, hipoplasia das glândulas paratireoides e timo, problemas odontológicos, de alimentação e deglutição (Scambler, 2000; Jerome and Papaioannou, 2001; Gao, Li and Amendt, 2013). O gene TBX1 também vem sendo associado a outros órgãos e sistemas, como o estudo de Chen e colaboradores (Chen et al., 2016) que demonstra o papel desse gene no desenvolvimento e funções do ouvido. Além do gene TBX1, outros genes são considerados críticos na manifestação das características clínicas principais da síndrome, como os genes HIRA e COMT (Burnside, 2015). O gene HIRA (histone cell cycle regulator) está localizado na região TDR e foi demostrado que ele atua, em modelos animais, na crista neural e nos tecidos neurais durante o desenvolvimento embrionário e desempenha um papel essencial na formação do coração (Ju et al., 2016). Estudos de Jae-Hyun Yang e colaborados (Yang et al., 2016) demonstram o papel do HIRA na expressão de genes miogênicos, o que corrobora com a ideia de que a deleção desse gene pode afetar o desenvolvimento cardíaco e, por conseguinte, causar defeitos cardíacos congênitos como os observados na SD22q11. Outro gene localizado na região TDR é o COMT que codifica a enzima Catechol-O- Methyltranferase, essa enzima está envolvida na decomposição de neurotransmissores incluindo a dopamina, epinefrina e norepinefrina (Radoeva et al., 2014). Estudos indicam sua atuação na degradação de catecolaminas e, por isso, ele é considerado como um dos candidatos para explicar os efeitos neurológicos apresentado por pacientes com SD22q11 (Zeitz et al., 2013). Entretanto, o locus do TBX1 nem sempre está incluso na deleção 22q11, deleções centrais envolvendo os LCRB-D e C-D por exemplo não incluem o gene TBX1, nem o HIRA (Burnside, 2015). Por isso, é possível considerar que outros genes possam influenciar a 18 expressão das características clínicas observadas ou desempenhar papéis importantes na etiologia da síndrome (Jerome and Papaioannou, 2001). O gene CRKL é considerado como candidato nas deleções centrais e o gene MAPK1 para a deleção distal (Burnside, 2015; Racedo et al., 2015). Ainda não está claro os efeitos dos genes deletados na região da deleção distal tipo 2, mas para a deleção distal tipo 3 o gene SMARCB1 é considerado como um gene crítico devido a alta taxa de tumores rabdóides malignos em indivíduos com essa deleção (Burnside, 2015). Na região das deleções centrais, o gene CRKL é considerado como crítico para a fisiopatologia da síndrome. O CrK-like ou CRKL é um gene codificador de proteínas envolvidas na cascata de sinalização de IL-2 e de interferon tipo I. Estudos indicam que o CRKL pode ter um papel funcional na deficiência de células T em pacientes com SD22q11 (Giacomelli et al., 2016). Além disso, acredita-se que a haploinsuficiencia desse gene pode influenciar no desenvolvimento de anomalias cardíacas em indivíduos que apresentam uma deleção distal envolvendo os LCR22B-D e LCR22C-D (Dugoff, Mennuti and McDonald- McGinn, 2017). O gene MAPK1 ou ERK2 localiza-se na região da deleção distal tipo 1 e está associado a sinalização intracelular. Samuels e colaboradores (Samuels et al., 2008) examinaram o papel desse gene no desenvolvimento neurológico em modelos murinos e observaram que a perda de ERK2 resulta na redução da espessura cortical, além da formação diminuída de neurônios. Por fim, estudos mostram uma associação do gene supressor de tumor SMARCB1 com tumores rabdóides em pacientes com a deleção distal 22q11 (Hacıhamdioğlu, Hacihamdioglu and Delil, 2015). 2.4. Caracteristicas clínicas A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais (Carlson et al., 1997; Robin and Shprintzen, 2005; Hay, 2007). Porém não há nenhum sinal clínico ou conjunto de sinais que ocorrem em todos os indivíduos com a deleção 22q11, indicando a inexistência de manifestações obrigatórias para a síndrome (Hay, 2007; Shprintzen, 2008). Apesar da diversidade de características clínicas associadas a SD22q11 pode-se citar alguns sinais clássicos como: doença cardíaca congênita, fissura de palato, insuficiência velofaríngea, aspectos faciais característicos, dificuldade de aprendizado e deficiência 19 imunológica (Dugoff, Mennuti and McDonald-McGinn, 2017). Achados adicionais incluem a hipocalcemia, problemas para se alimentar, anomalias renais, perda da audição, deficiência do hormônio de crescimento, desordens autoimunes, convulsões, anormalidades esqueléticas, doenças psiquiatricas, entre outras (McDonald-McGinn et al., 2015). Dessa forma os principais aspectos clínicos da SD22q11 são:  Cardiopatias congênitas: As cardiopatias congênitas são características chave da SD22q11 e são compostas por alterações estruturais e funcionais do coração presentes ao nascer, além de serem considerados o maior fator de mortalidade da síndrome (Bales, Zaleski and McPherson, 2010). Observa-se que os defeitos cardíacos mais frequentes envolvem as vias de saída do coração (conotruncais), dentre eles podemos citar: anomalias do arco aórtico como interrupção do arco aórtico do tipo B (IAA-B), truncus arteriosus, tetralogia de Fallot, defeito no septo ventricular, atresia pulmonar, estenose pulmonar e arco aórtico à direita (Hay, 2007; Dugoff, Mennuti and McDonald-McGinn, 2017). A prevalência das malformações cardíacas, de acordo com Habel e colaboradores (Habel et al., 2014) varia de 80% a 92% na infância mas essa estimativa varia de acordo com o estudo. Além disso, a deleção do cromossomo 22q11 parece ser a segunda causa mais comum de doença cardíaca congênita, depois da síndrome de Down (Robin and Shprintzen, 2005).  Anomalias palatinas: Anomalias palatinas são reportadas em torno de 49% a 69% de pacientes com SD22q11 sendo as mais frequentes: Insuficiência velofaringea(IVF), fissura de palato e úvula bífida (Monteiro et al., 2013). A IVF é definida como uma alteração estrutural do mecanismo velofaríngeo, cujo sintoma mais característico é a hipernasalidade, associado à emissão nasal de ar e a fraca pressão intra-oral e os distúrbios articulatórios compensatórios (Fukushiro, 2007). Essa é anomalia de palato mais frequente, podendo ser observada em 29% a 50% dos casos e pode ser consequência de alterações funcionais ou estruturais (Monteiro et al., 2013). Outras manifestações observadas na cavidade oral são: atraso de erupção dentária, hipoplasia ou hipomielinização do esmalte, alterações da morfologia dentária, cáries e hipodontia (Cummings, McCauley and Baylis, 2015; McDonald-McGinn et al., 2015). 20  Aspectos faciais: Caracteristicas faciais “tipicas” são descritas, dentre elas podemos citar: aumento do comprimento vertical da face, blefaroptose ou hooded eyelids (devido à configuração da estrutura óssea, as pálpebras ficam parcialmente cobertas por pele quando os olhos estão abertos), fendas palpebrais estreitas, base nasal larga, hipoplasia alar, hipertelorismo, anormalidades estruturais na orelha e retrognatia (Hay, 2007; Monteiro et al., 2013). Porém, a face denominada “típica” não está sempre presente já que outros dismorfismos são relatadas, ou seja, os aspectos faciais são variáves (Figura 4). Além disso essas características podem não ser evidentes em recém-nascidos, crianças, ou devido a etnia (Hay, 2007). Figura 4. Fotografias de individuos diagnosticados com SD22q11 demostrando como o aspecto fenotipico é variavel para essa síndrome (Imagens adaptadas de Ben-Shachar et al., 2008; Nogueira et al., 2008; Digilio et al., 2009; Garavelli et al., 2011; Michaelovsky et al., 2012; Rump et al., 2014; Bengoa-Alonso et al., 2016).  Dificuldade de aprendizagem: Problemas educacionais e de desenvolvimento são frequentemente reportados na SD22q11, como atenção seletiva, dificuldade de aprendizagem, dificuldades na visão espacial 21 e dificuldades na habilidade fonêmica (Habel et al., 2014). O Transtorno do déficit de atenção com hiperatividade (ADHD) também é relatado porém é difícil atribuir esse sinal a síndrome ou a um achado comum em crianças com deficiências de desenvolvimento (Hay, 2007).  Deficiências imunológicas: As principais imunodeficiências observadas são: defeito no timo ou funções de células T, como diminuição no número ou função dessas células, e defeitos em anticorpos (Habel et al., 2014). Doenças autoimunes também são reportadas, incluindo hipotireoidismo, hipertireoidismo, anemia hemolitica autoimune, monoartrite, reumatoide juvenil, artrites, vitiligo, neutropenia autoimune, anemia aplasica e doenças celíacas (Hay, 2007).  Aspectos psicológicos: Transtornos comportamentais e psiquiátricos são relatados em diversos pacientes, onde os sinais variam de ansiedade e depressão à psicose e esquizofrenia (Norkett et al., 2018). Estudos indicam que pacientes com a deleção 22q11 apresentam um risco aumentado em desenvolver esquizofrenia, uma doença psicologia séria que geralmente ocorre na fase da adolescência ou fase adulta inicial (Hay, 2007; Bassett et al., 2017). 2.5. Diagnóstico O diagnóstico é realizado baseando-se nas características clínicas que chamam a atenção dos pais, da família e do médico, as quais podem variar dependendo da idade do paciente e das características de cada caso. No entanto, há alguns sinais clássicos que são utilizados para o diagnóstico, tais como: deficiência no desenvolvimento e/ou deficiência de aprendizado, cardiopatias congênitas, defeitos no palato, regurgitação nasal, problemas de comportamento, doenças psiquiátricas; imunodeficiência, hipocalcemia, e traços faciais característicos (Bassett et al., 2011). Após a análise do caso e suspeita da SD22q11, é necessário confirmar o diagnóstico realizando análises genéticas, por meio de técnicas como FISH (fluorescence in situ hybridization), MLPA (Multiplex Ligation-dependent Probe Amplification) e/ou arrayCGH (microarray comparative genome hybridization). Apesar das técnicas de diagnósticos serem precisas e relativamente fáceis de serem implementadas, a dificuldade no reconhecimento da condição e/ou familiaridade com os métodos de testes genéticos em conjunto com a grande variabilidade fenotípica da síndrome dificultam o diagnóstico precoce. O atraso no diagnóstico 22 leva a uma intervenção tardia e, dessa forma, o prognostico pode ser afetado. Em contraste, o diagnóstico e intervenção precoce pode ajudar no acompanhamento e tratamento dos pacientes (Dugoff, Mennuti and McDonald-McGinn, 2017). A maioria dos pacientes apresentam uma deleção pequena de 3Mb na região 22q11, detectável por FISH, uma técnica que integra a utilização da citogenética clássica com a genética molecular, por meio do uso de sondas de DNA marcadas com material fluorescente que identificam regiões específicas do genoma. Dessa forma, historicamente, o teste diagnóstico de FISH é o mais utilizado na detecção de deleção na região 22q11.2, onde se utilizam sondas comerciais como N25 ou TUPLE para mapear a região de LCR22-A a LCR22- B (McDonald-McGinn et al., 2015; Dugoff, Mennuti and McDonald-McGinn, 2017; Morrow et al., 2018). Porém a técnica de FISH possui limitações por ser um teste direcionado, ou seja, exige uma suspeita clínica suficiente para a análise da região correta (Kuo, Signer and Saitta, 2018). Outra limitação é que o teste pode não detectar deleções e duplicações que estão fora da região coberta pelas sondas usadas no FISH. Assim, pacientes estudados apenas com este método podem passar despercebidos (Bassett et al., 2011; Kuo, Signer and Saitta, 2018). Para superar essas dificuldades e detectar deleções fora dos LCRsA-B, algumas técnicas moleculares mais atuais podem ser utilizadas como o arrayCGH e o MLPA (Dugoff, Mennuti and McDonald-McGinn, 2017). O MLPA, técnica desenvolvida por Schouten et al. (2002), registrada pela marca comercial MRC-Holland®, é baseada na reação de PCR (Reação em cadeia da polimerase) multiplex quantitativo para a determinação do número de cópias relativa de uma sequência alvo. Mostrou-se bem sucedida no diagnóstico da SD22q11 já que utiliza sondas que se ligam ao longo de toda região 22q11 e com isso pode detectar deleções típicas e atípicas (Bassett et al., 2017; Morrow et al., 2018). Assim, por ser um método rápido e efetivo não somente para a detecção, mas, também, para a determinação do tamanho das deleções recorrentes e duplicações na região proximal 22q11 o número de pacientes diagnosticados com deleção 22q11 está aumentando (Bassett et al., 2017). A técnica de arrayCGH é baseada em microarrays de DNA que detecta mudanças no número de cópias de uma sequência de DNA (Hupé et al., 2004). Esta metodologia tem sido amplamente utilizada já que o arrayCGH fornece diversas vantagens como uma melhor resolução e cobertura (Albertson and Pinkel, 2003). Geralmente essa técnica é utilizada para diagnóstico quando não foi possível realizar um diagnóstico definitivo baseado na avaliação clínica ou quando o MLPA não está clinicamente disponível (Morrow et al., 2018). 23 2.6. Tratamento Devido ao amplo número de manifestações clínicas associadas a SD22q11, o manejo clínico dos pacientes é, de certa forma, complexo (Shprintzen, 2008). Logo, o tratamento deve ser direcionado para melhor atender cada indivíduo, dependendo de sua idade ou estágio de desenvolvimento, e seus sinais clínicos particularmente associados à gravidade e necessidade de tratamento (Hay, 2007). Todo o acompanhamento e tratamento deve ser realizado por uma equipe multiprofissional, como médicos, psicólogos, fonoaudiólogos, fisioterapeutas e enfermeiros para atender todos os aspectos resultantes da SD22q11 (Bassett, 2011). O acompanhamento regular do crescimento, estado endócrino, hematológico e função imunológica são de extrema importância para permitir uma intervenção precoce e o auxílio na manutenção da saúde (Habel et al., 2014). O aconselhamento genético para SD22q11 inclui uma análise sobre a prevalência, etiologia, detecção, variabilidade, intervenções e opções pré-natais e de preconcepção. No aconselhamento deve-se incluir informações atualizadas sobre as condições comumente associadas à síndrome, além de esclarecer como é o desenvolvimento nas suas diferentes fases. Além disso, informações sobre estratégias de cuidado, recursos locais, e apoios devem ser fornecidas aos pacientes, suas famílias e profissionais envolvidos (Bassett, 2011). 24 3. APRENDIZADO DE MÁQUINA O Aprendizado de Máquina (Machine learning- ML), é uma área da Inteligência Artificial que utiliza máquinas e computadores para otimizar um critério de desempenho utilizando exemplos de dados e experiências de aprendizagem (Alpaydin, 2010). Tem como um dos principais objetivos reconhecer padrões complexos e tomar decisões inteligentes com base em dados (Mitchell, 1997; Alpaydin, 2010). Diferentes métodos são utilizados, os quais podemos destacar:  Aprendizado Supervisionado: método utilizado com o objetivo de descobrir a relação entre os atributos de entrada (input) e uma classe, a relação descoberta pode ser utilizada como um modelo (Maimon and Rokach, 2015). Assim, os algoritmos desta categoria deduzem uma função a partir dos dados de treinamento, onde o objetivo é que essa função seja capaz de predizer a saída para qualquer entrada válida, após ter visto um número suficiente de exemplos de treinamento. Para atingir este objetivo, o algoritmo de classificação deve ter capacidade de generalização para que possa prever, de maneira aceitável, a classe para dados ainda não vistos (Breve, 2010).  Aprendizado Não Supervisionado: nesse método, os dados de treinamento compreendem somente dados de entrada (input), sem rótulos ou valores de saída. Os algoritmos desta categoria buscam determinar como os dados estão organizados afim de encontrar padrões (Alpaydin, 2010; Breve, 2010). Dentre os modelos de aprendizado de máquinas supervisionado destacamos o modelo de Classificação que tem como objetivo mapear os dados de entrada em classes predefinidas, sendo exemplos de classificadores: support vector machines, árvores de decisão, probabilistic summaries, algebraic function (Maimon and Rokach, 2015). O modelo de classificação do tipo árvore de decisão foi utilizado neste trabalho e, por isso, alguns aspectos desse tema serão abordados nos tópicos a seguir. 25 3.1. Dados de entrada ou Input Os dados de entrada para o aprendizado de máquinas é um conjunto de instâncias. As instâncias (os exemplos para o ML) são os objetos que serão classificados, associados ou agrupados. De forma geral, cada instância é um exemplo independente, individual do conceito que será estudado onde são caracterizadas por um conjunto pré-determinado de atributos (Witten, I. H. , Frank, E., & Hall, 2011). De acordo com cada conjunto de dados, observa-se diferentes tipos de atributos, porém em mineração de dados tipicamente se trabalha com valores numéricos, nominais e/ou categóricos (Witten, I. H. , Frank, E., & Hall, 2011). Dessa forma, o dado que é utilizado para realizar o treinamento é normalmente representado em forma de tabela e é denominado Conjunto de treinamento ou Training set. Cada linha representa uma única instância e cada coluna corresponde a um atributo que caracteriza as instâncias. Além disso, em tarefas de classificação, uma das colunas corresponde ao atributo de destino (classe) que se tenta prever (Maimon and Rokach, 2015). Apresentamos aqui o exemplo do conjunto de dados meteorológicos de Witten, I. H. , Frank, E., & Hall, 2011 (Figura 5). Nesse exemplo, avalia-se as condições de tempo adequadas para jogar algum tipo de jogo. Assim, cada exemplo (linhas da tabela) são as instâncias e os atributos (colunas da tabela) compreendem: outlook (aspecto), temperature (temperatura), humidity (humidade) e windy (vento). A classe ou consequência seria play, ou seja, a decisão de jogar ou não jogar. Figura 5. Conjundo de dados metereologicos. Fonte: Witten, I. H., Frank, E., & Hall, 2011. 26 Ao começar a trabalhar em um problema de mineração de dados, é necessário primeiro reunir todos os dados em um conjunto de instâncias. Realizar a integração dos dados de diferentes fontes pode ser um desafio, pois cada fonte ou banco de dados pode utilizar diferentes registros, convenções, graus de agregação de dados e, diferentes tipos de erros podem existir (Witten, I. H. , Frank, E., & Hall, 2011). Assim, os dados devem ser montados, integrados e padronizados para sua utilização. Em vários algoritmos de aprendizado de máquina, o tamanho do conjunto de treinamento e o desempenho preditivo estão correlacionados positivamente. Ou seja, de acordo com os recursos computacionais disponíveis, é preferível utilizar o maior conjunto de treinamento possível (Maimon and Rokach, 2015). 3.2. Árvores de decisão Árvores de decisão são um dos exemplos de classificadores citados anteriormente e é o algoritmo utilizado neste trabalho. Compreende uma técnica eficiente em predizer e explicar a relação entre medidas sobre determinado alvo. Utiliza-se uma abordagem conhecida como divide-and-conquer que consiste em recursivamente desmembrar o problema em dois ou mais subproblemas (Witten, I. H. , Frank, E., & Hall, 2011). De forma simplificada, uma Árvore de Decisão é uma lista de perguntas (ramos da árvore) com suas respostas, que pode ser do tipo “sim” ou “não”, hierarquicamente arranjadas, que levam a uma decisão (Souto et al., 2003; Landrum et al., 2018). Dessa forma, as árvores de decisão são utilizadas para classificar um objeto ou instância em um conjunto predefinido de classes baseado em seus atributos (Maimon and Rokach, 2015). A estrutura de uma árvore de decisão é constituída basicamente por “nós”. Esses nós podem ser classificados em: “nó raiz” que não possui arestas de entrada; “nós internos” que representam o teste realizado em um atributo; “nó terminal” ou “folhas” representado pelo valor da variável de decisão ou a classe em que os atributos são classificados. Além disso, define-se como “ramos” as conexões entre os nós que contêm os valores dos atributos de cada variável decisória (Figura 6) (Witten, I. H. , Frank, E., & Hall, 2011; Maimon and Rokach, 2015). Para “ler” a árvore de decisão basta começar pelo nó raiz, seguindo cada teste até que uma folha seja alcançada. 27 Figura 6. Estrutura geral de uma árvore de decisão. O nó raiz ou principal está representado pelo número 1. Os números 2, 3, 5 e 8 representam os nós internos. As folhas ou nós terminais (com o valor da variável de decisão) são os números 4, 6, 7, 9, 10 e 11. Ramos são as conexões entre os nós que contêm os valores dos atributos de cada variável decisória. Os atributos observados em uma árvore de decisão são, na maioria das vezes, um subconjunto de todos os atributos dentro de um conjunto de dados (Witten, I. H. , Frank, E., & Hall, 2011). Para selecionar qual atributo será utilizado como nó da árvore, ou seja, qual será o nó raiz e assim por diante, utiliza-se uma medida de pureza. Essa medida é a quantidade de “informação” que cada atributo possui e é quantificado em unidades chamadas bits. Ao contrário dos bits na memória do computador, a quantidade esperada de informações geralmente envolve frações de um bit - e geralmente é menor que 1 (Witten, I. H. , Frank, E., & Hall, 2011). Os bits são calculados de acordo com o número de instâncias de determinada classe nas folhas. Calcula-se o ganho de informação para cada atributo e o atributo com maior informação é selecionado. Em seguida, o conjunto de dados é dividido de acordo com esse atributo, seleciona-se dentre os restantes outro atributo com maior informação e assim recursivamente. O processo de seleção do atributo como nó da arvore termina, idealmente, quando todos os nós folha são puros - isto é, quando eles contêm instâncias que possuem a mesma classificação. No 28 entanto, pode não ser possível alcançar essa situação, dessa forma, o processo termina quando os dados não podem ser mais divididos (Witten, I. H. , Frank, E., & Hall, 2011). Para demostrar como as árvores de decisão são construídas vamos trabalhar com o exemplo do conjunto de dados meteorológicos apresentado anteriormente. No conjunto de dados meteorológicos há quatro atributos que poderiam ser o nó raiz e é preciso verificar o grau de pureza, os bits, para definir qual atributo seria o melhor. Assim o atributo que produz a folha mais pura seria a mais adequada (Figura 7) (Witten, I. H. , Frank, E., & Hall, 2011). Figura 7. Possíveis árvores para o conjunto de dados metereológicos: (a) Outlook como nó raiz. (b) Temperature como nó raiz. (c) Humidity como nó raiz. (d) Windy como nó raiz. Fonte: Witten, I. H., Frank, E., & Hall, 2011. Analisando a primeira árvore da figura 7(a) observamos que o número de classes “yes” e “no” das folhas são [2,3], [4,0] e [3,2], respectivamente. A quantidade de informação desses nós são:  info([2, 3]) = 0.971 bits  info([4, 0]) = 0.0 bits  info([3, 2]) = 0.971 bits 29 A fórmula para calcular os bits de cada folha não será descrita nesse trabalho, mas pode ser encontrado no livro “Data mining: Pratical machine learning tools and techniques” de Witten, I. H. , Frank, E., & Hall, 2011. Em seguida calcula-se a informação média dessas folhas, levando em consideração o número de instâncias que chegou em cada folha (5 instâncias na primeira, 4 instâncias na segunda folha e 5 instâncias na terceira folha). Info([2,3],[4,0][3,2]) = (5/14) x 0.971 + (4/14) x 0 + (5/14)x0.971 = 0,693 bits Essa média representa a quantidade de informação que esperamos que seja necessária para especificar a classe de uma nova instância, de acordo com a estrutura da árvore em questão (figura 7a). Se observamos a Figura 5, verificamos que o os exemplos de treinamento compreendem nove “yes” e cinco “no”, correspondendo a um valor de informação de: info([9, 5]) = 0.940 bits Dessa forma, a árvore da figura 7a possui um ganho de informação de: gain(outlook) = info([9, 5]) − info([2, 3], [4, 0], [3, 2]) = 0.940 − 0.693 = 0.247 bits Esse valor pode ser interpretado como o valor informativo da criação de uma ramificação no atributo do outlook. Assim, calcula-se o ganho de informação de cada atributo e será escolhido como nó o que tiver mais informações. No caso das árvores da figura 7, o ganho de informações de cada possível nó raiz é:  gain(outlook) = 0.247 bits  gain(temperature) = 0.029 bits  gain(humidity) = 0.152 bits  gain(windy) = 0.048 bits Como o atributo outlook possui o maior ganho de informação, ele é utilizado como nó raiz. Esse processo continua recursivamente e a figura 8 mostra as possibilidades de mais uma ramificação a partir do ramo sunny. 30 Figura 8. Possíveis árvores para o conjunto de dados meteorológico: (a) Temperature como nó do ramo sunny. (b) Humidity como nó do ramo sunny. (d) Windy como nó do ramo sunny. Fonte: Witten, I. H., Frank, E., & Hall, 2011. O ganho de informação para cada nó é:  gain(temperature) = 0.571 bits  gain(humidity) = 0.971 bits  gain(windy) = 0.020 bits O atributo humidity é escolhido e como as folhas resultantes são puras, não há necessidade de dividir esses nós ainda mais. A aplicação desse processo nos outros ramos leva à árvore de decisão da Figura 9 para o conjunto de dados meteorológicos. 31 Figura 9. Árvore de decisão construída de acordo com o conjunto de dados meteorológico. Fonte: Witten, I. H., Frank, E., & Hall, 2011. Para se obter uma árvore de decisão mais compreensível é preferível, naturalmente, uma árvore de decisão que não seja complexa. A complexidade de uma árvore normalmente é medida de acordo com o número total de nós, o número de folhas, o tamanho da árvore e o número de atributos utilizados como nós (Maimon and Rokach, 2015). Além disso, uma vantagem das árvores de decisão é que elas costumam ser autoexplicativas, ou seja, não há a necessidade de profundo conhecimento em ML para se compreender a ordem de uma árvore de decisão (Maimon and Rokach, 2015). Esta característica torna-se significativa já que facilita o processo de análise das árvores de decisão e deliberação se o modelo aprendido é plausível, dadas as restrições do mundo real (Souto et al., 2003). 3.3. Algoritmo de classificação J48 Algoritmos consistem em instruções seguidas por um computador para completar uma tarefa específica, como achar um certo padrão em um conjunto de dados (Deo, 2015). Algoritmos para construção de árvores de decisão são bem conhecidos, além de serem amplamente utilizados. Dentre esses algoritmos o ID3 e seu sucessor C4.5, criado por Ross Quinlan (Quinlan, 1992), estão entre os mais populares na comunidade de Aprendizado de máquinas onde sua função é descobrir padrões em um conjunto de dados e gerar um classificador em forma de árvore de decisão (Salzberg, 1994; Witten, I. H. , Frank, E., & Hall, 2011). O algoritmo de classificação utilizado nesse trabalho é conhecido como J48 e é uma implementação do algoritmo C4.5 na plataforma WEKA (Waikato Environment for Knowledge Analysis) (Hall et al., 2009; Witten, I. H., Frank, E., & Hall, 2011). 32 O software WEKA foi desenvolvido na Universidade de Waikato, Nova Zelândia, e surgiu da necessidade de uma ferramenta unificada que permitiria aos pesquisadores fácil acesso a técnicas utilizadas em aprendizado de máquina (Hall et al., 2009; Maimon and Rokach, 2015). A plataforma é escrita em Java e distribuída sob os termos da Licença Pública Geral GNU. Fornece uma interface para diversos algoritmos de aprendizado e métodos para pré e pós-processamento dos dados. Atualmente, o WEKA é reconhecido como um sistema de referência em mineração de dados e aprendizado de máquina (Hall et al., 2009; Maimon and Rokach, 2015). 3.4. Medidas de desempenho A matriz de confusão é uma ferramenta padrão para descrição de modelos estatísticos e é utilizada como uma indicação das propriedades de uma regra de classificação. Compõe essa matriz o número de elementos que foram classificados correta ou incorretamente para cada classe. Na diagonal (do lado esquerdo superior para o inferior direito) da matriz pode-se observar o número de observações que foram corretamente classificadas para cada classe e os elementos fora da diagonal representam o número de observações que foram incorretamente classificadas (Tabela 1) (Maimon and Rokach, 2015). Tabela 1. Tabela representando uma Matriz de confusão onde observa-se os valores classificados corretamente ou incorretamente para cada classe. Valor previsto Negativo Positivo V a lo r v er d a d ei ro Negativo A B Positivos C D Baseado nos valores presentes na matriz de confusão é possível calcular as seguintes métricas (Witten, I. H. , Frank, E., & Hall, 2011; Reis, 2014; Maimon and Rokach, 2015):  Taxa de verdadeiros positivos (VP): porcentagem de VP (D / (C + D))  Taxa de falsos positivos (FP): taxa FP (B / (A + B))  Acurácia: calculado utilizando a formula (A+ D) / (A + B + C + D) 33  Precisão: a precisão de um algoritmo preditor é dada pelo número de instâncias classificadas corretamente dividido pelo número total de instâncias classificadas como positivas (D / (B + D)) Outra medida de desempenho utilizada é a receiver operating characteristic curve (curva ROC), uma medida que pode ser utilizada para análise entre a taxa de verdadeiro positivo e falso positivo. Dessa forma, a curva ROC descreve o desempenho de um classificador sem considerar a distribuição de classes ou os custos de erro. Para resumir as curvas ROC em uma única quantidade, às vezes usa-se o valor de area under the curve (AUC), já que, geralmente, quanto maior a área melhor o modelo (Witten, I. H. , Frank, E., & Hall, 2011). Assim, o gráfico da curva ROC apresenta a taxa de VP no eixo vertical e a taxa de FP no eixo horizontal. O ponto ideal dentro do gráfico da curva ROC seria de FP = 0 e VP = 1, ou seja, todos os exemplos positivos são classificados corretamente (VP = 1) e nenhum exemplo negativo é classificado erroneamente como positivo (FP = 0) (Figura 10). Assim a curva ROC fornece um bom resumo do desempenho do modelo classificador (Reis, 2014; Maimon and Rokach, 2015). Figura 10. Exemplos de curva ROC em que o eixo X representa uma taxa de falso positivo e o eixo Y a taxa de verdadeiro positivo. VP = verdadeiro positivo; FP = falso positivo; (A) modelo ideal; (B) modelo real; (C) modelo aleatório (Imagem retirada de Reis, 2014). 34 4. REDE DE INTERAÇÃO PROTEINA-PROTEINA Um dos campos da biologia de sistemas é a aplicação de redes para avaliar processos biológicos com uma visão holística. Exemplos de redes biológicas são as redes de regulação gênica, redes de transdução de sinal, redes de interação proteína-proteína (PPI) e redes metabólicas (Junker and Schreiber, 2008). Nesse trabalho foi utilizado redes PPI para o estudo da SD22q11, nesse caso, os principais genes codificantes envolvidos foram representados pelos nós e as interações pelas ligações em redes PPI. Desse modo, um breve revisão dos conceitos envolvendo o estudo de redes biológicos é descrito a seguir. 4.1. Biologia de sistemas É coerente cogitar que desde sempre se pensa em contexto de sistema, porém considera- se que a origem da área de estudo “Biologia de sistemas” ocorreu quando Ludwig Von Bertalanffy descreveu sua teoria de sistemas em 1969 (Junker and Schreiber, 2008). O interesse por essa área cresce cada vez mais, onde os sistemas mais comumente discutidos são redes gênicas ou proteicas, contudo não há escala fixa na qual a biologia dos sistemas opera (Hillmer, 2015). Diante desse cenário, qual é a definição de Biologia de sistemas? Não há uma definição clara do termo Biologia de sistemas, isto é, diversos estudiosos descrevem a Biologia de Sistemas de uma forma diferente. Breitling (Breitling, 2010), por exemplo, define a biologia de sistemas como o esforço de pesquisa que fornece a base científica para o sucesso da biologia sintética. Diz ainda que é uma área que se baseia em estudos abrangentes da diversidade molecular dos sistemas vivos, naturais e sintéticos, e na integração do conhecimento biológico em modelos complexos que caracterizam a vida (Breitling, 2010). Já Kitano define a biologia de sistemas como um novo campo na biologia que visa a compreensão dos sistemas biológicos em nível de sistema (Kitano and Kitano, 2002). Em geral, pode-se dizer que a Biologia de Sistema tem uma visão holística ao invés da visão reducionista. Ou seja, o objetivo da biologia de sistemas é entender sistemas biológicos por inteiro, elucidando, modelando e prevendo o comportamento de todos os componentes e interações. Assim, a biologia de sistema é um campo de estudo onde se pode estudar interações complexas que podem ser retratadas em forma de redes, por isso, podemos dizer que a biologia de sistema é baseada na teoria dos grafos (Junker and Schreiber, 2008). 35 4.2. Teoria dos grafos Uma rede pode ser descrita como uma série de nós conectados uns aos outros por links ou arestas, onde cada link representa as interações entre dois componentes (Barabási and Oltvai, 2004a; Chan and Loscalzo, 2012). Desta forma, os nós e links formam uma rede ou, em linguagem matemática, um grafo (Barabási and Oltvai, 2004a; Pržulj, Wigle and Jurisica, 2004). A teoria dos grafos começou com Leonard Euler e seu "problema da ponte de Königsberg" em 1736. O problema era: na cidade Königsberg (Prússia), um rio atravessa a cidade e sete pontes foram construídas sobre ele, Euler queria saber se era possível encontrar um caminho que passasse por toda a cidade atravessando cada ponte somente uma vez. Euler foi o primeiro a organizar seu “problema” em forma de um grafo e ao analisar a estrutura desse grafo, como mostra a Figura 11, ele provou que isso não é possível (Junker and Schreiber, 2008). Figure 11. (a) Representação da cidade Königsberg onde se encontra as sete pontes e cada parte da cidade indicada por pontos com cores distintas. (b) O modelo de grafo correspondente a representação da cidade. Fonte: Chatterjee, 2015. Um grafo pode ser representado matematicamente por G = (V, E), onde V consiste em um conjunto de vértices (também chamados de nós ou pontos) e E um conjunto de arestas. Uma aresta e conectando dois vértices A e B pode ser representado por: e = {A,B}. A maneira mais comum de se visualizar um grafo é desenhar um ponto para cada vértice e uma linha para cada aresta que conecta os pontos correspondentes de seus vértices como demostrado na Figura 12 (Junker and Schreiber, 2008). 36 Figura 12. Representação de dois grafos G = (V, E) com um conjunto de vértices V = {1,2,3,4,5,6,7} e um conjunto de arestas E = {{1,2},{2,3},{1,3},{3,6},{4,5},{5,7}}. Fonte: Junker and Schreiber, 2008. Além do grafo também podemos definir o subgrafo, ou seja, um subconjunto dos vértices e arestas de um grafo. O subgrafo pode ser representado por: G’= (V’,E’) do grafo G = (V, E) onde V’ é um subconjunto de V e E’ é um subconjunto de E. Assim, se o grafo G’ é um subgrafo do grafo G e o conjunto de arestas E’ contém todas as arestas de E que conectam vértices de V’, o subgrafo é chamado de subgrafo induzido de G. Na figura 13 pode-se observar um exemplo de subgrafo e subgrafo induzido (Junker and Schreiber, 2008). Figura 13. Da esquerda para direta: Grafo G, subgrafo G’, e o subgrafo induzido de G. Fonte: Junker and Schreiber, 2008. Considerando a sequência (V0, E1, V1, E2, V2, ... , Vk−1, Ek, Vk) de vértices e arestas, define-se como Path, ou caminho, o percurso do vértice V0 a Vk onde todas as arestas são distintas. Define-se como Simple path ou caminho simples, caso todos os vértices sejam distintos. E caracteriza-se como Ciclo quando o vértice inicial e final do grafo for o mesmo. Já o Shortest path traduzido como caminho mais curto é definido como o comprimento mínimo entre dois vértices, onde pode haver diferentes possibilidades de caminho mais curto entre dois vértices de um grafo. Por fim, o comprimento do caminho é dado pelo seu número de arestas (Junker and Schreiber, 2008). De acordo com o tipo de interação entre os vértices, um grafo pode ser classificado como direto, indireto ou misto (Figura 14) (Junker and Schreiber, 2008): 37  Grafo não direcionado: a aresta entre os vértices u e v é representada pelo par de vértices não ordenados {u, v}, é uma interação mútua onde o nó u interage com o nó v da mesma forma que v interage com u. Exemplos de grafo não direcionados são redes de interação de proteínas, redes filogenéticas e redes de correlação (Barabási and Oltvai, 2004b).  Grafo direcionado: a aresta entre os vértices u e v é representada pelo par de vértices ordenados (u, v). Geralmente visualiza-se a direção de uma aresta em um grafo através da direção de uma seta. Exemplos de redes biológicas modeladas por gráficos direcionados são redes metabólicas, redes de regulação de genes e redes alimentares (Junker and Schreiber, 2008).  Grafo misto: há tanto interações direcionadas como não direcionadas. Um exemplo são as redes de proteínas onde algumas interações não são direcionadas (por exemplo, obtidas por experimentos de dois híbridos) e outras são direcionadas representando ativação, fosforilação e outras interações direcionadas (Junker and Schreiber, 2008). Figure 14. Da direita para a esquerda observa-se um grafo não direcionado, direcionado e um grafo misto. Fonte: Junker and Schreiber, 2008. 4.3. Propriedades gerais das redes  Distância: comprimento do caminho mais curto entre dois vértices quaisquer. O caminho mais curto entre dois vértices não precisa ser único, muitas vezes existem vários caminhos alternativos com a mesma distância (Junker and Schreiber, 2008).  Diâmetro: é o valor da maior distância entre dois vértices em um grafo (Kolaczyk and Csárdi, 2014). O diâmetro ou comprimento médio de um grafo é definido como a distância média entre todos os pares de vértices (Junker and Schreiber, 2008). 38  Degree: o degree (k) corresponde ao número de arestas de um vértice. O grafo direcionado possui o in-degree, que equivale ao número de links que chegam a esse nó, e o out-degree referente ao número de links que sai do nó (Barabási and Oltvai, 2004b; Sahinalp et al., 2009; Raman, 2010). Por exemplo, no grafo não direcionado da figura 15a, o nó A possui um degree k=5, já no caso da figura 15b o nó A tem um Kin = 4 e kout =1 (Barabási and Oltvai, 2004a). Figura 15. Exemplo de redes não direcionada e direcionada. (a) Rede não direcionada onde o nó A interage com outros cinco nós, ou seja o nó A possui um degree (k) igual a 5. (b) Rede direcionada, onde o nó A possui o in- degree (kin) igual a 4 e o out-degree (kout) igual a 1. Figura adaptada de Barabási and Oltvai, 2004ª. 39  Assortividade: Medida que varia de -1 a 1, onde -1 é uma rede totalmente dissortativa e 1 representa uma rede totalmente assortativa. Uma rede dissortativa, por exemplo, apresenta vértices com alto degree conectando preferencialmente a vértices com baixo degree. O inverso também é verdadeiro, uma rede assortativa apresenta vértices com alto degree se conectando preferencialmente a outros vértices com alto degree (Junker and Schreiber, 2008).  Betweenness: o betweenness é uma medida de centralidade de um vértice dentro de um grafo. Representa o número de caminhos mais curtos entre qualquer par de nós passando por um nó (Han, 2008; Sahinalp et al., 2009). Nós com valores mais altos de betweenness estão posicionados em mais shortest paths em um grafo (Raman, 2010).  Módulos ou Comunidades: são frequentemente definidos como um subconjunto de vértices que são densamente conectados entre si, mas são pouco conectados a outros vértices fora da comunidade. No contexto da análise de rede complexa, similaridade de vértices pode ser definida de diferentes maneiras, por exemplo, com relação ao caminho mais curto entre dois vértices, o número total de caminhos entre vértices, entre várias outras possibilidades (Junker and Schreiber, 2008). 4.4. Modelos de redes biológicas Modelos de redes são utilizados para moldar nossa compreensão de redes complexas além de serem importantes para explicar as características das redes formadas. Aqui descrevemos o modelo de Erdõs-Rényi e o de Barabási-Albert já que esses são exemplos que influenciaram e auxiliaram o entendimento das redes biológicas (Junker and Schreiber, 2008).  Modelo de Erdõs-Rényi: modelo aleatório onde cada par de nós está conectado com uma probabilidade igual (Figura16Aa) (Jeong et al., 2000). O degree dos nós desse modelo segue uma distribuição de Poisson (Figura 16Ab), em que a maioria dos nós possuem um degree próximo ao valor do degree médio () (Barabási and Oltvai, 2004a). As principais limitações para uma comparação direta das propriedades desse modelo com as redes empíricas são sua distribuição homogênea do degree, a ausência de estrutura local e a falta de correlações dos degrees (Junker and Schreiber, 2008). 40 Figura 16. Exemplo de uma rede aleatória no lado esquerdo (Modelo de Erdõs-Rényi) e no lado direito uma rede scale-free (Modelo de Barabási-Albert). (Aa) Grafo aleatório onde pode ser observado que não há uma preferência de conexões entre os nós. (Ab) Distribuição de Poisson onde observar-se que a maioria dos nós possuem um valor médio de degree (k). (Ba) Exemplo de uma rede scale-free onde um menor número de nós, os hubs, são altamente conectados. (Bb) Distribuição do tipo lei de potência, demostrando que muitos nós possuem um baixo degree (k) enquanto poucos nós apresentam um alto degree (k). Figura adaptada de Barabási and Oltvai, 2004ª.  Modelo de Barabási-Albert (BA): esse modelo assume a não aleatoriedade das conexões que deu origem a rede chamada scale-free (Figura B). O modelo de BA primeiro assume que vértices são adicionados, fazendo com que as redes cresçam em função do tempo. O modelo também assume o princípio de Conexão preferencial onde novas arestas não são introduzidas aleatoriamente. Os novos nós vão preferir se conectar com os nós da rede que possuem uma maior quantidade de conexões, ou seja, quanto maior o degree de um nó maior sua probabilidade de receber novas conexões (Junker and Schreiber, 2008). Assim, o degree do modelo BA segue uma distribuição do tipo lei de potência (power-law) (Figura 16Bb). Aqui, a probabilidade de um nó ser altamente conectado é estatisticamente mais significativa do que em um gráfico aleatório. Além disso, essa rede apresenta um pequeno número de nós altamente conectados, conhecidos como hubs (Figura 16Ba, nós azuis) (Barabási and Oltvai, 2004a). OBJETIVOS 42 OBJETIVOS 1. OBJETIVO GERAL Utilizar os métodos de aprendizado de máquinas e as redes de interação proteína- proteína (PPI) para investigação da relação genótipo-fenótipo observada na SD22q11. 2. OBJETIVOS ESPECÍFICOS  Realizar um levantamento clínico e genético dos casos de SD22q11 encontrados na literatura para construção de um conjunto de dados.  Classificar os casos clínicos em típico ou atípico, a partir dos dados obtidos, através de um algoritmo de aprendizado de máquina supervisionado.  Listar os genes codificadores de proteínas afetados na deleção de 3Mb da SD22q11 e identificar os mesmos nas redes PPI obtidas de repositórios públicos.  Verificar as alterações topológicas predominantes nas redes de cada grupo.  Determinar os genes centrais das redes de cada grupo por meio de suas características topológicas. REFERÊNCIAS 44 REFERÊNCIAS Albertson, D. G. and Pinkel, D. (2003) ‘Genomic microarrays in human genetic disease and cancer’, Human Molecular Genetics, 12(suppl 2), pp. R145–R152. doi: 10.1093/hmg/ddg261. Alpaydin, E. (2010) Introduction to Machine Learning. 2nd ed. The MIT Press. doi: 10.1016/j.neuroimage.2010.11.004. Bales, A. M., Zaleski, C. A. and McPherson, E. W. (2010) ‘Newborn screening programs: Should 22q11 deletion syndrome be added?’, Genetics in Medicine, 12(3), pp. 135–144. doi: 10.1097/GIM.0b013e3181cdeb9a. Barabási, A. L. and Oltvai, Z. N. (2004a) ‘Network biology: Understanding the cell’s functional organization’, Nature Reviews Genetics, 5(2), pp. 101–113. doi: 10.1038/nrg1272. Barabási, A. L. and Oltvai, Z. N. (2004b) ‘Network biology: Understanding the cell’s functional organization’, Nature Reviews Genetics, 5(2), pp. 101–113. doi: 10.1038/nrg1272. Bassett, A. (2011) ‘Practical guidelines for managing patients with 22q11. 2 deletion syndrome’, J Pediatr., 17(2), pp. 281–294. doi: 10.1016/j.jpeds.2011.02.039.Practical. Bassett, A. S. et al. (2011) ‘Practical guidelines for managing patients with 22q11.2 deletion syndrome’, Journal of Pediatrics. Mosby, Inc., 159(2), p. 332–339.e1. doi: 10.1016/j.jpeds.2011.02.039. Bassett, A. S. et al. (2017) ‘Rare genome-wide copy number variation and expression of schizophrenia in 22q11.2 deletion syndrome’, American Journal of Psychiatry, 174(11), pp. 1054–1063. doi: 10.1176/appi.ajp.2017.16121417. Ben-Shachar, S. et al. (2008) ‘22q11.2 Distal Deletion: A Recurrent Genomic Disorder Distinct from DiGeorge Syndrome and Velocardiofacial Syndrome’, American Journal of Human Genetics, 82(1), pp. 214–221. doi: 10.1016/j.ajhg.2007.09.014. Bengoa-Alonso, A. et al. (2016) ‘Delineation of a recognizable phenotype for the recurrent LCR22-C to D/E atypical 22q11.2 deletion’, American Journal of Medical Genetics, Part A, 170(6), pp. 1485–1494. doi: 10.1002/ajmg.a.37614. Bittel, D. C. et al. (2009) ‘Refining the 22q11.2 deletion breakpoints in DiGeorge syndrome by aCGH’, Cytogenetic and Genome Research, 124(2), pp. 113–120. doi: 10.1159/000207515. Bollag, R. J. et al. (1994) ‘An ancient family of embryonically expressed mouse genes sharing a conserved protein motif with the T locus’, Nature Genetics, 7(3), pp. 383–389. doi: 10.1038/ng0794-383. Breitling, R. (2010) ‘What is systems biology?’, Frontiers in Physiology, 1 MAY(May), pp. 1– 5. doi: 10.3389/fphys.2010.00009. 45 Breve, F. A. (2010) Aprendizado de máquina em redes complexas. Instituto de Ciências Matemáticas e de Computação - ICMC-USP. Burnside, R. D. (2015) ‘22q11.21 deletion syndromes: A review of proximal, central, and distal deletions and their associated features’, Cytogenetic and Genome Research, 146(2), pp. 89–99. doi: 10.1159/000438708. Cardoso, A. R. et al. (2016) ‘Major influence of repetitive elements on disease-associated copy number variants (CNVs)’, Human Genomics. Human Genomics, 10(1), pp. 6–11. doi: 10.1186/s40246-016-0088-9. Carlson, C. et al. (1997) ‘Molecular Definition of 22q11 Deletions in 151 Velo-Cardio-Facial Syndrome Patients’, The American Journal of Human Genetics, 61(3), pp. 620–629. doi: 10.1086/515508. Chan, S. Y. and Loscalzo, J. (2012) ‘The emerging paradigm of network medicine in the study of human disease’, Circulation Research, 111(3), pp. 359–374. doi: 10.1161/CIRCRESAHA.111.258541. Chatterjee, A. (2015) ‘Studies on the Structure and Dynamics of Urban Bus Networks in Indian Cities’, (December 2015). Available at: http://arxiv.org/abs/1512.05909. Chen, J. et al. (2016) ‘Identification of a Novel ENU-Induced Mutation in Mouse Tbx1 Linked to Human DiGeorge Syndrome’, Neural Plasticity. Hindawi Publishing Corporation, 2016. doi: 10.1155/2016/5836143. Cummings, C., McCauley, R. and Baylis, A. (2015) ‘The Effect of Loudness Variation on Velopharyngeal Function in Children with 22q11.2 Deletion Syndrome: A Pilot Study’, Folia Phoniatrica et Logopaedica, 67(2), pp. 76–82. doi: 10.1159/000438670. Deo, R. C. (2015) ‘Machine learning in medicine’, Circulation, 132(20), pp. 1920–1930. doi: 10.1161/CIRCULATIONAHA.115.001593. Digilio, M. C. et al. (2009) ‘Three patients with oculo-auriculo-vertebral spectrum and microdeletion 22q11.2’, American Journal of Medical Genetics, Part A, 149(12), pp. 2860– 2864. doi: 10.1002/ajmg.a.33034. Dugoff, L., Mennuti, M. T. and McDonald-McGinn, D. M. (2017) ‘The benefits and limitations of cell-free DNA screening for 22q11.2 deletion syndrome’, Prenatal Diagnosis, 37(1), pp. 53– 60. doi: 10.1002/pd.4864. Edelmann, L., Pandita, R. K. and Morrow, B. E. (1999) ‘Low-Copy Repeats Mediate the Common 3-Mb Deletion in Patients with Velo-cardio-facial Syndrome’, The American Journal of Human Genetics, 64(4), pp. 1076–1086. doi: 10.1086/302343. Empke, S. L. L. (2015) ‘Caracterização fenotípica em indivíduos com microarranjos na região cromossômica 22q11’, Universidade de São Paulo. 46 Fukushiro A. P. (2007) ‘Análise perceptiva, nasométrica e aerodinâmica da fala de indivíduos submetidos à cirurgia do retalho faríngeo para correção da insuficiência velofaríngea [tese]’, Bauru: Hospital de Reabilitação de Anomalias Craniofaciais, Universidade de São Paulo. Gao, S. et al. (2015) ‘TBX1 protein interactions and microRNA-96-5p regulation controls cell proliferation during craniofacial and dental development: Implications for 22q11.2 deletion syndrome’, Human Molecular Genetics, 24(8), pp. 2330–2348. doi: 10.1093/hmg/ddu750. Gao, S., Li, X. and Amendt, B. A. (2013) ‘Understanding the role of Tbx1 as a candidate gene for 22q11.2 deletion syndrome’, Current Allergy and Asthma Reports, 13(6), pp. 613–621. doi: 10.1007/s11882-013-0384-6. Garavelli, L. et al. (2011) ‘22q11.2 distal deletion syndrome: Description of a new case with truncus arteriosus type 2 and review’, Molecular Syndromology, 2(1), pp. 35–44. doi: 10.1159/000334262. Giacomelli, M. et al. (2016) ‘Reduction of CRKL expression in patients with partial DiGeorge syndrome is associated with impairment of T-cell functions’, Journal of Allergy and Clinical Immunology. Elsevier Ltd, 138(1), p. 229–240.e3. doi: 10.1016/j.jaci.2015.10.051. Goodship, J. et al. (1998) ‘A population study of chromosome 22q11 deletions in infancy’, Archives of Disease in Childhood, 79(4), pp. 348–351. doi: 10.1136/adc.79.4.348. Guo, X. et al. (2011) ‘Characterization of the past and current duplication activities in the human 22q11.2 region’, BMC Genomics. BioMed Central Ltd, 12(1), p. 71. doi: 10.1186/1471- 2164-12-71. Habel, A. et al. (2014) ‘Towards a safety net for management of 22q11.2 deletion syndrome: Guidelines for our times’, European Journal of Pediatrics, 173(6), pp. 757–765. doi: 10.1007/s00431-013-2240-z. Hacıhamdioğlu, B., Hacihamdioglu, D. O. and Delil, K. (2015) ‘22Q11 Deletion Syndrome: Current Perspective’, The Application of Clinical Genetics, p. 123. doi: 10.2147/TACG.S82105. Hall, M. et al. (2009) ‘The WEKA data mining software’, SIGKDD Explorations Newsletter, 11(1), p. 10. doi: 10.1145/1656274.1656278. Han, J. D. J. (2008) ‘Understanding biological functions through molecular networks’, Cell Research, 18(2), pp. 224–237. doi: 10.1038/cr.2008.16. Harel, T. and Lupski, J. R. (2018) ‘Genomic disorders 20 years on—mechanisms for clinical manifestations’, Clinical Genetics, 93(3), pp. 439–449. doi: 10.1111/cge.13146. Hay, B. N. (2007) ‘Deletion 22q11: Spectrum of Associated Disorders’, Seminars in Pediatric Neurology, 14(3), pp. 136–139. doi: 10.1016/j.spen.2007.07.005. 47 Hillmer, R. A. (2015) ‘Systems Biology for Biologists’, PLOS Pathogens, 11(5), p. e1004786. doi: 10.1371/journal.ppat.1004786. Hupé, P. et al. (2004) ‘Analysis of array CGH data: From signal ratio to gain and loss of DNA regions’, Bioinformatics, 20(18), pp. 3413–3422. doi: 10.1093/bioinformatics/bth418. Jeong, H. et al. (2000) ‘The large-scale organization of metabolic networks’, Nature, 407(6804), pp. 651–654. doi: 10.1038/35036627. Jerome, L. A. and Papaioannou, V. E. (2001) ‘DiGeorge syndrome phenotype in mice mutant for the T-box gene, Tbx1’, Nature Genetics, 27(3), pp. 286–291. doi: 10.1038/85845. Ju, Z. R. et al. (2016) ‘HIRA gene is lower expressed in the myocardium of patients with tetralogy of Fallot’, Chinese Medical Journal, 129(20), pp. 2403–2408. doi: 10.4103/0366- 6999.191745. Junker, B. and Schreiber, F. (2008) Analysis of biological networks. Available at: http://books.google.com/books?hl=en&lr=&id=2DloLXaXSNgC&oi=fnd&pg=PR5&dq=An alysis+of+biological+networks&ots=2rpTdQ0a5M&sig=Jutk-5cXZZNgIdbX72yJxVuw5yc. Kitano, H. and Kitano, H. (2002) ‘Systems biology: A brief overview’, Science (New York, NY), 295(5560), pp. 1662–1664. Available at: papers3://publication/uuid/9C499668-2F87-4114- A79F-534B45ADD24F. Kobrynski, L. J. and Sullivan, K. E. (2007) ‘Velocardiofacial syndrome, DiGeorge syndrome: the chromosome 22q11.2 deletion syndromes’, Lancet, 370(9596), pp. 1443–1452. doi: 10.1016/S0140-6736(07)61601-8. Kolaczyk, E. D. and Csárdi, G. (2014) Statistical Analysis of Network Data with R, International Statistical Review. New York, NY: Springer New York (Use R!). doi: 10.1007/978-1-4939-0983-4. Kuo, C. Y., Signer, R. and Saitta, S. C. (2018) ‘Immune and Genetic Features of the Chromosome 22q11.2 Deletion (DiGeorge Syndrome)’, Current Allergy and Asthma Reports. Current Allergy and Asthma Reports, 18(12), p. 75. doi: 10.1007/s11882-018-0823-5. Landrum, M. J. et al. (2018) ‘ClinVar: Improving access to variant interpretations and supporting evidence’, Nucleic Acids Research. Oxford University Press, 46(D1), pp. D1062– D1067. doi: 10.1093/nar/gkx1153. Lindsay, E. A. (2001) ‘Chromosomal microdeletions: Dissecting DEL22Q11 syndrome’, Nature Reviews Genetics, 2(11), pp. 858–868. doi: 10.1038/35098574. Lupski, J. R. (1998) ‘Genomic disorders: Structural features of the genome can lead to DNA rearrangements and human disease traits’, Trends in Genetics, 14(10), pp. 417–422. doi: 10.1016/S0168-9525(98)01555-8. 48 Maimon, O. and Rokach, L. (2015) ‘Data mining with decision trees: theory and applications’. Ben-Gurion University of the Negev, Israel: World Scientific Publishing Co. Pte. Ltd. McDonald-McGinn, D. M. et al. (2015) ‘22Q11.2 Deletion Syndrome’, Nature Reviews Disease Primers, 1(November). doi: 10.1038/nrdp.2015.71. McDONALD-McGINN, D. M. et al. (1997) ‘The 22q11.2 Deletion: Screening, Diagnostic Workup, and Outcome of Results; Report on 181 Patients’, Genetic Testing, 1(2), pp. 99–108. doi: 10.1089/gte.1997.1.99. McDonald-McGinn, D. M., Zackai, E. H. and Low, D. (1997) ‘What’s in a name? The 22q11.2 deletion’, American Journal of Medical Genetics, 72(2), pp. 247–247. doi: 10.1002/(SICI)1096-8628(19971017)72:2<247::AID-AJMG25>3.0.CO;2-M. Michaelovsky, E. et al. (2012) ‘Genotype-phenotype correlation in 22q11.2 deletion syndrome’, BMC Medical Genetics. BMC Medical Genetics, 13(1), p. 1. doi: 10.1186/1471- 2350-13-122. Miller, D. T. et al. (2010) ‘Consensus Statement: Chromosomal Microarray Is a First-Tier Clinical Diagnostic Test for Individuals with Developmental Disabilities or Congenital Anomalies’, American Journal of Human Genetics. The American Society of Human Genetics, 86(5), pp. 749–764. doi: 10.1016/j.ajhg.2010.04.006. Mitchell, T. M. (1997) Machine Learning, Boston : WCB/. McGraw-Hill. Monteiro, F. P. et al. (2013) ‘Defining new guidelines for screening the 22q11.2 deletion based on a clinical and dysmorphologic evaluation of 194 individuals and review of the literature’, European Journal of Pediatrics, 172(7), pp. 927–945. doi: 10.1007/s00431-013-1964-0. Morrow, B. E. et al. (2018) ‘Molecular genetics of 22q11.2 deletion syndrome’, American Journal of Medical Genetics Part A, 176(10), pp. 2070–2081. doi: 10.1002/ajmg.a.40504. Nogueira, S. I. et al. (2008) ‘Atypical 22q11.2 deletion in a patient with DGS/VCFS spectrum’, European Journal of Medical Genetics, 51(3), pp. 226–230. doi: 10.1016/j.ejmg.2008.02.001. Norkett, E. M. et al. (2018) ‘Social cognitive impairment in 22q11 deletion syndrome : A review’, Psychiatry Research. Elsevier Ireland Ltd, 253(January 2017), pp. 99–106. doi: 10.1016/j.psychres.2017.01.103. Nowakowska, B. (2017) ‘Clinical interpretation of copy number variants in the human genome’, Journal of Applied Genetics. Journal of Applied Genetics, 58(4), pp. 449–457. doi: 10.1007/s13353-017-0407-4. Quinlan, J.R. (1992) ‘C4.5 Programs for Machine Learning’, San Mateo, CA: Morgan Kaufmann. 49 Panamonta, V. et al. (2016) ‘Birth Prevalence of Chromosome 22q11.2 Deletion Syndrome: A Systematic Review of Population-Based Studies.’, Journal of the Medical Association of Thailand = Chotmaihet thangphaet, 99 Suppl 5(18), pp. S187-93. Available at: http://www.ncbi.nlm.nih.gov/pubmed/29906080. Picchi, G. F. A. (1997) ‘Síndromes relacionadas a microdeleções: revisão da literatura’. Pržulj, N., Wigle, D. A. and Jurisica, I. (2004) ‘Functional topology in a network of protein interactions’, Bioinformatics, 20(3), pp. 340–348. doi: 10.1093/bioinformatics/btg415. Racedo, S. E. et al. (2015) ‘Mouse and human CRKL is dosage sensitive for cardiac outflow tract formation’, American Journal of Human Genetics. The American Society of Human Genetics, 96(2), pp. 235–244. doi: 10.1016/j.ajhg.2014.12.025. Radoeva, P. et al. (2014) ‘Association between autism spectrum disorder in individuals with velocardiofacial (22q11.2 deletion) syndrome and PRODH and COMT genotypes’, Psychiatric Genetics, 24(6), pp. 269–272. doi: 10.1097/YPG.0000000000000062. Raman, K. (2010) ‘Construction and analysis of protein–protein interaction networks’, Automated Experimentation, 2(1), p. 2. doi: 10.1186/1759-4499-2-2. Reis, E. C. dos (2014) Predição de fenótipos de Escherichia coli através de redes biológicas e aprendizado de máquina. Universidade Estadual Paulista “Júlio de Mesquita Filho”. Robin, N. and Shprintzen, R. (2005) ‘Defining the clinical spectrum of deletion 22q11. 2’, The Journal of pediatrics, 147, pp. 90–96. doi: 10.1016/j.jpeds.2005.03.007. Rosa, R. F. M. et al. (2009) ‘Síndrome de deleção 22q11.2: compreendendo o CATCH22’, Revista Paulista de Pediatria, 27(2), pp. 211–220. doi: 10.1590/S0103-05822009000200015. Rosenfeld, J. A. et al. (2013) ‘Estimates of penetrance for recurrent pathogenic copy-number variations’, Genetics in Medicine, 15(6), pp. 478–481. doi: 10.1038/gim.2012.164. Rump, P. et al. (2014) ‘Central 22q11.2 deletions’, American Journal of Medical Genetics, Part A, 164(11), pp. 2707–2723. doi: 10.1002/ajmg.a.36711. Sahinalp, S. C. et al. (2009) ‘The Effect of Insertions and Deletions on Wirings in Protein- Protein Interaction Networks: A Large-Scale Study’, Journal of Computational Biology, 16(2), pp. 159–167. doi: 10.1089/cmb.2008.03tt. Salzberg, S. L. (1994) ‘C4.5: Programs for Machine Learning by J. Ross Quinlan. Morgan Kaufmann Publishers, Inc., 1993’, Kluwer Academic Publishers, 16(3), p. pp 235–240. doi: https://doi.org/10.1007/BF00993309. Samuels, I. S. et al. (2008) ‘Deletion of ERK2 Mitogen-Activated Protein Kinase Identifies Its Key Roles in Cortical Neurogenesis and Cognitive Function’, Journal of Neuroscience, 28(27), pp. 6983–6995. doi: 10.1523/JNEUROSCI.0679-08.2008. 50 Sandrin-Garcia, P. et al. (2007) ‘Typical phenotypic spectrum of velocardiofacial syndrome occurs independently of deletion size in chromosome 22q11.2’, Molecular and Cellular Biochemistry, 303(1–2), pp. 9–17. doi: 10.1007/s11010-007-9450-5. Scambler, P. J. (2000) ‘The 22q11 deletion syndromes’, Human Molecular Genetics, 9(16), pp. 2421–2426. doi: 10.1093/hmg/9.16.2421. Shaffer, L. G. and Lupski, J. R. (2000) ‘Chromosomal Rearrangements in H Umans’, Annual review of genetics, 34, pp. 297–329. Shaikh, T. H., Kurahashi, H. and Emanuel, B. S. (2001) ‘Evolutionarily conserved low copy repeats (LCRs) in 22q11 mediate deletions, duplications, translocations, and genomic instability: An update and literature review’, Genetics in Medicine, 3(1), pp. 6–13. doi: 10.1097/00125817-200101000-00003. Shprintzen, R. J. (2008) ‘Velo-Cardio-Facial Syndrome: 30 Years of Study’, Developmental Disabilies Research Reviews, 14(1), pp. 3–10. doi: 10.1002/ddrr.2.Velo-Cardio-Facial. Souto, M. C. P. et al. (2003) ‘Técnicas de aprendizado de máquina para problemas de biologia molecular’, Sociedade Brasileira de Computaçao, (October). Available at: http://www.cin.ufpe.br/~mcps/ENIA2003/jaia2003-14-08.pdf. Sullivan, K. E. (2019) ‘Chromosome 22q11.2 deletion syndrome and DiGeorge syndrome’, Immunological Reviews, 287(1), pp. 186–201. doi: 10.1111/imr.12701. Swillen, A. et al. (2000) ‘Chromosome 22q11 deletion syndrome: Update and review of the clinical features, cognitive‐behavioral spectrum, and psychiatric complications.’, American Journal of Medical Genetics, 97, pp. 128–135. doi: 10.1002/1096- 8628(200022)97:2<128::AID-AJMG4>3.0.CO;2-Z. Witten, I. H. , Frank, E., & Hall, M. A. (2011) Data Mining : Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers. doi: 10.1016/C2009-0-19715-5. Yamagishi, H. and Srivastava, D. (2003) ‘Unraveling the genetic and developmental mysteries of 22q11 deletion syndrome’, Trends in Molecular Medicine, 9(9), pp. 383–389. doi: 10.1016/S1471-4914(03)00141-2. Yang, J.-H. et al. (2016) ‘Differential regulation of the histone chaperone HIRA during muscle cell differentiation by a phosphorylation switch’, Experimental & Molecular Medicine. Nature Publishing Group, 48(8), pp. e252–e252. doi: 10.1038/emm.2016.68. Zarrei, M. et al. (2015) ‘A copy number variation map of the human genome’, Nature Reviews Genetics. Nature Publishing Group, 16(3), pp. 172–183. doi: 10.1038/nrg3871. Zeitz, M. J. et al. (2013) ‘Implications of COMT long-range interactions on the phenotypic variability of 22q11. 2 deletion syndrome’, Nucleus, 4(6), pp. 6–7. doi: 10.4161/nucl.27364. 51 Conforme estabelecido pelo Programa de Pós-Graduação em Ciências Biológicas(Genética) do IBB, UNESP, os resultados obtidos durante a execução deste projeto de mestrado foram reunidos em dois artigos científicos para publicação. CAPÍTULO 1 - MACHINE LEARNING-BASED METHODOLOGY FOR THE CLINICAL STRATIFICATION OF 22Q11 DELETION SYNDROME. CAPÍTULO 2 - A SYSTEM BIOLOGY APPROACH IN THE STUDY OF THE 22Q11 DELETION SYNDROME. CAPÍTULO 1 53 CAPÍTULO 1 MACHINE LEARNING-BASED METHODOLOGY FOR THE CLINICAL STRATIFICATION OF 22q11 DELETION SYNDROME Camila C. Alvesa*, Bruno F. Gambab, Ivan R. Wolfc, Lucilene Ribeiro-Bicudob, Guilherme T. Valentec a São Paulo State University (UNESP), Botucatu, São Paulo, Brazil b Biological science institute, Federal University of Goiás (UFG), Goiânia, Goiás, Brazil. c School of Agronomic Sciences, São Paulo State University (UNESP), Botucatu, São Paulo, Brazil *cris_camila@yahoo.com.br Abstract The 22q11 Deletion Syndrome (22q11DS) involves deletion of approximately 0.7 to 3 Mb and results in a broad phenotypic spectrum. In addition is considered as the most common microdeletion syndrome, with a prevalence of one case per 4.000 to 9.800 live births. Clinical features that can differentiate patients with typical or atypical deletion of the 22q11 region could be interesting as physicians could prescribe specific genetic tests for faster diagnosis of 22q11DS cases. The present work uses a machine learning-based methodology to classify cases diagnosed with 22q11DS in typical or atypical according to their clinical features. A bibliographic survey was performed to obtain the clinical and genetic data of cases diagnosed with 22q11DS for the construction of a dataset. The decision trees were made with the classification algorithm known as J48 in WEKA platform. As a result, we had a dataset of 43 clinical features as attributes, 95 cases, 46 were classified as typical, and 49 are atypical. Four trees were selected, which had highly accurate at 83-91% and CCI at 83-91%. Attributes used as nodes of the tree-like oral cleft, velopharyngeal insufficiency, delayed speech, and language development, specific learning disability, behavioral abnormality and growth delay. Cardiac defects sign was not used as a node in any of the selected classification trees, demonstrating that this clinical sign does not significantly assist in the classification of typical and atypical deletions. In conclusion, we can say that the machine-learning method accomplishes the goal proposed in this work. However, we do not aim to create a classificatory model; the machine learning-based methods were used here in order to aid in the interpretability of the results. Keywords: 22q11DS, DiGeorge Syndrome, Machine learning-based methodology, algorithm J48. 54 1. Introduction The 22q11 Deletion Syndrome (22q11DS) (Online Mendelian Inheritance in Man - OMIM #192430) is commonly known as DiGeorge Syndrome (OMIM #188400), Velocardiofacial Syndrome (OMIM #192430) and Conotruncal Anomaly Face Syndrome. It involves the deletion of approximately 0.7-3 Mb and is considered the most common microdeletion syndrome, with a prevalence of one case per 4.000 to 9.800 live births (Burnside, 2015; McDonald-McGinn et al., 2015; Panamonta et al., 2016; Dugoff, Mennuti and McDonald-McGinn, 2017). 22q11DS is characterized by a vast phenotypic spectrum with pleiotropic effects involving variables organs and/or systems with more than 180 clinical signs already described, both physical and behavioral (Carlson et al., 1997; Robin and Shprintzen, 2005; Hay, 2007). However, there is no clinical sign present in all individuals with the 22q11 deletion, indicating the absence of mandatory manifestations for the syndrome (Hay, 2007; Shprintzen, 2008). The pericentromeric region of chromosome 22 harbor eight distinct low copy repeats (LCRs) with high homology to each other that can lead to non-allelic homologous recombination (NAHR) resulting in a deletion within the 22q11 region (McDonald-McGinn et al., 2015). According to their position related to the centromere, deletions involving the LCRs22 regions can be designated as: proximal deletions (A-B, A-D, A-E, A-F), central deletions (B-D, C-D) and distal deletion type I (C-E, D-E, D-F), type II (E-F) and type III (D- H, E-H, F-H) (Burnside, 2015). Around 90% of the 22q11DS cases have a 3Mb deletion, which encompasses 45 know protein-coding genes, seven microRNAs and ten non-coding RNAs, and that is considered the Typically Deletion Region (TDR) (Yamagishi and Srivastava, 2003; McDonald-McGinn et al., 2015; Morrow et al., 2018). Therefore, 8% of cases have a 1.5Mb deletion which encompasses 24 genes, and a minority has atypical deletions of the 22q11 region, involving different LCRs22, overlapping and not overlapping (Lindsay, 2001; Burnside, 2015). Despite the diversity of clinical features associated with 22q11DS, some main signs such as congenital heart disease, cleft palate, velopharyngeal insufficiency, craniofacial dysmorphism, thymic aplasia or hypoplasia, learning disability and immune deficiency are found (Dugoff, Mennuti and McDonald-McGinn, 2017). Additional findings include hypocalcemia, eating disorders, renal abnormalities, hearing loss, growth hormone deficiency, autoimmune disorders, seizures, skeletal abnormalities and psychiatric disorders (McDonald- McGinn et al., 2015). Consequently, clinical features that can differentiate patients with typical or atypical deletion of the 22q11 region could be interesting as physicians could prescribe 55 specific genetic tests and more patients could be diagnosed. To achieve the goal of understanding the association of 22q11 deletion with the disease, the present work uses a machine learning-based approach (ML) to classify diagnosed cases of 22q11DS in typical or atypical. As far as we know, ML methodology was not used to study typical and atypical cases of 22q11DS. Here we present the use of a machine learning-based methodology to classify cases diagnosed with 22q11DS in typical or atypical according to their clinical features using the J48 algorithm (a decision tree algorithm). This way, the algorithm found a patter for each condition and the results of the generated decision trees may lead to reflection on current clinical practice in the context of SD22q11. 2. Methods 2.1. Data collection A bibliographic survey was performed to obtain the clinical and genetic data of cases diagnosed with 22q11DS for the construction of a dataset in the form of a matrix. Firstly, 45 cases were obtained through the work of Empke (Empke, 2015), in which cases were confirmed by MLPA, and all of then presented the typical deletion of 3Mb (Supplementary Table 1). Mining PubMed was done to obtain reports about diagnosed 22q11DS cases, especially atypical deletions. Each article was evaluated in order to verify whether clinical cases had a detailed report of clinical signs, generating 50 cases (49 atypical and 1 typical). The cases were searched up in order to obtain a similar number in both typical and atypical cases, generating a total of 95 cases, hereafter referred to as instances (Supplementary Table 1). 2.2. Data preparation The name of all clinical features was standardized according to The Human Phenotype Ontology (HPO) (Köhler et al., 2017), and clinical and genetic data were here used as attributes (it means features). A total of 90 clinical features were obtained from all cases, and each feature wa