UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS BIOLÓGICAS (GENÉTICA) André Luiz Molan Construção de uma ferramenta para análise de enriquecimento funcional gênico multiespécie entre amostras comparativas Botucatu, Junho de 2018 UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS BIOLÓGICAS (GENÉTICA) André Luiz Molan Construção de uma ferramenta para análise de enriquecimento funcional gênico multiespécie entre amostras comparativas Dissertação apresentada ao Instituto de Biociências, Campus de Botucatu, UNESP, em preenchimento dos requisitos para a obtenção do tı́tulo de Mestre no Programa de Pós-Graduação em Ciências Biológicas (Genética). Área de Concentração: Genética Orientador: Prof. Dr. José Luiz Rybarczyk Filho Botucatu, Junho de 2018. Palavras-chave: atividade gênica; diversidade gênica; enriquecimento funcional gênico; ferramenta computacional; grupos de genes funcionalmente associados (GFAGs). Molan, André Luiz. Construção de uma ferramenta para análise de enriquecimento funcional gênico multiespécie entre amostras comparativas / André Luiz Molan. - Botucatu, 2018 Dissertação (mestrado) - Universidade Estadual Paulista "Júlio de Mesquita Filho", Instituto de Biociências de Botucatu Orientador: José Luiz Rybarczyk Filho Capes: 20204000 1. Bioinformática. 2. Processamento eletrônico de dados. 3. Expressão gênica. 4. Transcrição genética. DIVISÃO TÉCNICA DE BIBLIOTECA E DOCUMENTAÇÃO - CÂMPUS DE BOTUCATU - UNESP BIBLIOTECÁRIA RESPONSÁVEL: ROSANGELA APARECIDA LOBO-CRB 8/7500 FICHA CATALOGRÁFICA ELABORADA PELA SEÇÃO TÉC. AQUIS. TRATAMENTO DA INFORM. Agradecimentos • Agradeço aos processos CNPq 458810/2013-4, 473789/2013-2 e 134469/2016-0 pelo suporte financeiro, fundamental para o desenvolvimento do trabalho; • Agradeço ao meu orientador, Prof. Dr. José Luiz Rybarczyk Filho, pela orientação de elevada qualidade, apoio, paciência e incentivo; • Agradeço à Profa. Dra. Agnes Alessandra Sekijima Takeda, fundamental para melhoria da qualidade do trabalho e apresentações orais; • Agradeço aos amigos de laboratório, Giordano Bruno Sanches Seco, José Rafael Pilan e Carlos Alberto Oliveira de Biaggi Junior, os quais contribuı́ram enormemente com suas amizades e ideias para eventuais melhorias no trabalho; • Agradeço aos meus pais, José Alberto Turini Molan e Maria Tereza de Oliveira Molan, pelo apoio e suporte incondicionais mesmo nos momentos mais difı́ceis. Resumo Sequenciar um organismo, atualmente, pode ser financeiramente custoso. A quantidade de dados gerada por uma única corrida é grande. Analisá-los não é trivial, exigindo, cada vez mais, técnicas computacionais e métodos estatı́sticos robustos, capazes de extrair o máximo possı́vel de informações. Normalmente, alguns estudos visam à busca por genes diferencial- mente expressos mediante diferentes condições experimentais. É importante conhecer perfis de expressão, porém, faz-se necessário entender como os genes relacionam-se entre si funcional- mente, o que só é possı́vel por meio de uma análise de enriquecimento funcional. Dessa forma, desenvolvemos um pacote em ambiente de programação R chamado Entropy- ClusterGenes. Ele é capaz de enriquecer conjuntos amostrais comparativos sob o ponto de vista da atividade e diversidade gênica utilizando a teoria da informação de Shannon. A ferramenta apresenta uma nova perspectiva de enriquecimento funcional, buscando por grupos de genes funcionalmente associados (GFAGs) através do conceito de entropia relacionado à ontologias e KEGG pathways. Para cada GFAG encontrado, através da técnica de bootstrap, calcula-se um p-valor, que é validado via FDR (False Discovery Rate) para determinar se o grupo encon- trado é ou não significativo em uma dada comparação amostral (controle versus experimento). Através de uma nova análise de RNA-seq com o protocolo Tuxedo, quantificamos os transcri- tos de forma bruta e diferencial em 46 amostras de Aedes aegypti e 8 amostras de Drosophila melanogaster, reagrupadas, posteriormente, em 40 combinações (controle e experimento) para o enriquecimento funcional pela nova ferramenta. De acordo com cada combinação, encon- tramos diversos grupos significativos relacionados a processos biológico, funções moleculares, componentes celulares e KEGG pathways. Para validar a análise de enriquecimento, compara- mos os resultados obtidos pelo EntropyClusterGenes a alguns dos principais resultados obtidos pelos pesquisadores nos estudos originais, além de realizarmos um benchmarking com outras três ferramentas similares, encontrando resultados semelhantes entre elas. Abstract An organism sequencing is still expensive. The amount of data generated by a single run is massive. Analyzing them is not trivial, requiring computational techniques and robust sta- tistical methods capable of extracting as much information as possible. Usually, some studies aim to search for genes differentially expressed by different experimental conditions. It is im- portant to know the expression profiles, however, it is necessary to understand how the genes are functionally related to each other, which is only possible through a functional enrichment analysis. In this context, we have developed a package in the R programming environment called EntropyClusterGenes. It is able to enrich comparative sample sets from the perspective of gene activity and gene diversity using Shannon’s information theory. The tool presents a new appro- ach of functional enrichment, searching for groups of functionally associated genes (GFAGs) related to ontologies and KEGG pathways classifying them according to their entropy. For each GFAG found, by means of the bootstrap technique, a p-value is calculated, which is validated by FDR (False Discovery Rate) to determine if the group found is significant or not in a given sample comparison (control vs. experiment). Using a new analysis of RNA-seq with the Tuxedo protocol, we quantified the raw and differential transcripts in 46 samples of Aedes aegypti and 8 samples of Drosophila melanogaster, later regrouped in 40 combinations (control and experi- ment) for the enrichment with the new tool. According to each combination, we found several significant groups related to biological processes, molecular functions, cellular components and KEGG pathways. To validate the enrichment analysis, we compared the results obtained by EntropyClusterGenes to some of the main results obtained by the researchers in the original studies. In addition, we have run a benchmarking with three other similar tools, finding similar results between them. Lista de Figuras 1.1 Estrutura de uma tı́pica ferramenta de enriquecimento . . . . . . . . . . . . . p. 2 1.2 Sequenciamento Sanger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 7 1.3 Sequenciamento Illumina . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8 1.4 Sequenciamento SOLiD . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9 1.5 Sequenciamento Roche 454 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 1.6 Sequenciamento Ion Torrent . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12 1.7 Sequenciamento Pacific Biosciences . . . . . . . . . . . . . . . . . . . . . . p. 13 1.8 Sequenciamento Nanopore . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.9 Experimento tı́pico de RNA-seq . . . . . . . . . . . . . . . . . . . . . . . . p. 16 3.1 Visão global do protocolo Tuxedo . . . . . . . . . . . . . . . . . . . . . . . p. 23 3.2 Gráfico acı́clico direto (DAG) . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25 3.3 Relação entre termos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26 3.4 Overview da base de dados KEGG . . . . . . . . . . . . . . . . . . . . . . . p. 27 3.5 Exemplo de diagrama de vias metabólicas . . . . . . . . . . . . . . . . . . . p. 28 3.6 Workflow do pacote EntropyclusterGenes . . . . . . . . . . . . . . . . . . . p. 30 3.7 Esquema básico do funcionamento de um bootstrap em um contexto biológico p. 37 4.1 Passos de bootstrap em função de grupos significativos . . . . . . . . . . . . p. 42 4.2 Verificação dos GFAGs encontrados por pasos de bootstrap . . . . . . . . . . p. 43 4.3 Estudo de Diversidade Gênica . . . . . . . . . . . . . . . . . . . . . . . . . p. 54 4.4 Estudo de Diversidade Gênica . . . . . . . . . . . . . . . . . . . . . . . . . p. 54 4.5 Perfis de expressão de genes envolvidos na produção de pequenos RNAs . . . p. 55 4.6 Conjunto de genes pertencentes a GO:0003676 . . . . . . . . . . . . . . . . p. 57 4.7 Conjunto de genes pertencentes a GO:0042302 . . . . . . . . . . . . . . . . p. 58 4.8 Conjunto de genes pertencentes a GO:0004175 . . . . . . . . . . . . . . . . p. 60 Lista de Tabelas 3.1 Códigos de evidência de ontologias . . . . . . . . . . . . . . . . . . . . . . . p. 26 3.2 Tabela de contingência de Fisher . . . . . . . . . . . . . . . . . . . . . . . . p. 39 4.1 Comparação de performance entre o código paralelizado e o não paralelizado p. 41 4.2 Genes diferencialmente expressos da amostra S2 . . . . . . . . . . . . . . . p. 44 4.3 Genes diferencialmente expressos da amostra S1 . . . . . . . . . . . . . . . p. 45 4.4 GFAGs de acordo com amostras S1 para o EntropyClusterGenes . . . . . . . p. 46 4.5 GFAGs de acordo com amostras S1 para o EntropyClusterGenes . . . . . . . p. 47 4.6 GFAGs de acordo com amostras S1 para o GAGE . . . . . . . . . . . . . . . p. 48 4.7 GFAGs de acordo com amostras S2 para o GAGE . . . . . . . . . . . . . . . p. 48 4.8 GFAGs de acordo com amostras S1 para o GSVA . . . . . . . . . . . . . . . p. 49 4.9 GFAGs de acordo com amostras S2 para o GSVA . . . . . . . . . . . . . . . p. 50 4.10 GFAGs de acordo com amostras S2 para o ClusterProfiler . . . . . . . . . . . p. 50 4.11 GFAGs de acordo com amostras S1 para o ClusterProfiler . . . . . . . . . . . p. 51 4.12 Similaridade ferramentas com base em Aedes aegypti . . . . . . . . . . . . . p. 52 4.13 Similaridade ferramentas com base em Drosophila melanogaster . . . . . . . p. 52 4.14 Principais genes identificados originalmente nas amostras S1 . . . . . . . . . p. 56 4.15 Diversidade relativa fase embrionária Aedes aegypti . . . . . . . . . . . . . . p. 57 4.16 Ontologias de destaque conforme estudo sobre Drosophila . . . . . . . . . . p. 60 A.1 Descrição das comparações realizadas a partir do conjunto de amostras S1 . . p. 68 A.2 Descrição das comparações realizadas a partir do conjunto de amostras S2 . . p. 69 B.1 Exemplo de arquivo de entrada . . . . . . . . . . . . . . . . . . . . . . . . . p. 70 B.2 Primeiro arquivo de saı́da . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71 B.3 Segundo arquivo de saı́da . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 72 Sumário Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. iv Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. v 1 Introdução p. 1 1.1 Enriquecimento Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 1 1.1.1 Singular Enrichment Analysis (SEA) . . . . . . . . . . . . . . . . . p. 2 1.1.2 Gene Set Enrichment Analysis (GSEA) . . . . . . . . . . . . . . . . p. 3 1.1.3 Modular Enrichment Analysis (MEA) . . . . . . . . . . . . . . . . . p. 4 1.2 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 4 1.3 Meta Análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5 1.4 Sequenciamento Next Generation Sequencing (NGS) . . . . . . . . . . . . . p. 5 1.4.1 Sanger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 6 1.4.2 Illumina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 7 1.4.3 SOLiD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9 1.4.4 Roche 454 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10 1.4.5 Ion Torrent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 1.4.6 Pacific Biosciences . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12 1.4.7 Nanopore Technologies . . . . . . . . . . . . . . . . . . . . . . . . . p. 13 1.5 RNA-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.6 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 2 Objetivos p. 19 2.1 Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19 3 Material e Métodos p. 20 3.1 Sequence Read Archive (SRA) . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 3.2 Conjuntos de dados brutos . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 3.3 Unidades para Quantificação de Dados de Expressão . . . . . . . . . . . . . p. 21 3.4 Protocolo Tuxedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22 3.5 Gene Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24 3.6 KEGG: Kyoto Encyclopedia of Genes and Genomes . . . . . . . . . . . . . . p. 27 3.7 EntropyClusterGenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 29 3.8 Ferramentas de Enriquecimento Funcional para Benchmarking . . . . . . . p. 32 3.8.1 clusterProfiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 3.8.2 Gene set variation analysis for microarray and RNA-Seq data (GSVA) p. 33 3.8.3 GAGE: Generally Applicable Gene-set Enrichment . . . . . . . . . . p. 34 3.9 Hipóteses e p-valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34 3.10 FDR: False Discovery Rate . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35 3.11 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 3.12 Teste Wilcoxon rank-sum . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37 3.13 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38 4 Resultados e Discussão p. 40 4.1 Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 4.2 Otimização de Bootstraps . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41 4.3 Análise de Expressão Diferencial Gênica . . . . . . . . . . . . . . . . . . . p. 44 4.4 Análise de Grupos Significativos . . . . . . . . . . . . . . . . . . . . . . . . p. 46 4.5 Benchmarking entre Ferramentas GSEA . . . . . . . . . . . . . . . . . . . . p. 52 4.6 Diversidade Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53 4.7 Comparação com Estudos Originais - Aedes aegypti . . . . . . . . . . . . . p. 55 4.8 Comparação com Estudos Originais - Drosophila melanogaster . . . . . . . p. 58 5 Conclusão p. 61 Referências Bibliográficas p. 63 Apêndice A p. 68 Apêndice B p. 70 1 1 Introdução 1.1 Enriquecimento Funcional O avanço da biologia celular nas últimas décadas se deve, particularmente, às tecnologias de sequenciamento de alto rendimento. A quantidade de dados gerada a partir de experimen- tos de microarranjo e Next Generation Sequencing (NGS) tem aumentando substancialmente nos últimos anos. A análise e interpretação desses dados, porém, não é trivial, exigindo uma combinação de conhecimentos biológicos, modelagem estatı́stica e técnicas computacionais. Os primeiros conjuntos de expressão gênica eram, em sua maioria, analisados considerando os genes de maneira individual. No entanto, constatou-se que estes não agem sozinhos. Pro- cessos celulares são o resultado de complexas interações entre diferentes genes e moléculas. Atualmente, grupos de genes ligados a diversas funções estão disponı́veis em bases de dados públicas, podendo ser utilizados para interpretar resultados de novos experimentos (HUANG; SHERMAN; LEMPICKI, 2008). Tais bases possibilitaram a implementação de uma série de métodos para a análise de enri- quecimento gênico, com o propósito de comparar nı́veis de expressão sob duas condições dis- tintas (experimento vs controle) e identificar grupos diferencialmente expressos (enriquecidos) na condição experimental (SIGNORELLI; VINCIOTTI; WIT, 2016). Hoje, o Gene Ontology (ASHBURNER et al., 2000) e o KEGG (OGATA et al., 1999) são duas das bases mais usadas em estudos funcionais. Contudo, estratégias baseadas em vocabulários múltiplos vêm sendo criadas, como o Human Disease Ontology e a Pharmacogenomics Knowlege Base (HOEHN- DORF; DUMONTIER; GKOUTOS, 2012). Uma série de ferramentas aplicadas à analise de enriquecimento tem sido desenvolvidas. Elas apresentam grande similaridade, uma vez que todas calculam p-valores das vias enrique- cidas e utilizam diferentes métodos estatı́sticos, como o teste exato de Fisher, teste do χ2, testes de distribuição binomial e hipergeométrica, entre outros. Fisher (FISHER, 1935) é mais apropriado para análise de vias que contêm um pequeno número de genes, ao passo que χ2 é adequado quando a quantidade de genes é superior a cinco (ROSCOE; BYARS, 1971). Seme- 2 lhante ao teste de Fisher, a distribuição hipergeométrica (KEMP; KEMP, 1956) é utilizada para uma amostragem com número de genes reduzido, porém, se aproxima da distribuição binomial (mais adequada quando se considera um número elevado de genes) à medida que a quantidade de genes aumenta (BRUNK; HOLSTEIN; WILLIAMS, 1968). Além disso, é preciso ressaltar que as ferramentas de enriquecimento funcional são classificadas em 3 categorias, podendo, algumas, serem inclusas em mais de uma delas: Singular Enrichment Analysis (SEA), Gene Set Enrichment Analysis (GSEA) e Modular Enrichment Analysis (MEA) (MACHADO; FREI- TAS; COUTO, 2013). Embora estejam categorizadas, todas possuem uma estrutura em comum, conforme Figura 1.1. Figura 1.1: Estrutura de uma tı́pica ferramenta de enriquecimento. Embora as ferramentas de análise de enriquecimento possuam caracterı́sticas distintas, elas podem ser resumidas em três blocos principais: Banco de dados de anotação back-end, data mining e apresentação de resultados. [Figura adaptada de (HUANG; SHERMAN; LEMPICKI, 2008)] 1.1.1 Singular Enrichment Analysis (SEA) Uma das estratégias de análise de enriquecimento mais tradicionais, SEA avalia uma relação de genes pré-selecionados, como, por exemplo, genes diferencialmente expressos, testando ite- rativamente cada termo de anotação de forma linear. Em seguida, os termos enriquecidos dentro do limite de p-valor estabelecido são transferidos para uma tabela, ordenados de acordo com seus respectivos p-valores de enriquecimento, calculados através de métodos estatı́sticos bem conhecidos (Chi-quadrado, Fisher, distribuição hipergeométrica, entre outros). Ferramentas 3 dessa classe são eficientes quanto à extração dos principais significados biológicos por trás de grandes listas de genes. Contudo, como ponto fraco desta classe, temos uma saı́da (output) de termos muito grande - de centenas a milhares - que podem dificultar a análise dos resultados gerados. Isso torna a análise via SEA instável, uma vez que diferentes cutoffs e métodos es- tatı́sticos são utilizados (HUANG; SHERMAN; LEMPICKI, 2008). GOStat (BEISSBARTH; SPEED, 2004) e GoMiner (ZEEBERG et al., 2003) são exemplos de ferramentas SEA. 1.1.2 Gene Set Enrichment Analysis (GSEA) GSEA se assemelha à SEA, contudo, todos os genes do experimento são utilizados e não apenas um subconjunto - como genes diferencialmente expressos, por exemplo. Esta estratégia torna o enriquecimento enriquecimento funcional mais completo, uma vez que há a redução de fatores arbitrários envolvidos na seleção de grupos gênicos e toda a informação disponı́vel é utilizada. Para obtenção dos p-valores, algumas ferramentas dessa classe calculam um score de enriquecimento máximo (MES) a partir do ranqueamento de todos os genes presentes em uma dada categoria, através do método estatı́stico Kolmogorov-Smirnov, (HOLLANDER; WOLFE, 1999). Outras se baseiam em métodos estatı́sticos paramétricos, como z-score, teste t, análise de permutação etc, levando em consideração valores experimentais - fold change, por exemplo - de todos os genes em cada termo de anotação encontrado (HUANG; SHERMAN; LEMPICKI, 2008). As ferramentas dessa classe, entretanto, apresentam algumas limitações. O fato de não uti- lizar um valor de corte (cutoff ) para seleção de genes, embora seja a maior vantagem de GSEA, tornou-se um grande problema em determinados estudos. O método requer como input um va- lor biológico - por exemplo, fold change - para cada um dos genes do experimento. Porém, de acordo com o estudo e a plataforma utilizadas, a obtenção de tais valores não é trivial. Além disso, genes com ranking elevado, geralmente com as maiores variações de expressão, são a força motora para a definição de p-valores, levando a assumir que estes genes são os maio- res responsáveis pelos achados biológicos. Mas isso não é verdade, uma vez que pequenas alterações de sinais podem resultar em consequências mais significativas. (HUANG; SHER- MAN; LEMPICKI, 2008). GO-Mapper (SMID; DORSSERS, 2004) e PAGE (KIM; VOLSKY, 2005) são exemplos de ferramentas computacionais que se encaixam no perfil definido pela classe GSEA. 4 1.1.3 Modular Enrichment Analysis (MEA) MEA possui o mesmo cálculo de enriquecimento encontrado em SEA, acrescido, porém, de algoritmos de descoberta de redes que levam em conta as relações termo a termo. Ao considerar o relacionamento entre termos GO (ontologias referentes ao Gene Ontology), há um aumento na sensibilidade e especificidade do enriquecimento, sendo esta uma das maiores vantagens em se utilizar tal abordagem. Isso possibilita ao pesquisador, eventualmente, encontrar significados biológicos na ligação entre dois ou mais termos. Além disso, quando se utiliza anotações he- terogêneas, os termos são altamente redundantes, apresentando fortes correlações referentes à diferentes aspectos para a mesma função biológica (HUANG; SHERMAN; LEMPICKI, 2008). Um exemplo é a ferramenta DAVID (HUANG et al., 2007), capaz de organizar um grande conteúdo de anotações heterogêneas, como termos GO, domı́nios proteicos e vias metabólicas em classes gênicas. Tal organização faz uso de estatı́sticas tipo Kappa, aliada ao cálculo de p-valores, permitindo que a análise de enriquecimento varie de uma análise termo-cêntrica para uma análise biológica módulo-cêntrica. Como exemplos adicionais de ferramentas dessa classe, podemos citar topGO (ALEXA; RAHNENFUHRER, 2010) e ClusterProfiler (YU et al., 2012). Vale ressaltar, entretanto, uma das principais limitações dessa classe. Termos “órfãos” (ele- mentos sem uma forte relação com seus vizinhos) podem, eventualmente, ser desconsiderados pela análise. Portanto, é preciso ficar atento e examinar de forma cautelosa todo e qualquer ele- mento deixado de fora, pois é possı́vel que exista significado biológico de valor elevado mesmo que o método tenha indicado o contrário (HUANG; SHERMAN; LEMPICKI, 2008). 1.2 Big Data A quantidade de dados gerado em todo o mundo ao longo dos últimos anos é massiva. Crescendo de maneira exponencial, saber administrar e analisar tamanho volume armazenado digitalmente é essencial. É preciso transforma-los em informação, gerando, assim, conheci- mento (MURDOCH; DETSKY, 2013). O termo big data se refere a conjuntos de dados cujo tamanho e complexidade demandam técnicas de análise que vão além dos métodos tradicionais existentes. Seu tamanho pode chegar à casa de petabytes (1015 bytes). Sua classificação é de acordo com o volume, velocidade, variedade, veracidade e valor. Tais aspectos representam a variedade dos tipos de dados, que vão de textos não estruturados a dados fisiológicos, de imagens e sequenciamento genômico. Analisar dados tão complexos requer ferramentas que se assemelham mais ao campo da informática do que ao de pesquisas clı́nicas, como, por exemplo, aprendizado de máquina (machine learning). Por meio de diferentes técnicas computacionais 5 é possı́vel refinar determinas questões, gerar hipóteses e identificar grupos experimentais com maior potencial de resultados promissores (DOCHERTY; LONE, 2015). 1.3 Meta Análise Dentre os significados para o prefixo meta destacam-se “mudança” e “reflexão crı́tica so- bre”. Dessa forma, ao tratarmos de meta análise, nos referimos a uma análise que transcende os resultados anteriores. É fundamental uma nova análise estatı́stica dos dados ou resultados pree- xistentes. Não basta simplesmente uma análise qualitativa. Dependendo da natureza dos dados e dos objetivos do estudo, qualquer método de análise estatı́stica, praticamente, poderá ser apli- cado. Qualquer área pode fazer uso da meta análise, permitindo, eventualmente, a elucidação de problemas que, anteriormente, não tenham sido possı́veis dada limitações práticas ou cus- tos elevados. A Biologia é uma das ciências que mais se beneficiou com as técnicas de meta análise, muito em função de uma série de atividades práticas, custos e ainda implicações éticas que cercam a realização de experimentos com seres vivos (LUIZ, 2002). Com as novas tecnologias de sequenciamento, a quantidade de dados genômicos gerados tem aumentado consideravelmente. Os diferentes designs experimentais utilizados, entretanto, geram um conteúdo que, na maioria das vezes, não é utilizado em sua totalidade. São estu- dos focados em determinados cenários que visam observar o comportamento de um grupo de funções biológicas de um dado organismo ou, simplesmente, a montagem do genoma deste. Dessa forma, é possı́vel aplicar o conceito de big data, com o intuito de realizar novas análises e obter resultados diferentes daqueles encontrados na pesquisa inicial (MCAFEE et al., 2012). Um exemplo de meta análise pode ser observado em um trabalho de DerSimoniane e Laird (DERSIMONIAN; LAIRD, 1986). Ao examinarem oito artigos referentes a diferentes ensaios clı́nicos especı́ficos para uma condição médica especı́fica, foram capazes de incorporar hetero- geneidade dos efeitos na eficácia do tratamento. Isso permitiu que tratamentos mais especı́ficos pudessem ser recomendados, confirmando que novas conclusões podem ser obtidas a partir de dados previamente analisados. 1.4 Sequenciamento Next Generation Sequencing (NGS) Em 1944, Oswald Theodore Avery demostrou o DNA como sendo material genético. Sua estrutura em dupla hélice, composta por quatro bases, entretanto, só foi demostrada em 1953 por James D. Watson e Francis Crick, fato que levou ao dogma central da biologia molecular. 6 O DNA genômico, na maioria dos casos, define as espécies e indivı́duos, tornando a sequência desta molécula fundamental para pesquisas sobre estruturas e funções celulares. As tecnologias de sequenciamento de DNA auxiliam em uma série de aplicações, como montagem de geno- mas, clonagem molecular, busca por genes patogênicos, estudos comparativos e evolucionários, entre outros. Nos últimos 30 anos, as tecnologias de sequenciamento passaram por inúmeros avanços e se tornaram a principal força na era dos genomas. Em 1977, Frederick Sanger de- senvolveu uma tecnologia de sequenciamento de DNA baseada no método de terminação de cadeias, também conhecido como sequenciamento de Sanger. Devido a sua alta eficiência e baixa radioatividade, o sequenciamento de Sanger foi adotado como tecnologia primária para as aplicações de sequenciamento. Porém, utilizar este método era trabalhoso e requeria materi- ais radioativos. Foi então que, em 1987, uma empresa chamada Applied Biosystems introduziu o primeiro equipamento de sequenciamento automático, chamado de AB370. Ele adotava a eletroforese capilar, aspecto que tornava o sequenciamento mais rápido e acurado. Além disso, o AB370 era capaz de detectar 96 bases por vez - 500K diários - e reads com 600 bases de comprimento. Em 1998, instrumentos de sequenciamento automático com software associados que utilizavam máquinas de sequenciamento capilar e a tecnologia de sequenciamento Sanger se tornaram as principais ferramentas para a conclusão do projeto genoma humano em 2001. Posteriormente, surgiram as tecnlogias NGS (Next Generation Sequencing), diferenciando-se do método de Sanger pela análise paralela massiva, alto rendimento e custo reduzido. Embora NGS tenha tornado o sequenciamento de genomas mais acessı́vel, as subsequentes análises dos dados e explicações biológicas ainda são o gargalo para a compreensão destes (LIU et al., 2012). Seguindo a evolução tecnológica, em 2005 a empresa 454 lança seu sistema de sequenci- amento - de mesmo nome. No ano seguinte a Solexa lança o Genome Analyzer, seguido pelo SOLiD (Sequencing by Oligo Ligation Detection), da Agencourt. Todos os três, comparados ao sequenciamento Sanger, compartilham bom desempenho quanto a rendimento, precisão e custos. Ainda em 2006 a Agencourt foi adquirida pela Applied Biosystems e, em 2007, a Roche comprou a 454, enquanto a Solexa foi vendida para a Illumina (LIU et al., 2012). 1.4.1 Sanger Em 1977, o bioquı́mico inglês Frederick Sanger foi responsável pelo maior avanço no que se refere ao sequenciamento de DNA, desenvolvendo a técnica de terminação de cadeias (chain- termination). Tal técnica faz uso de substâncias análogas aos desoxirribonucleotı́deos (dNTPs) que são monômeros de fitas de DNA. Os dideoxirribonucleotı́deos (ddNTPs) não possuem o grupo 3’ hidroxil, necessário para a extensão das cadeias de DNA e, portanto, não são capa- 7 zes de formar uma ligação com o 5’ fosfato do próximo dNTP. Ao adicionar radiomarcadores ddNTPs na reação de extensão do DNA em uma fração da concentração de dNTPs padrão tem-se como resultado a produção de fitas de DNA de cada comprimento possı́vel, com a incorporação randômica dos ddNTPs como extensão da fita e consequente interrupção do pro- cesso. Através da execução de quatro reações paralelas contendo cada uma das bases ddNTP e processando os resultados em quatro divisões de um gel de poliacrilamida, é possı́vel utilizar autoradiografia para inferir a sequência de nucleotı́deos presente no fragmento original, uma vez que existirá uma banda radioativa na correspondente divisão naquela posição do gel (HE- ATHER; CHAIN, 2016). Um modelo ilustrativo deste tipo de sequenciamento pode ser visto na Figura 1.2. Figura 1.2: Sequenciamento Sanger. A região do DNA a ser sequenciada é amplificada e, então, desna- turada para produzir uma fita de simples, conectando-se um primer a ela. O sequenciamento se aproveita do fato de que o crescimento de uma cadeia de nucleotı́deos na direção 3’ irá terminar se, ao invés de um desoxinucleotı́deo convencional, um 2’3’ dideoxynucleotı́deo é incorporado. Através de qua- tro reações separadas, cada uma contendo uma DNA polimerase e uma pequena quantidade de um dos quatro dideoxinucleotı́deos além dos deoxinucleotı́deos, quatro conjuntos separados de fragmentos de terminação de cadeia serão produzidos. Seguindo o passo de replicação/terminação, estes fragmentos permanecerão ligados à fita simples de DNA, a qual se comporta como um template. Ao aquecer essas moléculas fita dupla parcial e adicionar um agente desnaturador, como formamida, as moléculas fita sim- ples de terminação em cadeia podem ser liberadas de seus respectivos templates e separadas por meio da utilização de eletroforese em gel desnaturador de alta resolução. A sequência da região original do DNA é, então, deduzida através da análise das posições relativas dos produtos das reações em quatro faixas do gel desnaturador. [Figura adaptada de (TECHCOUNCIL, 2013)] 1.4.2 Illumina É a mais popular entre as plataformas de alto rendimento que utilizam o sequenciamento por sı́ntese quı́mica. Após o preparo das bibliotecas, o cDNA (DNA complementar) de fita du- pla é colocado sobre uma flow cell onde ocorre a hibridização baseada na complementariedade de bases com as sequências dos adaptadores. Em seguida, sequências em ambas as extremida- 8 des do adaptador são amplificadas como uma ponte. As sequências recém geradas, então, são hibridizadas próximas umas das outras e, depois de vários ciclos, uma região da flow cell irá conter várias cópias do cDNA original. Este processo é conhecido como geração de clusters e, com o surgimento destes, além da remoção de uma das fitas do cDNA, reagentes são intro- duzidos na flow cell dando inı́cio ao sequenciamento por sı́ntese. Este tipo de sequenciamento ocorre através de uma reação na qual cada rodada de sı́ntese, a adição de um nucleotı́deo - A, C, G ou T, conforme determinado pelo sinal de fluorescência - é imageada de forma que a localização e o nucleotı́deo adicionado possam ser determinados, armazenados e analisados. Vale ainda ressaltar que existem dois modos de sequenciamento. Caso o sequenciamento seja executado apenas em uma das extremidades da fita dupla de cDNA, o modo é chamado de single-end. Entretanto, se o sequenciamento for executado em ambas as extremidades da fita, o modo recebe o nome de paired-end (KORPELAINEN et al., 2014). Para melhor compreender o sequenciamento Illumina, observe a Figura 1.3. Figura 1.3: Sequenciamento Illumina. (1) Preparo da amostra de DNA genômico, com fragmentação randômica do DNA e adaptadores ligados às extremidades dos fragmentos. (2) Ligação do DNA à superfı́cie da flow cell. Fragmentos de fita simples são aleatoriamente ligados à superfı́cie de canais da flow cell. (3) Amplificação de ponte. Adição nucleotı́deos e enzimas para iniciar a fase sólida de amplificação em ponte. (4) Fragmentos se tornam fitas duplas. (5) Desnaturação das fitas duplas. (6) Conclusão da amplificação, com a formação de densos clusters de fita dupla de DNA gerados em cada canal da flow cell. [Figura adaptada de (BIOLOGY NOTES HELP, 2017)] 9 1.4.3 SOLiD SOLiD significa sequenciamento por detecção de ligações oligonucleotı́deas e é uma plata- forma comercializada pela Applied Biosystems. A quı́mica do sequenciamento, como o próprio nome diz, se dá via ligação ao invés de sı́ntese. A biblioteca de fragmentos de DNA (derivada, originalmente, de moléculas de RNA) é associada à esferas magnéticas, sendo uma molécula por esfera. O DNA em cada esfera é,então, amplificado em uma emulsão de forma que o conteúdo amplificado permaneça na esfera. Os produtos resultantes da amplificação ligam-se de forma covalente a uma lâmina de vidro. Um exemplo gráfico deste tipo de sequenciamento pode ser observado através da Figura 1.4. Figura 1.4: Sequenciamento SOLiD. (A) Primers hibridizam com o adaptador P1 dentro da biblioteca de template. Um conjunto de quatro sondas di-base marcadas com um agente fluorescente competem para ligaram-se à sequência do primer. Essas sondas possuem uma sequência de DNA parcialmente degenerada (indicada por n e z) e por simplicidade apenas uma sonda é mostrada (a marcação é de- notada por asterisco). A especificidade de sonda di-base é obtida através da checagem da primeira e segunda base em cada reação de ligação. Seguindo a ligação, a marcação fluorescente é enzimatica- mente removida juntamente com as três últimas bases do octâmero. (B) A determinação da sequência pelo sequenciamento SOLiD é feita em múltiplos ciclos de ligação, utilizando diferentes primers, cada um menor do que o anterior por uma única base. O número de ciclos de ligação (neste exemplo, 6) determina o eventual tamanho do read, embora para cada sequência de marcação, ocorrem seis rodadas de reinicialização do primer (do primer n ao primer n-4). [Figura adaptada de (ANSORGE, 2009)] 10 Através de diversos primers que se hibridizam com um primer universal, sondas di-base fluorescentes são competitivamente ligadas ao primer. Caso as bases na primeira e segunda posição da sonda di-base sejam complementares à sequência, a reação de ligação ocorrerá e irá gerar um sinal. Primers são reiniciados por um nucleotı́deo simples cinco vezes, de forma que, ao final do ciclo, pelo menos quatro nucleotı́deos tenham sido checados duas vezes, de- vido às sondas dinucleotı́dicas, e um nucleotı́deo pelo menos uma vez. A ligação das sondas diclueotı́dicas subsequentes possibilitam uma segunda checagem do nucleotı́deo checado ante- riormente apenas uma vez e, após mais cinco ciclos, outros cinco nucleotı́deos serão checados pelo menos duas vezes. Os passos de ligação continuam até que a sequência completa tenha sido lida (KORPELAINEN et al., 2014). 1.4.4 Roche 454 Roche 454 é uma plataforma baseada no sequenciamento de bibliotecas de DNA dupla fita com a ligação de adaptadores através de sı́ntese quı́mica. O DNA é fixado em esferas e ampli- ficado em uma emulsão de água e óleo. As esferas são colocadas em placas de picotituladores onde ocorrem as reações de sequenciamento. O elevado número de poços nas placas de picotitu- ladores proporcionam o layout paralelo massivo utilizado, caracterı́stico das tecnologias NGS. Comparado a outras plataformas, o método de detecção difere quanto à sı́ntese quı́mica, a qual apresenta a detecção de um nucleotı́deo adicionado por meio de uma reação em duas etapas. A primeira realiza a clivagem do nucleotı́deo trifosfato após uma adição, liberando pirofosfato. A segunda converte o pirofosfato em adenosina trifosfato (ATP) através da enzima ATP sulfuri- lase. Em uma terceira etapa, o recém sitetizado ATP é utilizado para catalizar a conversão de luciferin em oxiluciferin via luciferase, gerando uma quantidade de luminescência que é cap- turada por uma câmera acoplada à placa picotituladora. Os nucleotı́deos livres e ATPs que não reagiram são degrados por uma pirase após cada adição. Todas as etapas são repetidas até que um número predeterminado de reações, de acordo com o fabricante, tenham sido alcançadas. A gravação da luminescência gerada, bem como a localização do poço após a cada adição de nucleotı́deo torna possı́vel a reconstrução da identidade do nucleotı́deo e da sequência em cada poço. Este método, visto na Figura 1.5, é conhecido como pirosequenciamento, apresentando, como principal vantagem, a possibilidade de reads mais longos quando comparado às outras plataformas - reads de até 1000 bases podem ser alcançados (KORPELAINEN et al., 2014) 11 Figura 1.5: Sequenciamento Roche 454. (A) Esboço do workflow do sequenciador de DNA GS 454. (I) Construção da biblioteca com a ligação de adaptadores 454 especı́ficos aos fragmentos de DNA, indica- dos por A e B e (II) acoplamento de DNA e esferas amplificadas em uma emulsão PCR para amplificar fragmentos antes do sequenciamento. (III) As esferas são carregados em uma placa picotituladora. (B) Ilustração esquemática da reação de pirosequenciamento na qual ocorre a incorporação para reportar o sequenciamento por sı́ntese. [Figura adaptada de (ANSORGE, 2009)] 1.4.5 Ion Torrent Esta plataforma utiliza uma biblioteca de DNA dupla fita ligada a adaptadores seguida pelo sequenciamento de sı́ntese quı́mica utilizado por outras plataformas, mas possui uma carac- terı́stica única. Ao invés de detectar sinais de fluorescência ou fótons, são detectadas alterações no pH da solução em um poço quando o nucleotı́deo é adicionado e prótons são produzidos. Tais mudanças são extemamente pequenas, no entanto, a plataforma faz uso de tecnologias baseadas em semicondutores a fim de alcançar alta sensibilidade. O Ion Torrent produz em média uma quantidade menor de reads em uma única corrida quando comparada a outras pla- taformas. O tempo de corrida, porém, é muito baixo, levando de 2 a 4 horas. Uma vez que não é preciso instrumentação de medidas ópticas ou nucleotı́deos modificados, sua grande van- tagem é a acessibilidade, tanto instrumental quanto de reagentes. O equipamento é pequeno, pode ser desligado quando não estiver em uso (sendo fácil liga-lo novamente) e demanda pouca manutenção. Diante dessas caracterı́sticas, foram encontradas consideráveis utilizações para a plataforma, como sequenciamento de microrganismos e genômica do meio ambiente, além de aplicações na área clı́nica, em que o tempo é um fator crı́tico (KORPELAINEN et al., 2014). Um esquema desta plataforma pode ser observado na Figura 1.6. 12 Figura 1.6: Sequenciamento Ion Torrent. Utilização de pH para a detecção da incorporação do nu- cleotı́deo. Durante a extensão da polimerase e incorporação do nucleotı́deo, um próton é liberado, al- terando o pH de um micropoço. Ao fluir em um tipo de dNTP não modificado por vez (por exemplo, dATP), os sensores de pH ISFET miniaturizados reportam os micropoços que incorporaram o nucleotı́deo introduzido. Sequências homopoliméricas (AAAAA, por exemplo) levam à liveração de um grande número de prótons que podem dificultar uma quantificação precisa. [Figura adaptada de (KHODAKOV; WANG; ZHANG, 2016)] 1.4.6 Pacific Biosciences Trata-se de uma plataforma representante da terceira geração. A quı́mica utilizada ainda é similar às tecnologias de segunda geração, utilizando o sistema de sequenciamento por sı́ntese. Entretanto, a maior diferença é que ela requer apenas uma única molécula, com os nucleotı́deos adicionados sendo lidos em tempo real. Dessa forma, sua quı́mica recebeu o nome de SMRT (Single-Molecule Real Time). O fato de ser molécula única significa que não há a necessidade de amplificação. Nota-se que essa plataforma sequencia moléculas de DNA. SMRT utiliza zero- mode waveguides (ZMWs), câmaras de espaço restrito que guia a energia luminosa e reagentes para dentro de volumes extremamente pequenos que estão na ordem de zeptolitros (10−21 L). Fazendo uso de trifosfatos nucleotı́dicos fluorescentes, a adição de um A, C, G ou T a uma cadeia de nucleotı́dica pode ser detectada a medida que está sendo sintetizada. Como um ins- trumento de tempo real que mede adições a medida em que estas ocorrem, o tempo de execução pode ser bastante curto - entre uma e duas horas. O tamanho médio dos reads podem chegar a 5000 bases. Como consequência do sequenciamento direto de DNA de moléculas únicas, notou-se que modificações de ácidos nucleicos, tais como 5-metil citosina, ocasionaram atrasos na cinética da DNA polimerase. Tal acontecimento, porém, passou a ser explorado pela plata- 13 forma de forma que modificações no DNA pudessem ser sequenciadas (KORPELAINEN et al., 2014). Através da Figura 1.7. Figura 1.7: Sequenciamento Pacific Biosciences. Uma única polimerase é posicionada é na parte infe- rior de um ZMW. Versões de fosfatos marcados de todos os quatro nucleotı́deos estão presentes, permi- tindo uma polimerização contı́nua de um template de DNA. A incorporação de bases aumenta o tempo de permanência de um nucleotı́deo no ZMW, resultando em um sinal fluorescente detectável que é cap- turado em em um vı́deo. [Figura adaptada de (BIOCHEMISTRIES, 2015)] 1.4.7 Nanopore Technologies Apesar dos ganhos expressivos em rendimento e baixo custo por base das atuais platafor- mas, as tecnologias de sequenciamento continuam a evoluir. Criada pela Oxford Nanopore Technologies, Nanopore, descrita pela Figura 1.8, é uma tecnologia de sequenciamento de molécula única em que uma mesma enzima é utilizada tanto para separar a fita de DNA quanto para guia-la através de um poro proteico embutido em uma membrana. Ions atravessam o poro simultaneamente gerando uma corrente elétrica. Esta é sensı́vel a nucleotı́deos especı́ficos que passam pelo poro, produzindo sinais distintos em função das bases A, C, G e T. A vantagem 14 desse sistema é a sua simplicidade, permitindo a construção de dispositivos pequenos. No en- tanto, ele é extremamente desafiador, uma vez que há a necessidade de medir mudanças na corrente elétrica em uma escala extremamente pequena (KORPELAINEN et al., 2014). Figura 1.8: Sequenciamento Nanopore. Templates de DNA são ligados com dois adaptadores. O primeiro adaptador é ligado com uma enzima motora, assim como a amarra, enquanto o segundo é um oligo tipo grampo ligado por uma proteı́na motora HP. Alterações na corrente, induzidas a medida que os nucleotı́deos passam pelo poro, são utilizadas para discriminar as bases. O desenho da biblioteca possibilita sequenciar ambas as fitas de DNA de uma única molécula (reads em duas direções). [Figura adaptada de (BIOCHEMISTRIES, 2015)] 1.5 RNA-seq O transcriptoma é o conjunto completo de transcritos em uma célula - e a sua quanti- dade - em um determinado estágio de desenvolvimento. Sua compreensão é essencial para a interpretação de elementos funcionais do genoma, revelando constituintes moleculares de células e tecidos e possibilitando a compreensão do desenvolvimento de diferentes organismos 15 e doenças. Os principais objetivos de um transcriptoma, no entanto, consistem em catalogar todos os transcritos de uma dada espécie (mRNAs, non-coding RNAs e pequenos RNAs), de- terminar a estrutura transcricional de genes e quantificar alterações nos nı́veis de expressão du- rante as diversas fases de desenvolvimento do organismo e sob diferentes condições. Diversas tecnologias tem sido desenvolvidas para deduzir e quantificar o transcriptoma, incluindo abor- dagens baseadas em hibridização ou baseadas em sequências (WANG; GERSTEIN; SNYDER, 2009). RNA-seq é uma coleção de métodos computacionais e experimentais que determinam a identidade e abundância de sequências de RNA em amostras biológicas. A posição de cada base nitrogenada, presente em uma fita simples de RNA, é identificada. Os métodos experi- mentais envolvem isolar o RNA de amostras celulares, tecidos ou animais inteiros, preparar bibliotecas que representem a espécie nas amostras utilizadas e efetuar um sequenciamento quı́mico dessas bibliotecas, seguido de uma análise de bioinformática. Uma distinção entre RNA-seq e os métodos anteriores, está no alto rendimento das atuais plataformas, sensibili- dade alcançada com as novas tecnologias e poder para descobrir novos transcritos, modelos gênicos e pequenas espécies de RNA não codificante. Os dados obtidos de um experimento de RNA-seq podem, de fato, produzir novos conhecimentos, que vão da identificação de diferen- tes transcritos codificadores de proteı́nas em linhagens de células embrionárias à caracterização de genes diferencialmente expressos em tumores de pele ou um outro órgão especı́fico. Com base nisso, questões como diferenças nos nı́veis de expressão entre tecidos doentes e sadios ou após um tratamento com determinado agente mutagênico, quais genes são positivamente (up) ou negativamente (down) regulados durante o desenvolvimento do cérebro, quais transcritos estão presentes na pele e não nos músculos, entre outras, podem ser respondidas. Gerou-se grandes expectativas para a transcriptômica, quando o RNA-seq revelou que o conhecimento da estrutura dos genes e a forma como se realizava suas anotações - tanto de organismos uni- celulares quanto de humanos - era muito pobre e limitada. Novos dados gerados a partir dessa técnica mostraram uma vasta diversidade para a estrutura gênica, possibilitaram a identificação de genes antes desconhecidos e jogaram luz sobre o estudo de pequenos e longos transcritos não codificantes (KORPELAINEN et al., 2014). Fazendo uso das mais recentes tecnologias de sequenciamento, o método, em geral, utiliza uma população de RNA (total ou fracionada, como, por exemplo, poly(A)+) convertendo-a em uma biblioteca de fragmentos de cDNA com adaptadores conectados a uma ou ambas as extremidades da fita. Cada molécula, com ou sem amplificação, é, então, sequenciada por meio das novas tecnologias de sequenciamento de forma a obter pequenas sequências a partir de uma extremidade (single-end sequencing) ou ambas as extremidades (pair-end sequencing). O 16 tamanho dos reads obtidos dependem da tecnologia escolhida (WANG; GERSTEIN; SNYDER, 2009). Uma descrição gráfica da metodologia pode ser observada na Figura 1.9. Figura 1.9: Experimento tı́pico de RNA-seq. Inicialmente, longos RNAs são convertidos em uma biblioteca de fragmentos de cDNA através da fragmentação de RNA ou DNA. Em seguida, adaptadores de sequenciamento são adicionados a cada fragmento de cDNA e sequências pequenas são obtidas de cada cDNA utilizando uma dada tecnologia de sequenciamento de alto desempenho. Os reads obtidos são alinhados com um genoma ou transcriptoma de referência, e classificados em três tipos: exônicos, junção e poly(A) end reads. Esses três tipos são utilizados para gerar um perfil de expressão de resolução de bases para cada gene, como ilustrado no gráfico final. [Adaptada de (WANG; GERSTEIN; SNYDER, 2009)] RNA-seq oferece uma série de vantagens em relação a outros métodos. Ao contrário das abordagens baseadas em hibridização, RNA-seq não está limitado a detectar transcritos cor- respondentes a uma sequência genômica existente, tornando-o extremamente atrativo para or- ganismos não modelo, com sequências ainda a serem determinadas. Além disso, esta técnica 17 não possui um limite para quantificação, aspecto esse relacionado com as sequências obtidas. Consequentemente, ele possui um intervalo (range) de nı́veis de expressão através do qual os transcritos podem ser detectados. Seus resultados, ainda, mostram altos nı́veis de reprodutibili- dade, tanto para replicatas técnicas como biológicas (WANG; GERSTEIN; SNYDER, 2009). 1.6 Justificativa Um modo alternativo de análise de enriquecimento consiste na aplicação da Teoria da Informação de Shannon (SHANNON, 1948). A construção de comunidades celulares a partir de diferentes fenótipos com um genoma em comum é dependente de subconjuntos especı́ficos de informações herdadas e da habilidade das células em receber e processar dados do meio que as cercam. A informação ativa em uma célula é uma soma tempo-dependente de sinais intra- celulares traduzidos e/ou obtidos do meio extracelular, permitindo o controle da morfologia e demais funções das células, além de sua interação com o meio externo (GATENBY; FRIEDEN, 2002). Em uma linguagem mais simples, informação significa conhecimento e denota uma quanti- dade mensurável. Tal definição, por sua vez, implica em duas propriedades adicionais, tratando- se de uma quantidade aditiva que, na ausência de ruı́dos, é conservada. Em genética, ruı́dos podem resultar de mutações aleatórias ou variações epigenéticas, provocando uma instabili- dade genômica que ocasiona a redução da quantidade de informação transmitida. Vale ainda ressaltar que quanto maior a redundância da mensagem, menor é a quantidade de informação transportada. Redundância é uma consequência da estrutura sintática dentro do código, estando diretamente ligada à eficiência e precisão das mensagens transmitidas (KENDAL, 1990). Gatenby e Frieden (GATENBY; FRIEDEN, 2002) aplicaram a teoria de Shannon para o estudo de carcinogênese, demonstrando as interações entre eventos de mutação estocásticos e pressões de seleção ambiental, responsáveis por caracterı́sticas de fenótipos malignos. Em 2005, Castro e colaboradores (CASTRO et al., 2005) aplicaram o conceito de Shannon para uma análise citogenética de 14 tipos de tumores epiteliais, avaliando suas respectivas diversidades cariotı́picas. Em um outro trabalho de Castro e colaboradores (CASTRO et al., 2007), a mesma teoria foi aplicada com o propósito de estudar a expressão de genes ligados à 10 vias metabólicas humanas distintas, dentre elas, o mecanismo de reparo por excisão de nucleotı́deos (NER). Para tanto, foram utilizas bibliotecas SAGE (Serial Analysis of Gene Expression) de diferentes tecidos (sadios e com câncer) de diferentes órgãos. Através da função de entropia normalizada de Shannon, mediu-se a diversidade de cada uma das 10 vias presentes nas bibliotecas SAGE. 18 Em 2009, Castro e Rybarczyk-Filho desenvolveram um software chamado ViaComplex (CASTRO et al., 2009), implementando computacionalmente a teoria da informação de Shan- non com o propósito de construir mapas de expressão gênica associados à redes de interação proteı́na-proteı́na. Isso permitiu, simultaneamente, verificar como os genes de um dado con- junto relacionavam-se entre si e com os seus vizinhos mais próximos e como cada gene es- tava expresso. Além disso, o software ainda disponibilizava um módulo estatı́stico que tornava possı́vel a análise comparativa de dois conjuntos amostrais (controle versus experimento) em termos de grupos de genes funcionalmente associados (GFAGs). Os genes do conjunto eram reagrupados em subconjuntos com base em suas ontologias e vias metabólicas. Por meio do cálculo de entropia e atividade gênica, avaliava-se cada subconjunto quanto à variação da ex- pressão entre os elementos e o quanto estes estavam expressos. Aplicava-se, então, o método de bootstrap para a determinação de p-valores, a fim de identificar quais funções eram signi- ficativamente expressas dentro do espaço amostral em questão. Isso possibilitava traçar um panorama funcional do experimento, encontrando, eventualmente, grupos gênicos com elemen- tos passı́veis de um estudo individual mais detalhado. O ViaComplex, porém, quanto ao módulo estatı́stico, possui algumas limitações. Escrito na linguagem de programação FORTRAN, embora apresente uma interface amigável para o usuário, o preparo das entradas a serem processadas requerem conhecimentos adicionais por parte de quem o utiliza. É preciso, antes, criar uma tabela que contenha a relação entre funções (ontologias e termos KEGG, por exemplo) e genes da espécie de interesse. Tal tarefa, entre- tanto, nem sempre é trivial, exigindo que o usuário o acesse repositórios de dados online e elabore eventuais scripts ou programas. Para cada uma das comparações controle versus expe- rimento, entretanto, todas as etapas mencionadas precisam ser repetidas, tornando-se inviável para estudos de grande porte. É preciso, ainda, salientar que a sua criação teve como base a utilização de dados do SAGE e microarray, ficando defasado quando leva-se em conta as dife- rentes técnicas de sequenciamento existentes. Dessa forma, aproveitando o conceito de análise de enriquecimento presente neste software, podemos desenvolver uma versão mais eficiente, otimizada e atualizada em ambiente R, capaz de processar maiores volumes de dados, a par- tir de diferentes métodos de sequenciamento aplicados a diferentes espécies, com um grau de automação elevado. 19 2 Objetivos O presente trabalho tem como objetivo o desenvolvimento de um novo pacote em ambi- ente de programação R, capaz de efetuar o enriquecimento funcional de grandes quantidades de dados obtidas através de diferentes designs experimentais, como microarranjo e RNA-seq, de maneira otimizada e com elevado grau de automação. Trata-se de uma aplicação multiespécie que possibilita a busca por grupos de genes funcionalmente associados (GFAGs) significativos, relacionando ontologias (Gene Ontology) e KEGG pathways sob a perspectiva de entropia (di- versidade) e valor de expressão gênica absoluto (atividade), utilizando, para tanto, a teoria da informação de Shannon. 2.1 Objetivos Especı́ficos • Condução de uma nova análise de RNA-seq em dados de Aedes aegypti e Drosophila melanogaster utilizando o protocolo Tuxedo; • Desenvolvimento do pipeline em R; • Encontrar grupos de genes funcionalmente associados (GFAGs) significativos a partir dos resultados da análise de RNA-seq; • Realização de um benchmarking comparando a nova ferramenta com aplicativos similares disponı́veis. 20 3 Material e Métodos 3.1 Sequence Read Archive (SRA) As plataformas de sequenciamento NGS tem revolucionado a Biologia, permitindo o es- tudo de diferentes espécies e produzindo uma quantidade de dados muito superior à tecnologias como o microarranjo. Em 2009, visando ao armazenamento de tais dados, criou-se o SRA (http://www.ncbi.nlm.nih.gov/sra) (KODAMA; SHUMWAY; LEINONEN, 2012), um repósitório online público criado sob a tutela do International Nucleotide Sequence Database Collaboration (INSDC) e operado pelo National Center for Biotechnology Information (NCBI), European Bioinformatics Institute (EBI) e DNA Data Bank of Japan (DDBJ). Em meados de se- tembro de 2010, o volume de dados armazenado ultrapassava 500 bilhões de reads e 60 trilhões de pares de base, sendo a maior parcela derivada de sequenciamentos utilizando a plataforma Illumina e abrangendo, em sua grande maioria, organismos como Homos sapiens e Mus muscu- lus (LEINONEN; SUGAWARA; SHUMWAY, 2010). Os dados brutos de uma vasta quantidade de sequenciamentos NGS são disponibilizados para reutilização pelo SRA, juntamente com um conjunto de ferramentas que facilitam o download e manipulação de seus arquivos. 3.2 Conjuntos de dados brutos Para demonstrar o EntropyClusterGenes, ferramenta de enriquecimento funcional que de- senvolvemos e é apresentada com mais detalhes nos próximos tópicos, comparada, na forma de um Benchmarking à ferramentas de enriquecimento existentes, também descritas com detalhes mais adiante, optamos por conjuntos de amostras de RNA-seq de Aedes aegypti e Drosophila melanogaster obtidas a partir de dois diferentes artigos: • Aedes aegypti: – Projeto PRJNA209388 (AKBARI et al., 2013): Download via SRA. São 46 corri- das, com códigos compreendendo os intervalos SRR923822-SRR923857, SRR923736, http://www.ncbi.nlm.nih.gov/sra 21 SRR923701-SRR923705 e SRR924021-SRR924024. As bibliotecas foram prepa- radas utilizando-se ovo, larva, pupa e mosquito adulto de Aedes aegypti, tanto ma- chos como fêmeas, derivados de uma cepa originária do oeste da África. No caso de fêmeas adultas, foram utilizados carcaças e ovário. Quanto aos machos, apenas carcaça e pupa. Houve variação nos tempos de cada um dos estágios de desen- volvimento dos indivı́duos, com um mı́nimo de 2 horas e um máximo de 72 horas. Utilizou-se RNA-seq, sendo o sequenciamento dividido em paired-end e single-end. A plataforma de sequenciamento foi Illumina. • Drosophila melanogaster: – Projeto PRJNA418283 (MARXREITER; THUMMEL, 2018): Download via SRA. São 8 corridas, com códigos compreendendo o intervalo SRR6288269 - SRR6288276. As bibliotecas foram preparadas utilizando o corpo inteiro de fêmeas (4 normais e 4 mutantes) de uma semana de idade. Os indivı́duos mutantes apresentavam mutação no receptor nuclear DHR78. Utilizou-se a técnica de RNA-seq, implementada via Illumina HiSeq 50 Cycle Single Read Sequencing v3. Realizamos o download dos arquivos brutos, no formato FASTQ, disponı́veis no repositório online SRA, de forma que pudéssemos conduzir uma nova análise de RNA-seq, com um proto- colo padrão e diferente daqueles utilizados nos estudos originais. Isso proporcionou a obtenção de listas de expressão gênica, bem como relação de genes diferencialmente expressos. Foi só então a partir de tais listas que pudemos fazer o enriquecimento funcional. Cada uma das amos- tras e combinações são descritas através da Tabela A.1 e Tabela A.2, conforme Apêndice A. 3.3 Unidades para Quantificação de Dados de Expressão Em diferentes áreas da Biologia, medir a abundância de RNA em determinados organismos é de extrema importância e serve como base para uma enorme quantidade de estudos. Sendo obtidas, geralmente, a partir de tecnologias de sequenciamento de alto desempenho, como Il- lumina, tais medidas precisam ser normalizadas. Isso permite a remoção de dados incorretos ou com algum tipo de tendência, notadamente as que se referem ao comprimento de espécies de RNA e profundidade de sequenciamento de uma amostra (WAGNER; KIN; LYNCH, 2012). Visando à correção dessas inconsistências, diferentes formas de quantificação surgiram, como RPKM (Reads per Kilobase per Million Reads), FPKM (Fragments per Kilobase per Million) e TPM (Transcripts per Million). 22 Todas as três métricas tentam normalizar pela profundidade do sequenciamento e com- primento do gene. Desenvolvido especialmente para sequenciamentos do tipo RNA-seq single- end, RPKM conta o total de reads - equivalente a cada fragmento sequenciado - em uma amostra e o divide por 1 milhão. Isso normaliza pela profundidade do sequenciamento, dando origem ao “per million” (RPM). Em seguida, divide o RPM pelo comprimento do gene (em quiloba- ses), dando origem ao RPKM. O FPKM foi criado para sequenciamentos que utilizam RNA-seq paired-end, em que dois reads podem corresponder a um único fragmento ou, caso um read no par não tenha sido mapeado, 1 read pode corresponder a um único fragmento. A diferença en- tre RPKM e FPKM está simplesmente no processo de contagem. Dois reads mapeiam somente um fragmento e este fragmento não é contado duas vezes. TPM, por sua vez, diferencia-se dos métodos anteriores pela ordem das operações. Primeiro ocorre a divisão da contagem de reads pelo comprimento de cada gene em quilobases, dando origem ao RPK. Logo após, há a con- tagem de todos os RPKs na amostra, dividindo-o por 1 milhão e resultando em um fator “por milhão”. Para concluir, cada RPK é dividido por esse fator, o que nos dá o TPM (RNA-SEQ BLOG, 2015). Ao usar TPM, a soma de todos os TPMs em cada amostra é a mesma, tornando mais fácil a comparação de proporções de reads que mapeiam um gene em cada amostra. Por outro lado, com RPKM e FPKM a soma de reads normalizados nas amostras pode ser diferente, tornando mais complexa a comparação direta entre amostras (RNA-SEQ BLOG, 2015). 3.4 Protocolo Tuxedo O sequenciamento de alto rendimento de mRNA (RNA-seq) permite, em um único expe- rimento, descobrir novos genes e transcritos e mensurar a expressão destes. A quantidade de dados gerados a partir do sequenciamento de uma única amostra pode ser superior a 500 giga- bases em uma só corrida. Dessa forma, os dados gerados a partir de experimentos que utilizam RNA-seq necessitam de algoritmos robustos e eficientes para serem analisados. As ferramentas para análise de RNA-seq, normalmente, podem ser divididas em três categorias: alinhamento, montagem e quantificação de expressão. Tais categorias também podem ser interpretadas como uma sequência padrão de análise, que recebe o nome de Protocolo Tuxedo (TRAPNELL et al., 2012), composto por duas ferramentas: Tophat (TRAPNELL; PACHTER; SALZBERG, 2009) e Cufflinks (TRAPNELL et al., 2010). Tophat é um software que permite o alinhamento dos dados sequenciados com um genoma de referência. Para tanto, ele precisa de um segundo soft- ware, chamado Bowtie (LANGMEAD et al., 2009). A função do Bowtie é indexar o genoma de referência com base na transformada de Burrows-Wheeler (BWT) (BURROWS; WHEELER, 23 1994), a qual permite que grandes quantidades de dados possam ser varridas com alta eficiência e baixo uso de memória. O Cufflinks, um pacote de programas, utiliza o mapa gerado pelo Tophat para a montagem e quantificação de transcritos. O funcionamento do protocolo Tuxedo pode ser observado através da Figura 3.1. Figura 3.1: Visão global do protocolo Tuxedo. Alinhamento contra o genoma de referência e ma- peamento usando o Tophat, montagem e quantificação dos transcritos com o Cufflinks, agrupamento de dados de diferentes condições experimentais para a montagem do genoma final com o Cuffmerge, cálculo de expressão diferencial com o Cuffdiff e extração de dados e construção de gráficos de expressão com o pacote em R cummeRbund . [Figura adaptada de (TRAPNELL et al., 2012)] Uma análise de RNA-seq seguindo este protocolo baseia-se na comparação entre amostras submetidas a diferentes condições e tem o propósito de avaliar variações nos nı́veis de expressão gênica. Inicialmente, reads de diferentes amostras, submetidas a condições experimentais es- pecı́ficas e disponı́veis no formato FASTQ (formato que combina sequências e parâmetros de qualidade do sequenciamento) (COCK et al., 2010) são alinhados contra um genoma de re- ferência através do software Tophat. Este, por sua vez, gera um mapa com os reads alinhados permitindo que o Cufflinks realize a montagem dos transcritos, comparando o mapa com um arquivo de anotações no formato GTF (General Transfer Format). Os arquivos de anotações 24 armazenam informações sobre a estrutura do gene, incluindo coding sequences (CDS), exons e códons de inı́cio e parada (DORAN; CREEVEY, 2013). O Cufflinks engloba ainda dois outros programas: Cuffmerge e Cuffdiff. O primeiro é responsável por unir duas ou mais saı́das do Cufflinks, ou seja, o genoma de cada condição é montado individualmente e, para compara-los, faz-se necessário agrupa-los, gerando um genoma final. O segundo utiliza a saı́da do Cuffmerge para comparar os nı́veis de expressão de cada transcrito entre as amostras. Isso, por exemplo, permite a verificação de quais genes são positivamente ou negativamente regulados de acordo com cada condição, além de identificar aqueles que são diferencialmente expressos. Por fim, tem-se o pacote em linguagem R conhecido como cummeRbund (GOFF; TRAPNELL; KEL- LEY, 2012). Trata-se de um pacote que permite navegar por todo o conteúdo gerado pelo Cuff- diff, possibilitando a manipulação de dados estatı́sticos, utilização de filtros para obtenção de relações mais apuradas de genes, construção de diferentes modelos gráficos para a comparação dos dados sequenciados, entre outras. 3.5 Gene Ontology O termo função é vago quando aplicado a genes ou proteı́nas e é coloquialmente utilizado para descrever atividades bioquı́micas, objetivos biológicos e estrutura celular. É comum se referir à função de uma proteı́na, por exemplo a tubulina, como “GTPase” ou “constituinte de fuso mitótico”. Por essa razão, o Gene Ontology Consortium criou 3 categorias independentes de ontologias: Processos Biológicos (BP), Funções Moleculares (MF) e Componentes Celulares (CC) (ASHBURNER et al., 2000). Processos biológicos se referem a um objetivo biológico ao qual um gene ou produto gênico contribuem. Os processos normalmente estão relacionados à uma transformação fı́sica ou quı́mica, passando a idéia de que um elemento passa por um processo originando algo dife- rente. “Crescimento e manutenção celular” ou “metabolismo de pirimidina” são exemplos de termos BP. As funções moleculares podem ser definidas como sendo a atividade bioquı́mica de um produto gênico. Ela descreve apenas o que é feito, sem especificar onde ou quando o evento ocorre. Alguns exemplos são “enzima”, “ligante” e “adenilato-ciclase”. Por fim, componentes celulares indicam um local na célula onde o produto gênico está ativo e refletem nossa compre- ensão acerca da estrutura celular eucariótica. Alguns exemplos de tais termos são “ribossomo”, “proteossomo” e “membrana nuclear” (ASHBURNER et al., 2000). A relação entre um produto gênico com processos biológicos, funções moleculares e com- ponentes celulares são de um para muitos, o que reflete a realidade biológica na qual uma dada 25 proteı́na funciona em diversos processos, contém diferentes domı́nios e desempenha diferentes funções moleculares. Além disso, participam de múltiplas interações alternativas com outras proteı́nas, organelas ou localizações especı́ficas na célula (ASHBURNER et al., 2000). Os ter- mos, ainda, possuem uma relação pai-filho, em que o termo filho sempre é mais especı́fico que o pai, sendo estruturados na forma de um gráfico acı́clico direto (DAG) (GENTLEMAN, 2016). Através dele, um conjunto de genes anotados para um certo termo - ou um nodo - é um subconjunto daqueles anotados para os termos pais (GOEMAN; MANSMANN, 2008). Em um gráfico acı́clico direto, nunca um mesmo nodo será visitado duas vezes. Ele apresenta uma topologia ordenada em que o nodo inicial possui valor inferior ao nodo subsequente - no caso de ontologias, entendemos os valores como especifidade. Um exemplo desse gráfico pode ser visto por meio da Figura 3.2. Figura 3.2: Gráfico acı́clico direto (DAG), tendo como exemplo o termo GO:0006508. “Pais” se re- ferem à nodos próximos da raiz do gráfico, ao passo que “filhos” são nodos mais próximos às extre- midades. [Figura adaptada de https://www.ebi.ac.uk/QuickGO/term/GO:0006508. Acesso em 09/10/2017.] https://www.ebi.ac.uk/QuickGO/term/GO:0006508 26 As relações pai-filho podem ser “is-a”, onde o termo filho é mais especı́fico que o pai, “has- a” ou “part-of ”, em que o filho é parte do pai, como, por exemplo, o telômero sendo parte de um cromossomo. Outras relações ainda encontradas são “regulates”, “negatively regulates” e “po- sitively regulates” (http://www.geneontology.org/page/ontology-relations. Acesso em 10/10/2017). Um exemplo pode ser visto na Figura 3.3. Figura 3.3: Relação entre termos GO (A, B e C). As setas indicam a direção da relação. Linhas pontilha- das representam um relacionamento de inferência. [Figura adaptada de http://www.geneontology. org/page/ontology-relations. Acesso em 10/10/2017.] Mapear um gene a um termo pode ser baseado em diferentes caracterı́sticas. Existe um conjunto de códigos de evidência, conforme Tabela 3.1. Isso permite que o pesquisador, even- tualmente, deixe de utilizar genes ligados a determinadas evidências, podendo escolher as que melhor lhe atendem (CARLSON, 2017). Tabela 3.1: Códigos de evidência de ontologias. IMP inferred from mutant phenotype inferido de fenótipo mutante IGI inferred from genetic interaction inferido de interação genética IPI inferred from physical interaction inferido de interação fı́sica ISS inferred from sequence similarity inferido de sequência similar IDA infererred from direct assay inferido de análise direta IEP inferred from expression pattern inferido de padrão de expressão IEA inferred from electronic annotation inferido de anotação eletrônica TAS traceable author statement declaração de autoria rastreável NAS non-traceable author statement declaração de autoria não rastreável ND no biological data available sem dados biológicos disponı́veis IC inferred by curator inferido por curador Fonte: Tabela modificada de (CARLSON, 2017). As ontologias, também chamadas de GO terms, são divididas, ainda, em quatro classes: pa- rents (pais), ancestor (ancestrais), children (filhos) e offspring (descendentes). Para cada termo existe um nı́vel hierárquico. É possı́vel saber exatamente como cada ontologia está conectada às demais. Vale ainda ressaltar que o nome de cada termo é composto pelas iniciais GO seguidas de “ : ” e 7 dı́gitos como, por exemplo, GO:0000587 e GO:0089578. http://www.geneontology.org/page/ontology-relations http://www.geneontology.org/page/ontology-relations http://www.geneontology.org/page/ontology-relations 27 3.6 KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG é uma base de dados online que possibilita o estudo e compreensão de funções e sistemas biológicos como células, organismos e ecossistemas a partir de dados genômicos e moleculares. Trata-se de uma representação de biologia de sistemas e tem como propósito a construção de blocos de genes, proteı́nas e substâncias quı́micas - informações genômicas e quı́micas, portanto - integradas a diagramas de interação escritos, reações e relacionamento com redes. Possui, ainda, informações acerca de doenças e drogas, assim como perturbações do sistema biológico como um todo (KEGG, 2017). Um esquema ilustrativo pode ser obser- vado a partir da Figura 3.4. O banco de dados KEGG foi desenvolvido em 1995 pelo Kanehisa Laboratories, tornando-se referência na integração e interpretação de grandes conjuntos de da- dos originados do sequenciamento de genomas e outros experimentos com tecnologias de alto desempenho. Figura 3.4: Overview da base de dados KEGG, mostrando o conteúdo de entrada e o que pode ser obtido através dele. [Figura adaptada de http://www.genome.jp/kegg/kegg1a.html. Acesso em 13/10/2017.] Um dos módulos mais bem organizados no KEGG é a base de metabolismo, representada através de diagramas com vias metabólicas referenciadas. Cada referência pode ser visuali- zada como uma rede de enzimas ou EC numbers (Enzyme Commission numbers, esquema de classificação numérica para enzimas, relacionando os genes em genoma, juntamente com seus produtos gênicos, a uma via metabólica) (KANEHISA; GOTO, 2000). Um exemplo de dia- grama pode ser visto na Figura 3.5. Os genes enzimáticos são identificados com base no genoma, por meio de similaridade de sequências e posicionamento correlacional dos genes. Logo após, são definidos os EC numbers e, então, rotas metabólicas para organismos especı́ficos são construı́dos computacionalmente. Algumas rotas metabólicas são bem conservadas entre a maioria dos organismos - de mamı́feros http://www.genome.jp/kegg/kegg1a.html 28 à bactérias. Com isso, é possı́vel desenhar manualmente uma rota e, então, utiliza-la para diferentes espécies (KANEHISA; GOTO, 2000). Figura 3.5: Exemplo de diagrama de vias metabólicas. Diferentes cores representam diferentes vias metabólicas com seus respectivos componentes (pontos).[Fonte: http: //www.genome.jp/kegg-bin/show_pathway?scale=1.0&query=&map=aag01100&scale= 0.35&auto_image=&show_description=hide&multi_query=&show_module_list=. Acesso em 13/10/2017.] http://www.genome.jp/kegg-bin/show_pathway?scale=1.0&query=&map=aag01100&scale=0.35&auto_image=&show_description=hide&multi_query=&show_module_list= http://www.genome.jp/kegg-bin/show_pathway?scale=1.0&query=&map=aag01100&scale=0.35&auto_image=&show_description=hide&multi_query=&show_module_list= http://www.genome.jp/kegg-bin/show_pathway?scale=1.0&query=&map=aag01100&scale=0.35&auto_image=&show_description=hide&multi_query=&show_module_list= 29 Dados e conhecimento quanto aos sistemas moleculares que gerenciam processos celulares e o comportamento de organismos são coletados de forma manual a partir da literatura dis- ponı́vel, dando origem aos mapas metabólicos. Estes representam o conhecimento relacionado a diversas redes moleculares, como redes de interação/reação para metabolismo, processamento de informações genéticas, processamento de informações ambientais e outros processos celula- res, redes perturbadas de interação/reação para doenças humanas e redes de transformação de estrutura quı́mica para o desenvolvimento de drogas (KANEHISA et al., 2009). 3.7 EntropyClusterGenes Com base no módulo estatı́stico do software ViaComplex (CASTRO et al., 2009), desenvol- vemos um pacote em linguagem de programação R capaz de agrupar os genes de duas amostras comparativas de maneira funcional, identificando os grupos significativos com base em um va- lor de corte estabelecido pelo usuário. Uma visão global acerca do seu funcionamento é descrita pela Figura 3.6. A entrada de dados consiste em um arquivo texto de, no mı́nimo, 3 colunas, conforme a Tabela B.1, presente no Apêndice B. A primeira refere-se aos nomes dos genes, devendo estes utilizarem a nomenclatura Entrez ID ou Gene Symbol, enquanto as demais contêm os valores de expressão de cada uma das amostras envolvidas na análise. O nome de cada uma dessas colunas funciona como identificador único amostral. Como se tratam de análises comparativas (controle vs experimento), utiliza-se, como argumento, um vetor de comparações, em que cada elemento se refere ao nome de duas colunas ligadas a duas amostras, separadas, por exemplo, por uma vı́rgula ou um hı́fen (o usuário indica o separador). O EntropyClusterGenes trabalha com múltiplas espécies, permitindo a utilização de paco- tes de dados de espécies, presentes no repositório online Bioconductor (GENTLEMAN et al., 2004), ou, caso não exista um pacote, o usuário pode montar tabelas auxiliares relacionando ontologias e vias metabólicas com os genes da espécie de interesse. O Aedes aegypti não possui pacote de dados associado. Dessa forma, com o auxilio dos pacotes GO.db (CARLSON, 2013) e biomaRt (DURINCK et al., 2005; DURINCK et al., 2009), além do repositório online KEGG, construı́mos uma base especı́fica para essa espécie. 30 Figura 3.6: Workflow do pacote EntropyclusterGenes. A primeira coluna, à esquerda, representa os módulos principais, enquanto a segunda coluna apresenta quadros explicando brevemente cada um dos módulos. Com a relação entre genes e seus papéis biológicos estabelecida, reagrupamos os dados ini- ciais em GFAGs (Group of Functionally Associated Genes), estabelecendo diferentes grupos de genes associados entre si por um processo BP, função MF, componente CC ou KEGG pathway. Para cada grupo, afim de obter uma expressão quantitativa quanto à distribuição das amostras, conforme (CASTRO et al., 2007), medimos a informação do conjunto utilizando a Teoria da Informação de Shannon. O cálculo foi realizado da seguinte forma: Seja M o número de genes em um dado grupo α (α = 1, ...,N). Para um dado grupo, é possı́vel definir S(i,α) como sendo o sinal de um dado gene i,(i = 1, ...,Mα ), cuja a soma para um dado α vai até Nα . A contribuição p(i,α) do sinal do gene i para o sinal total do α-GFAG 31 é: p(i,α) = S(i,α) Nα (3.1) de maneira que ao somarmos todos os p(i,α) teremos o somatório igual a 1. A função entropia normalizada Hα , aqui chamada de diversidade, é definida por: Hα = ∑ Nα i=1 p(i,α) ln p(i,α) ln(Mα) (3.2) onde dividimos todos os termos pelo fator de normalização ln(Mα) para garantir que 0 ≤ Hα ≤ 1. Desta maneira poderemos comparar diferentes GFAGs que podem apresentar diferentes números de genes. Finalmente, para normalizar as quantidades por grupos de genes tendo como referência o sinal de algum controle, definimos a diversidade relativa hα para um dado GFAG como: hα = He α He α +Hγ α (3.3) onde He α e Hγ α são, respectivamente, a diversidade induzida pelo estı́mulo e pelo controle. Ob- serve que 0 ≤ hα ≤ 1 , e hα < 0.5 implicam He α < Hγ α , isto é, a distribuição do sinal dos genes no α-ésimo GFAG é mais estreita para o estı́mulo do que para o controle, enquanto que hα > 0.5 representa o caso inverso. Em analogia, a atividade de expressão gênica relativa do α-GFAG é definida como nα = Ne α Ne α +Nγ α (3.4) onde Ne α e Nγ α são respectivamente, a expressão da atividade gênica induzida pelo estı́mulo e pelo controle. Novamente 0 ≤ nα ≤ 1, e nα < 0.5 implica Ne α < Nγ α , isto é, neste GFAG o estı́mulo induz uma atividade de sinal que é menor do que a induzida pelo controle. Esta análise permite correlacionar os grupos de genes funcionalmente associados e suas funções em cada amostra. Definido os valores de atividade e diversidade, partimos agora para uma amostragem dos dados utilizando bootstrap. De acordo com os grupos funcionais formados, a partir das amos- tras iniciais criamos conjuntos de genes aleatórios com o mesmo tamanho dos conjuntos inici- ais. Para cada novo conjunto, calculamos novamente atividade e diversidade, comparando-as 32 com às do grupo original. Tal processo, para cada grupo, é repetido um determinado numero de vezes, número este maior que zero e definido pelo usuário. Este processo tem como objetivo estabelecer um p-valor para o conjunto gênico, o qual, através do método estatı́stico BH (Ben- jamini - Hochberg), é corrigido por um FDR (False Discovery Rate) padrão de 0.05 - ou um outro também estabelecido pelo usuário. Essa correção leva a um q-valor que, estando abaixo do FDR, indica que o grupo é significativo no contexto da comparação amostral. Um exem- plo de arquivos de saı́da, apresentando os resultados, podem ser observados pela Tabela B.2 e Tabela B.3, presentes no Apêndice B. Além da análise de diversidade e atividade, via bootstrap, o EntropyClusterGenes oferece uma análise de significância de GFAGs através de dois outros testes estatı́sticos: teste Wilcoxon rank-sum e teste exato de Fisher. Ambos são opcionais - podendo ou não serem realizados - e também retornam um p-valor, corrigido posteriormente por FDR, indicando se o GFAG é ou não significativo dentro de um valor de corte preestabelecido. Por fim, o EntropyClusterGenes apresenta um módulo gráfico que permite uma análise individual de ontologias ou pathways, relacionando-as aos seus respectivos genes. A partir de um gráfico, é possı́vel verificar quais genes pertencentes a um determinado grupo são up ou down regulados e quais deles são eventualmente significativamente expressos. Para tanto, além do resultado gerado pela nova ferramenta, o módulo gráfico necessita de um arquivo contendo os valores de expressão gênica relacionados à comparação (controle vs experimento), bem como os q-valores e logFC (fold change) de cada um deles. 3.8 Ferramentas de Enriquecimento Funcional para Bench- marking Com o propósito de validar o EntropyClusterGenes, além de compararmos seus resulta- dos com os resultados dos artigos referentes a cada uma das amostras de RNA-seq utilizadas, analisamos os mesmos conjuntos de dados utilizando outras três ferramentas de enriquecimento funcional, comparando todos os seus respectivos outputs com os da nova ferramenta. Para tanto, como critérios de seleção, optamos, exclusivamente, por pacotes desenvolvidos em linguagem de programação R e que utilizassem o método GSEA para análise funcional, caracterı́sticas essas presentes, também, no EntropyClusterGenes. 33 3.8.1 clusterProfiler A análise de grandes quantidades de dados requer o desenvolvimento de ferramentas de mineração de dados para a captura de informações biológicas. Uma abordagem comum con- siste na clusterização gênica, agrupando diferentes genes com base em suas similaridades, como padrão de expressão e estrutura de redes proteicas. A análise de clusters (grupos) gênicos é utili- zada para revelar padrões ocultos, como a busca por promotores ou reguladores compartilhados, classificação de processos biológicos, predição de novos genes ou genes não tão bem caracte- rizados e detecção de comunidades de proteı́nas. Uma outra forma de procurar por funções compartilhadas é a incorporação de conhecimentos biológicos através de ontologias. Gene Ontology (GO), capaz de associar genes a processos biológicos, funções moleculares e compo- nentes celulares por meio de uma estrutura gráfica acı́clica, Kyoto Encyclopedia of Genes and Genomes (KEGG), que relaciona genes à vias metabólicas, e Disease Ontology (DO), base de dados responsável por fazer a ligação entre genes e doenças humanas. Para tanto, surge clusteR- profiler, um pacote desenvolvido em linguagem R e que possibilita a análise estatı́stica de GO e KEGG através da comparação de temas biológicos entre grupos gênicos (YU et al., 2012). O pacote oferece um método de classificação gênica - groupGO - para identificar genes baseado em nı́veis especı́ficos de GOs, além de funções como enrichGO e enrichKEGG para realizar o teste de enriquecimento para termos GO e vias KEGG, baseado em uma distribuição hipergeométrica. Para evitar uma elevada taxa de falsos positivos em múltiplos testes, q-valores são estimados por meio de um controle via FDR (False Discovery Rate). Além disso, clus- terProfiler ainda possui uma função - compareCluster - que, automaticamente, calcula catego- rias funcionais enriquecidas referentes à cada grupo gênico, e dispõe de vários métodos para a visualização dos resultados. Para o seu funcionamento, pacotes auxiliares são necessários. GO.db e KEGG.db para o relacionamento com KEGGs e GOs, e algumas bases de dados es- pecı́ficas para o organismo em estudo, como org.Hs.eg.db (Homo sapiens) e org.Mm.eg.db (Mus musculus) (YU et al., 2012). 3.8.2 Gene set variation analysis for microarray and RNA-Seq data (GSVA) Para facilitar a análise de enriquecimento funcional tipo GSEA, foi desenvolvido, em lin- guagem de programação R, o Gene Set Variation Analysis (GSVA), o qual permite a avaliação da variação da atividade de pathways subjacentes transformando uma matriz “gene versus amos- tras” em uma matriz “conjunto de genes versus amostras” sem um conhecimento prévio do design experimental. O método é não-paramétrico e sem supervisão, e ignora a abordagem 34 convencional de fenótipos de modelagem explı́cita dentro de algoritmos de enriquecimento com score. O foco é então substituı́do por um enriquecimento relativo de pathways através do espaço amostral ao invés de enriquecimento absoluto relacionado a um fenótipo. Um ponto positivo desta abordagem é que ela possibilita o uso de métodos analı́ticos tradicionais como classificação, análise de sobrevivência, clusterização e análise de correlação em uma dada via (pathway). Ela também facilita comparações amostrais entre vias e outros tipos de dados com- plexos tais como expressão de microRNA ou “binding data”. Contudo, para experimentos caso-controle ou dados com um tamanho amostral moderado (inferior a 30), outros métodos de enriquecimento de conjunto de genes que incluem explicitamente um fenótipo em seus mode- los disponibilizam maior poder estatı́stico para detectar enriquecimento funcional (HÄNZEL- MANN; CASTELO; GUINNEY, 2013). A ferramenta parte de uma matriz de entrada em que as linhas representam os genes e as colunas representam as amostras. A saı́da será uma matriz na qual as linhas representam um conjunto de genes funcionalmente associados e as colunas indicam as amostras. Cada conjunto gênico dentro de uma dada amostra é ranqueado de acordo com sua significância, ou seja, a cada grupo é atribuı́do um peso (score) (HÄNZELMANN; CASTELO; GUINNEY, 2013). 3.8.3 GAGE: Generally Applicable Gene-set Enrichment GAGE é um método desenvolvido em R e que pode ser aplicado a datasets com diferentes números de amostras, sendo baseado em um processo de randomização gênica paramétrica com a utilização de log fold change conforme os genes presentes. É capaz de realizar ajustes para di- ferentes designs experimentais e tamanhos amostrais através da decomposição de comparações grupo a grupo em comparações um a um entre amostras de diferentes grupos, funcionando tanto para experimentos de microarranjo quanto RNA-seq. Com base nos p-valores obtidos a partir de tais comparações, calcula-se um p-valor global, para cada conjunto gênico, usando-se um meta teste (LUO et al., 2009). 3.9 Hipóteses e p-valores A abordagem tradicional para tornar válidas alguns tipos de inferência tem sido estabelecer uma questão a ser respondida na forma de duas hipóteses estatı́sticas contrastantes. A primeira, representando a inexistência de diferenças entre os parâmetros populacionais de interesse, é chamada de hipótese nula H0, enquanto a segunda recebe o nome de hipótese alternativa, re- presentada por H1 . Um teste estatı́stico é realizado a partir de dados amostrais e comparado à 35 hipótese nula com o intuito de avaliar a consistência dos dados com H0. A obtenção de valores mais extremos a partir do teste sugerem que os dados amostrais não são consistentes com H0 (ANDERSON; BURNHAM; THOMPSON, 2000). O p-valor é uma medida de discrepância do ajuste de um modelo ou hipótese nula para um certo conjunto de dados X. Trata-se, na teoria, de uma medida contı́nua de evidência que, na prática, resume-se à evidência forte, fraca ou sem evidência (altamente significante, margi- nalmente significante ou sem significância estatı́stica), com pontos de corte de acordo (cutoffs) com o pesquisador (GELMAN, 2013). P-valores são normalmente usados para testar uma H0, a qual, geralmente, afirma que não há diferença entre dois grupos ou que não existe correlação entre duas determinadas caracterı́stica. Quanto menor o p-valor, menor a probabilidade de que um conjunto de dados observado tenha ocorrido ao acaso, garantindo a veracidade da hipótese nula. Um p-valor de 0.05 ou menos, normalmente, leva a acreditar na autenticidade da signi- ficância estatı́stica obtida. No entanto, recentemente, a Associação Americana de Estatı́stica (ASA) alertou sobre o perigo de tal prerrogativa. Um p-valor de 0.05 não significa que há uma chance de 95% de que uma dada hipótese esteja correta. Ao invés disso, ela mostra que se um hipótese nula é verdadeira, e todas as outras suposições feitas são válidas, existe 5% de chance de se obter um resultado incoerente com H0 (BAKER et al., 2016). 3.10 FDR: False Discovery Rate A quantidade de dados gerados pela comunidade cientı́fica tem aumentado consideravel- mente ao longo dos últimos anos. As pesquisas por trás desse aumento, normalmente, envol- vem tentativas de inferir conclusões por meio de vários testes de hipóteses. Os pesquisadores, tipicamente, são levados a realizarem ajustes de significância com o intuito de reduzirem a pro- babilidade de resultados falso positivos. Tais ajustes destinam-se a controlar taxas de erro e reduzir as chances de rejeitar incorretamente hipóteses nulas verdadeiras. No entanto, a des- vantagem em fazer uso de tais técnicas consiste na perda de poder em detectar efeitos reais. Visando reduzir esse problema, surge, então, o método False Discovery Rate (FDR). O FDR é a probabilidade de que uma hipótese nula seja verdadeira dado que esta tenha sido rejeitada (GLICKMAN; RAO; SCHULTZ, 2014). As tecnologias NGS mais recentes permitem aos pesquisadores executarem varreduras em genomas e monitorar os nı́veis de expressão de milhares de genes simultaneamente. O problema do teste de múltiplas hipóteses surge quando são comparados um grande número de genes entre diferentes grupos, por exemplo, pacientes com câncer de mama vs pacientes saudáveis. Nesse 36 contexto, o método de Bonferroni se torna conservativo e de baixo poder. Diante de tal situação, a melhor alternativa é o uso de FDR, o qual leva em conta a proporção de falsos positivos entre as hipóteses rejeitadas. Existe, atualmente, diferentes software e pacotes que aplicam a técnica. Basicamente é fornecido como entrada um conjunto de p-valores referentes à diferentes genes ou conjuntos gênicos, tendo, como saı́da, os correspondentes q-valores (p-valores corrigidos). Isso permite, então, identificar os q-valores significativos, que são aqueles menores ou iguais a um determinado valor (normalmente, 0.05). Caso exista, por exemplo, um total de N genes identificados como significantes pelo FDR, a maioria dos pesquisadores considerariam que o número de genes falso positivos não seria superior ao produto entre o corte estabelecido (0.05, por exemplo) e N (LIN; LEE, 2015). 3.11 Bootstrap Introduzido em 1977, o termo Bootstrap (EFRON, 1979) faz referência a um método ou técnica de simulação cujo propósito consiste em obter intervalos de confiança de forma que de- terminados parâmetros de interesse possam ser estimados através da reamostragem do conjunto original de dados (MARTINEZ-ESPINOSA; SANDANIELO; LOUZADA-NETO, 2006). O método, ainda, é capaz de obter, com qualidade, estimativas dos erros padrão consequentes de estimativas de parâmetros ligados às iterações de reamostroagem (LEPAGE; BILLARD, 1992), além de permitir encontrar p-valores para testes estatı́sticos com base em uma hipótese nula (BOOS et al., 2003). A Figura 3.7 ilustra o funcionamento clássico de um bootstrap de amostra única, modelo aplicado no desenvolvimento do módulo estatı́stico da ferramenta EntropyClus- terGenes, a qual ainda descreveremos neste capı́tulo. Para melhor compreender o Bootstrap, é preciso lembrar que um modelo estatı́stico é, ba- sicamente, um conjunto de distribuições de probabilidades com o propósito de descrever o real estado da natureza e os dados aleatórios disponı́veis relacionados à compreensão desse es- tado. Com isso, é possı́vel afirmar que a inferência estatı́stica está na escolha de uma dessas distribuições, dando uma noção da incerteza sobre ela. Fazemos inferências sobre populações desconhecidas, representadas por modelos estatı́sticos, a partir de dados de amostragem. O de- sign da verdadeira amostragem de dados é reproduzida o mais fiel possı́vel, enquanto aspectos desconhecidos do modelo são substituı́dos por estimativas amostrais (BOOS et al., 2003). 37 Figura 3.7: Esquema básico do funcionamento de um bootstrap em um contexto biológico. Partimos de um conjunto de genes com os seus respectivos valores de expressão (1). Em seguida, o conjunto é reagrupado em subgrupos (2) que segregam os genes de acordo com suas ontologias, em que um gene pode estar presente em mais de um subgrupo. Cada subgrupo (3) apresenta uma determinada quantidade de genes, a qual servirá como parâmetro para a reamostragem aleatória (4) com reposição a partir do conjunto inicial gênico. Após a reamostragem (5), tem-se, então as estimativas desejadas, como, por exemplo, p-valores. 3.12 Teste Wilcoxon rank-sum A comparação entre duas amostras geralmente se divide em duas categorias: (i) podemos ter um determinado número de réplicas para cada uma das amostras, as quais seriam não-pareadas ou (ii) dispomos de uma quantidade de comparações pareadas que levam a diferenças cujos valores podem ser positivos ou negativos. Frank Wilcoxon (WILCOXON, 1945) propôs um método que permitia a utilização de rankings, em que scores (1, 2, 3, ..., n) eram substituı́dos 38 por dados numéricos reais de forma que, rapidamente, uma ideia aproximada da significância das diferenças em experimentos pudesse ser obtida. Para duas amostras independentes, uma das variações da metodologia de Wilcoxon é o teste rank-sum (Wilcoxon rank-sum test). Neste tipo de teste, os dados de ambas as amostras são com- binados e ranqueados, sendo, na sequência, separados, mas mantendo-se o ranking de cada uma das observações. A hipótese nula comum (H0) é que ambas as amostras pertencem a populações idênticas, ao passo que a hipótese alternativa (H1) afirma que as populações diferem quanto à média ou mediana. Caso as amostras tenham como origem a mesma população, espera-se uma mistura de ranks altos, médios e baixos em cada uma das amostras. Entretanto, considerando- se que (H1) seja satisfeita, espera-se que ranks baixos dominem uma das populações enquanto valores elevados predominem na outra. Ao compararmos, por exemplo, um grupo de pacien- tes tratados com uma determinada dose de um certo medicamento e um grupo, tratado com o mesmo medicamento, porém com um dose diferente, a mudança de centralidade observada com a satisfação de (H1) frequentemente se refere a um efeito aditivo do tratamento, ou seja, existe uma diferença constante entre os tratamentos (SPRENT; SMEETON, 2000). A função wilcox.test, pertencente ao pacote stats, versão 3.6, da linguagem de programação R, permite a aplicação do teste de Wilcoxon para duas amostras pareadas ou não-pareadas. Os dados de cada amostra são armazenados em vetores numéricos finitos. Um argumento lógico (Verdadeiro ou Falso) indica se o teste será ou não pareado. Como resultado, um p-valor é retornado, indicando a significância do teste. 3.13 Teste Exato de Fisher Proposto por Ronald Aylmer Fisher, o teste Exato de Fisher (FISHER, 1934) é um teste de independência em oposição a associação em tabelas de contingência 2x2, utilizado quando se dispõe de duas variáveis nominais e desejamos saber se as proporções de uma variável são diferentes entre os valores de outra. Uma situação tı́pica para o uso dessas tabelas é quando temos contagens de indivı́duos categorizada de forma dicotômica como, por exemplo, tipos de tratamento (uso da droga A ou B) e as respostas em função de cada um deles (melhora da condição clı́nica do paciente ou condição inalterada) (SPRENT, 2011). Um exemplo pode ser observado através de Tabela 3.2. 39 Tabela 3.2: Exemplo de tabela de contingência para o teste exato de Fisher. Sob a hipótese de independência, se considerarmos os totais marginais da tabela como fixos, a distribuição de números na primeira célula (ou outra célula qualquer) apresenta uma distribuição hiper- geométrica sob independência para qualquer modelo que esteja associado à tabela. As respos- tas à cada droga são binomialmente distribuı́das com um valor em comum para o parâmetro p (probabilidade de sucesso). Melhora Sem Melhora TOTAL Droga A 8 1 9 Droga B 3 9 12 TOTAL 11 10 21 Fonte: Tabela modificada de (SPRENT, 2011), página 525. Segundo Fisher, sob a hipótese de independência, se considerarmos os totais marginais da tabela como fixos, a distribuição de números na primeira célula (ou outra célula qualquer) apre- senta uma distribuição hipergeométrica sob independência para qualquer modelo que esteja associado à tabela. As respostas à cada droga, como na Tabela 3.2, são binomialmente dis- tribuı́das com um valor em comum para o parâmetro p (probabilidade de sucesso) (SPRENT, 2011). Se uma tabela de contingência apresenta entradas ni,j (i,j = 1, 2), com o total das linhas ni+, total das colunas n+j e o total de entrada das 4 células como n, a distribuição hipergeométrica apresenta probabilidade associada conforme Equação 3.5. (n1+)!(n2+)!(n+1)!(n+2)! (n11)!(n12)!(n21)!(n22)!n! (3.5) Para a execução do teste, é preciso calcular todas as probabilidades para todos os possı́veis n11 consistentes com os totais marginais fixos e computar um p-valor como sendo a soma de tais probabilidades que sejam menores ou iguais à aquele associado com a configuração observada (SPRENT, 2011). O teste exato de Fisher pode ser calculado através da função fisher.test, pertencente ao pacote stats, versão 3.6, da linguagem de programação R. Para tanto, basta fornecer como parâmetro uma matriz de contingência de de dimensões 2x2 tendo, como resultado, um p-valor mostrando a significância do teste. 40 4 Resultados e Discussão 4.1 Desempenho Uma das principais caracterı́sticas relacionadas à automação do EntropyC