UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO" INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA José Rafael Pilan Desenvolvimento de ferramentas de biologia de sistemas para avaliação de dados transcriptômicos Botucatu, setembro de 2022 UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO" INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA José Rafael Pilan Desenvolvimento de ferramentas de biologia de sistemas para avaliação de dados de transcriptômicos Tese de Doutorado apresentada ao Insti- tuto de Biociências, Campus de Botucatu, UNESP, em preenchimento dos requisitos para a obtenção do título de Doutor no Pro- grama de Pós-Graduação em Biotecnologia Área de Concentração: Biotecnologia Orientador: Prof. Dr. José Luiz Rybarczyk Filho Botucatu, setembro de 2022 Palavras-chave: Biotecnologia; Computação; Dados de expressão; Proteínas; Redes. Pilan, José Rafael. Desenvolvimento de ferramentas de biologia de sistemas para avaliação de dados de transcriptômicos / José Rafael Pilan. - Botucatu, 2022 Tese (doutorado) - Universidade Estadual Paulista "Júlio de Mesquita Filho", Instituto de Biociências de Botucatu Orientador: José Luiz Rybarczyk Filho Capes: 90400003 1. Biotecnologia. 2. Computação. 3. Proteínas. 4. Dados de expressão. 5. Biologia. DIVISÃO TÉCNICA DE BIBLIOTECA E DOCUMENTAÇÃO - CÂMPUS DE BOTUCATU - UNESP BIBLIOTECÁRIA RESPONSÁVEL: ROSEMEIRE APARECIDA VICENTE-CRB 8/5651 FICHA CATALOGRÁFICA ELABORADA PELA SEÇÃO TÉC. AQUIS. TRATAMENTO DA INFORM. Agradecimentos • Ao CNPq por utilizarmos os recursos computacionais referentes aos processos 458810/2013- 4 e 473789/2013-2; • Ao Professor Dr. José Luiz Rybarczyk Filho pela orientação e auxilio; • À toda minha família, principalmente meu pai José Carlos, minha mãe Maria Aparecida, meu irmão César e minha irmã Elaine pelo apoio e incentivo que foram fundamentais para a conclusão desse trabalho; • Aos meus filhos Miguel e Marina por serem minha motivação diária em sempre buscar fazer o meu melhor; • Aos meus amigos André Luiz Molan e Giordano Bruno Sanches Seco por toda a ajuda e motivação; • À pós-graduação em Biotecnologia do Instituto de Biociências da Unesp de Botucatu e ao seu coordenador Prof. Dr. Valber de Albuquerque Pedrosa representando todos os docentes do programa; • Aos demais colegas do departamento de Física e Biofísica e do Instituto de Biociências, professores e funcionários que de alguma forma tenham contribuído para a realização deste trabalho. Resumo A cada dia são desenvolvidos novas metodologias e equipamentos que proporcionam maior fa- cilidade para a elucidação dos RNAs transcritos em situações específicas nos mais diferentes organismos. O que essas metodologias e equipamentos possuem em comum é o enorme volume de dados que podem gerar em cada execução. Devido a grande quantidade de tecnologias que estão surgindo para geração de dados de sequenciamento e expressão gênica precisamos de fer- ramentas que permitam o estudo e análise integrada dos diferentes dados advindos dos resultado desses experimentos. Nesse trabalho propomos a integração das funções do transcriptograma com uma ferramenta desenvolvida para visualização de dados de expressão sobreposto a uma rede biológica gerando como resultado final um pacote para execução no layout de dashboard das ferramentas citadas. O pacote foi desenvolvido utilizando a linguagem de programação R em conjunto com as linguagens C e C++ e disponibilizado para o ambiente R. Para validar a ferramenta utilizaremos dados de expressão gênica de amostras de pulmão obtidas das tecno- logias de sequenciamento microarranjo e Single-Cell RNA. Como resultados a ferramenta levi (Landscape Expression Visualization Interface) está disponível para download em um dos prin- cipais repositórios onlines de ferramentas de bioinformática, o Bioconductor. A integraccão das ferramentas do transcriptograma foram adicionadas ao dashboard e para validarmos a aplicacão realizamos o workflow do trancriptograma em dados de microarranjo e RNA-seq de amostras de pessoas com e sem adenocarcinoma de pulmão. Os resultados indicam uma maior acurácia na utilizacão da ferramenta rTranscriptograma tanto para dados de microarranjo como para dados de RNA-seq. Abstract Every day new equipment are developed that provide greater facility for elucidating the RNAs transcribed in specific situations in the most different organisms. What these methodologies and equipment have in common is the large volume of data that they can generate in each exe- cution. Due to the great amount of technologies that are emerging to generate sequencing and gene expression data, we need tools that allow the study and integrated analysis of the different data resulting from the results of these experiments. In this work we propose the integration of the functions of the transcriptogram with a tool to be developed for visualization of expres- sion data superimposed on a biological network, resulting in a package for the execution of the mentioned tools in the final result. The package was developed using the R programming language together with C and C++ languages and made available to the R environment. To validade the tool we will use gene expression data from lung samples obtained from microarray and Single-Cell RNA sequencing Technologies. As a result the levi tool (Landscape Expression Visualization Interface) is available for download in one of the main online respositories of bi- oinformatics tools, the Bioconductor. The integration of transcriptogram tools has been added to the dashboard and to validate the application, we performed the transcriptogram workflow on microarray data and RNA-seq from samples from people with and without lung adenocarci- noma. The results indicate a greater accuracy in the use of the rTrancriptogram tool both from microarray and RNA-seq data. Lista de Figuras 2.1 6 "V"s do Big Data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 4 2.2 Biologia de Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5 2.3 Métodos de análises em Biologia de Sistemas . . . . . . . . . . . . . . . . . p. 7 2.4 Affymetrix GeneChip - Microarranjo de oligonucleotídeos. . . . . . . . . . . p. 9 2.5 Roche NimbleGen - Microarranjo de oligonucleotídeos. . . . . . . . . . . . . p. 10 2.6 Agilent - Microarranjo de oligonucleotídeos. . . . . . . . . . . . . . . . . . . p. 11 2.7 Visão geral de um pipeline para RNA-seq . . . . . . . . . . . . . . . . . . . p. 12 2.8 Tecnologia de sequênciamento de Sanger. . . . . . . . . . . . . . . . . . . . p. 14 2.9 Estratégias de imobilização de templates utilizada pela Applied Biosystems. . p. 15 2.10 Estratégia de amplificação por fase sólida usada pelos equipamentos da Ilumina. p. 16 2.11 Estratégia de fixação da polimerase no suporte utilizada pela Pacific Biosci- ences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 2.12 Isolamento de Single Cell e preparação da biblioteca. . . . . . . . . . . . . . p. 19 2.13 Exemplo de rede direcionada e não-direcionada. . . . . . . . . . . . . . . . . p. 23 2.14 Exemplos de tipos de grafos . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23 2.15 Principais modelos de redes . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26 4.1 Workflow com as etapas do projeto . . . . . . . . . . . . . . . . . . . . . . . p. 31 4.2 Workflow levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 4.3 Transformação da rede em matriz de adjacência . . . . . . . . . . . . . . . . p. 38 4.4 Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 39 4.5 Proximidade dos vizinhos em relação ao elemento central na matriz de adja- cência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 4.6 Representação de cinco possíveis distâncias do elemento central em relação a diagonal principal de uma matriz de adjacência. . . . . . . . . . . . . . . . p. 41 4.7 Avaliação da vizinhança do elemento central no modelo “cruz”. . . . . . . . p. 42 4.8 Gráfico de nível de custo energético por configurações possíveis de uma ma- triz de adjacência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43 4.9 Avaliação da vizinhança do elemento central no modelo “X”. . . . . . . . . . p. 44 4.10 Avaliação da vizinhança do elemento central no modelo “Anel”. . . . . . . . p. 45 4.11 Modularidade por Janela . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46 4.12 Resultado da Modularidade por Janela . . . . . . . . . . . . . . . . . . . . . p. 47 5.1 Rede do String para via de sinalização ErbB . . . . . . . . . . . . . . . . . . p. 53 5.2 Network levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 54 5.3 Objeto Ordering Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56 5.4 Objeto Modularity Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57 5.5 Tela principal de execução do dashboard . . . . . . . . . . . . . . . . . . . . p. 59 5.6 Tela da opção Cluster plot . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60 5.7 Área de visualização do gráfico gerado a partir dos clusters . . . . . . . . . . p. 60 5.8 Tela inicial da opção do menu Gene expression Level . . . . . . . . . . . . . p. 61 5.9 Aba Biomart and Suavization da opção do menu Gene Expression Level . . . p. 63 5.10 Aba Plot Settings. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 64 5.11 Gráficos de nível de expressão gênica - agrupamento . . . . . . . . . . . . . p. 64 5.12 Gráficos de nível de expressão gênica - unitário . . . . . . . . . . . . . . . . p. 65 5.13 Aba Targets do menu Functional Enrichment . . . . . . . . . . . . . . . . . p. 65 5.14 Aba Ontology and Statistic do menu Functional Enrichment . . . . . . . . . p. 66 5.15 Aba Comparison Results do menu Functional Enrichment . . . . . . . . . . p. 67 5.16 Aba Graph do menu Functional Enrichment . . . . . . . . . . . . . . . . . . p. 67 5.17 Exemplo de visualização do levi dentro do dashboard . . . . . . . . . . . . . p. 68 5.18 Gráfico de perfil de modularidade utilizando as janelas 101, 201, 301, 401 e 501 para o modelo Cruz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69 5.19 Gráfico de perfil de modularidade utilizando as janelas 101, 201, 301, 401 e 501 para o modelo Anel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69 5.20 Gráfico de perfil de modularidade utilizando as janelas 101, 201, 301, 401 e 501 para o modelo X. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 70 5.21 Gráfico de Custo Energético em relação a quantidade de passos de Monte Carlo. p. 70 5.22 Gráfico de modularidade por posição relativa das proteínas. . . . . . . . . . . p. 72 5.23 Seleção de clusters para criação de sub-redes. . . . . . . . . . . . . . . . . . p. 72 5.24 Sub-redes criadas a partir da selação dos módulos. . . . . . . . . . . . . . . . p. 74 5.25 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 76 5.26 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 76 5.27 Diagrama de Veen para a as comparações da série GSE10072 . . . . . . . . . p. 77 5.28 Aplicação do levi para visualização da sobreposição do cluster AC em dados de expressão da série GSE10072. . . . . . . . . . . . . . . . . . . . . . . . . p. 78 5.29 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 79 5.30 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 79 5.31 Diagrama de Veen para a as comparações da série GSE81089 . . . . . . . . . p. 80 5.32 Aplicação do levi para visualização da sobreposição do cluster AC em dados de expressão da série GSE81089. . . . . . . . . . . . . . . . . . . . . . . . . p. 81 5.33 Transcriptograma da comparação 1 (fumantes com câncer) para a série GSE10072 com a apresentação de algumas ontologias selecionadas de forma aleatória. . p. 88 5.34 Transcriptograma da comparação 2 (ex-fumantes com câncer) para a série GSE10072 com a apresentação de algumas ontologias selecionadas de forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 89 5.35 Transcriptograma da comparação 3 (indivíduos que nunca fumaram com cân- cer) para a série GSE10072 com a apresentação de algumas ontologias sele- cionadas de forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90 5.36 Transcriptograma da comparação 1 (fumantes com câncer) para a série GSE81089 com a apresentação de algumas ontologias selecionadas de forma aleatória. . p. 92 5.37 Transcriptograma da comparação 2 (ex-fumantes com câncer) para a série GSE81089 com a apresentação de algumas ontologias selecionadas de forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93 5.38 Transcriptograma da comparação 3 (indivíduos que nunca fumaram com cân- cer) para a série GSE81089 com a apresentação de algumas ontologias sele- cionadas de forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94 Lista de Tabelas 4.1 Detalhes dos dados de expressão utilizados na análise . . . . . . . . . . . . . p. 30 5.1 Número de downloads por ano e mês do pacote levi no Bioconductor. . . . . p. 55 5.2 Posições relativas das proteínas para formação dos clusters selecionados. . . . p. 73 5.3 Amostra de processos biológicos existentes no cluster 1 com p-valor menor que 1 x 10 −5 de indivíduos com câncer fumantes da série GSE10072. . . . . p. 82 5.4 Amostra de processos biológicos existentes no cluster 1 com p-valor menor que 1 x 10 −5 de indivíduos com câncer ex-fumantes da série GSE10072. . . p. 83 5.5 Amostra de processos biológicos existentes no cluster 1 com p-valor menor que 1 x 10 −5 de indivíduos com câncer que nunca fumaram da série GSE10072. p. 84 5.6 Amostra de processos biológicos existentes no cluster 1 com p-valor menor que 1 x 10 −5 de indivíduos com câncer fumantes da série GSE81089. . . . . p. 85 5.7 Amostra de processos biológicos existentes no cluster 1 com p-valor menor que 1 x 10 −5 de indivíduoscom câncer ex-fumantes da série GSE81089. . . . p. 86 5.8 Amostra de processos biológicos existentes no cluster 1 com p-valor menor que 1 x 10 −5 de indivíduos com câncer que nunca fumaram da série GSE81089. p. 87 Sumário Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. iv Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. v 1 Introdução p. 1 2 Revisão da Literatura p. 3 2.1 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3 2.2 Biologia de sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5 2.3 Tecnologias para obtenção e análise dos dados de expressão gênica . . . . . . p. 8 2.3.1 Microarranjo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8 2.4 Tecnologias de Microarranjo . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8 2.4.1 Affymetrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8 2.4.2 Roche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9 2.4.3 Agilent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10 2.4.4 RNA-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 2.4.5 Sanger (primeira-geração) . . . . . . . . . . . . . . . . . . . . . . . p. 12 2.4.6 Sequenciamento de nova geração . . . . . . . . . . . . . . . . . . . p. 14 2.4.7 Single Cell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 2.5 Normalização dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 2.6 Dados transcriptomicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 2.6.1 Sequence Read Archive (SRA) . . . . . . . . . . . . . . . . . . . . . p. 20 2.6.2 Gene Expression Omnibus (GEO) . . . . . . . . . . . . . . . . . . . p. 20 2.7 Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 2.7.1 Search Tool for the Retrieval of Interacting Genes (STRING) . . . . . p. 21 2.7.2 STITCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22 2.8 Redes Biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22 2.8.1 Conectividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24 2.8.2 Coeficiente de clusterização para redes não direcionadas . . . . . . . p. 24 2.8.3 Modelos de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24 2.8.4 Rede Escala Livre . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25 2.8.5 Rede Hierárquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26 2.8.6 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27 3 Objetivos p. 29 3.1 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 29 4 Material e Métodos p. 30 4.1 Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30 4.2 levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30 4.2.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32 4.2.2 C++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 4.2.3 CSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 4.2.4 Equações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 4.3 transcriptograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37 4.4 Método de ordenamento de redes em uma dimensão . . . . . . . . . . . . . . p. 37 4.4.1 Modelo Cruz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 4.4.2 Modelo X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43 4.4.3 Modelo Anel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44 4.5 Modularidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 4.6 Análise de Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47 4.7 Enriquecimento Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 48 4.8 Desenvolvimento da ferramenta dashboard . . . . . . . . . . . . . . . . . . p. 48 4.8.1 Método transcriptograma . . . . . . . . . . . . . . . . . . . . . . . . p. 48 5 Resultados e Discussão p. 50 5.1 levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50 5.1.1 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50 5.1.2 Instalação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51 5.1.3 Carregando os arquivos . . . . . . . . . . . . . . . . . . . . . . . . . p. 52 5.1.4 Execução do levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52 5.1.5 Bioconductor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 5.2 transcriptograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 5.3 Ferramenta de dashboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57 5.4 Aplicação do workflow em dados de Homo sapiens . . . . . . . . . . . . . . p. 67 6 Conclusões p. 96 Referências Bibliográficas p. 97 1 1 Introdução A tecnologia da informação está cada vez mais presente em todas as áreas e aspectos de nossas vidas. Segundo (ALHARTHI, 2017), toda a atividade humana gera dados. No nosso dia a dia geramos dados nas interações que realizamos em redes sociais, com os equipamentos de GPS de celulares, ao acessar a redes wi-fi ou mesmo enviar mensagens em correios eletrôni- cos. Na área biológica, dados podem ser gerados de diferentes fontes como, por exemplo, os provenientes da interação entre proteínas ou os resultados obtidos através de tecnologias para o sequenciamento dos dados de expressão. A integração e analise de dados computacionais obtidos de diferentes fontes é chamado de big data (SAGIROGLU; SINANC, 2013). Com o big data podemos realizar análises mais robustas incluindo dados que podem complementar resultados oriundos das mais diversas tec- nologias. Existem várias características do big data tal como os Vs que estão relacionados a atributos importantes que devemos levar em consideração para a correta análise dos diferentes conjuntos (variedade de dados) e a grande quantidade de dados existentes (volume). Para observarmos o nível de complexidade dos conjuntos, em uma análise de big data podemos exemplificar que a variedade dos dados podem ser estruturados, semi-estruturados ou não estruturados, um exem- plo de dados não estruturados são as lojas virtuais que podem vender itens com diferentes carac- terísticas como tamanho, dimensão, volume, quantidade, cores, funcionalidades, entre outros. Em relação a característica do volume de dados podem ser medidos em terabytes, pentabytes e pode chegar até a yottabytes (RISTEVSKI; CHEN, 2018). Para armazenar essa grande quantidade de dados de diferentes tipos existem repositórios disponíveis na internet como o IBGE com dados do senso brasileiro, o DATASUS com conjun- tos de dados sobre o SUS e o Kaggle que posssui dados desde filmes do cinema até desastres ambientais. Para dados obtidos através de diversas tecnologias ou experimentos biológicos po- demos citar alguns exemplos como o Gene Expression Omnibus, ArrayExpress e o The Cancer Genome Atlas. 2 Para que possamos estudar a possibilidade de transferir as análises realizadas utilizando as técnicas de big data para a área biológica, podemos utilizar a biologia de sistemas. Se- gundo (SONIS; VILLA, 2019), a biologia de sistemas permite a integração entre áreas como a biologia, tecnologia e computação. As perguntas biológicas geram a necessidade de novas tec- nologias, a aplicação das novas tecnologias tem como resultados novos dados e a computação, através de novos programas, realizam as análises desses dados. Entre os grandes desafios da análise desses grandes volumes de dados estão as seleções dos conjuntos, integração e análises dos dados (KADADI et al., 2014). Por trabalhar com um grande volumes de dados que podem ter sido gerados de difererentes tecnologias, a etapa de análise de dados de big data apresenta uma grande dificuldade para os profissionais de ambas as áreas biológicas e/ou computacionais. Uma das principais etapadas da análise de dados são as criações de visualizações através da filtragem e processamentos dos dados. Apesar de tabelas possuírem geralmente um grau de detalhamento maior em relação a lei- tura dos dados, as imagens e gráficos facilitam a visualização e entendimento dos resultados por todos os usuários. Em 2017 Czauderna e Schreiber citam em seu trabalho a importância da visualização para apresentar e explorar grandes quantidades de dados biologicos. Com a quantidade crescente de dados experimentais gerados e disponibilizados em reposi- tórios na internet, faz-se necessário o acesso a métodos que permitam uma melhor visualização das potenciais relações entre estes registros. 3 2 Revisão da Literatura 2.1 Big Data O crescente aumento da quantidade de conjuntos de dados gerados pelo surgimento de novas tecnologias, tanto de sequenciamento de nova geração quanto para análise de dados de expressão gênica, mais rápidas e a baixo custo permitiram o advento da era da ciência de Big Data (COSTA, 2014). O Big Data é a junção de um grande volume de dados, de diferentes tipos e que podem ser relacionados para gerar informação. Realizar esse tipo de análise, na maioria das vezes, não é algo trivial. Podem ser utilizados conceitos e técnicas de áreas relacionadas como inteligência artificial ou aprendizado de máquina para facilitar aos usuários a detecção de possíveis correlações nessa grande quantidade de dados para geração de informação. O Big Data pode ser aplicado nas mais difentes áreas de interesse como no âmbito empre- sarial, instituições de ensino, dados médicos, finanças ou mesmo em dados de mídias sociais. Segundo (RISTEVSKI; CHEN, 2018) as características do Big Data podem ser definitas por 6 "V"s (figura 2.1): • Volume: Pode ser medido em terabytes, exabytes ou mesmo yottabytes. É a quantidade de dados obtidos e que podem ser classificados e comparados para transformar dados em informação. • Veracidade: Os dados podem ser avaliados em relação a sua qualidade, incerteza, rele- vância e confiabilidade. • Velocidade: É o tempo de criação, processamento e análise dos dados. • Variedade: Os dados podem estar estruturados, semi-estruturados ou não estruturados. A variedade leva em consideração a complexidade e heterogeneidade de todos os conjuntos de dados. • Variabilidade: Os dados podem ser dinâmicos, estarem em evolução, serem sazonais. Todas essa variavéis são importante para a análise correta dos dados. 4 • Valor: Procura mensurar a importância e a relevância dos dados. BIG DATA VOLUME VERACIDADE VALOR VARIEDADEVELOCIDADE VARIABILIDADE Figura 2.1: Características do Big Data: Velocidade, Variedade, Volume, Variabilidade, Veraci- dade e Valor. Fonte: O Autor, 2022. Entre as suas diversas utilizações é possível usar uma quantidade massiva de variáveis anali- sadas em conjunto para obtenção de modelos preditivos (KHOURY; IOANNIDIS, 2014). Esses modelos permitem prever os possíveis resultados levando em consideração as variáveis que per- meiam o processo onde os dados estão inseridos. Esses modelos preditivos podem ser utilizados na área biológica, por exemplo, na fase de testes pré-clínicos da aplicação de drogas no combate a doenças permitindo analisar suas possíveis consequências. Diversos estudos utilizaram o Big Data para auxiliar pesquisas médicas. Em 2019 Carbone e Montecucco realizaram um estudo sobre as oportunidades da utilização do Big Data para os desafios de doenças cardiovaculares. Brown e colaboradores utilizaram o Big Data para demonstrar que é possível melhorar o cronograma de projetos de descoberta de novas drogas além de otimizar as tomadas de decisão ((BROWN et al., 2018)). Sanches-Pinto e colaboradores realizaram um levamentamento sobre aplicações, conceitos, desafios do Big Data em terapia intensiva (SANCHEZ-PINTO; LUO; CHURPEK, 2018). 5 2.2 Biologia de sistemas No final do século XX e início do século XXI, o avanço em diversas áreas como nanotec- nologia, robótica, processamento de dados e óptica permitiram a evolução das ferramentas de análise moleculares a um nível mais amplo, possibilitando assim novos estudos dos organismos. Essa evolução gerou as chamadas "Ciências Ômicas"que buscam analisar ou mesmo comparar a estrutura e o comportamento de milhares de componentes biológicos em diferentes condições fisiológicas ou em diferentes espécies. Entre essas áreas podemos ter o estudo da sequência completa de DNA de um organismo (genoma), o conjunto de transcritos de RNA (transcrip- toma), o estudo do conjunto de proteínas (proteoma), entre outros. (MOREIRA, 2015) Os estudos ômicos geram uma vasta quantidade de dados e informações relacionadas ao comportamento celular em diversas condições fisiológicas. Para elucidar os elos das lacunas ausentes entre moléculas e fisiologia foi desenvolvida a biologia de sistemas. A biologia de sistemas busca integrar todos esses dados e informações mapeando e modelando em termos quantitativos, o comportamento celular ou fisiológico de um organismo (figura 2.2) (BRUGGE- MAN; WESTERHOFF, 2007). novas ideias novas hipoteses novos programas novos dados novas tecnologias novas perguntas biológicas BIOLOGIA TECNOLOGIACOMPUTAÇÃO Figura 2.2: Biologia de Sistemas. O presente esquema integra áreas como Biologia, Tecnologia e Computação para desenvolvimento de novos insumos buscando responder perguntas biológi- cas. Fonte: Adaptado de (SONIS; VILLA, 2019) 6 Buscando atingir esse objetivo, uma das principais metodologias computacionais que pode ser utilizada para integrar todos esses dados são conceitos existentes na Teoria dos Grafos, um ramo da matemática que lida com os fundamentos das chamadas redes de integração. Uma rede de integração é uma estrutura complexa, que pode ser formada por um elemento chamado nós (ou vértices), que são unidos por conectores e auxiliam a descrever uma variedade de sistemas biológicos, de tecnologia ou relações sociais. Por exemplo, a internet é uma complexa rede de computadores e roteadores (nós), unidos por meios físicos (conectores) (ALBERT; BARA- BÁSI, 2002). Segundo (SHAHZAD; LOOR, 2012) existem dois métodos de análises em biologia de sis- temas que levam em consideração os diferentes tipos de redes biológicas: a biologia de sistemas "de cima para baixo"(que realiza o estudo do mais complexo ao menos complexo ou "de cima- para-baixo") e a biologia de sistemas "de baixo para cima"(indo do menos complexo ao mais complexo ou "de baixo-para-cima"). A análise "de cima para baixo"utiliza os dados experi- mentais de larga escala obtidos pelas ciências ômicas, utilizando esses dados é possível realizar análises e integração destes dados para a geração de novas hipóteses. Estas hipóteses podem ser testadas atráves da verificação experimental do modelo (Fig 2.3 A). A análise "de baixo para cima"inicia-se utilizando de processos já caracterizados experimentalmente (reações enzimáti- cas, interações proteicas, etc), a segunda etapa é integrar esses processos computacionalmente em diferentes contextos biológicos. As hipóteses criadas através dessas análises são verifica- das experimentalmente e podem fornecer uma visão mais ampla sobre o funcionamento dos sistemas biológicos (Fig 2.3 B). 7 A B Figura 2.3: Métodos de análises em Biologia de Sistemas. (A) Análise "de baixo-para-cima". Este método utiliza os dados experimentais de larga escala obtidos através das ciências ômicas para elaboração das hipoteses. (B) Análise "de baixo para cima". Este método busca integar de forma computacional os processos já caracterizados experimentalmente para a geração das suas hipóteses. Fonte: Adaptado de (MOREIRA, 2015) Para avaliar se os resultados obtidos em modelos animais podem ser aplicados para o Homo sapiens podemos utilizar a biologia de sistemas. A biologia de sistemas provê meios para identificar a que ponto os mecânismos estudados em modelos in vivo são similares. Ela é uma ciência multidisciplinar que utiliza abordagens matemáticas com percepções biológicas e médicas com o intuíto de predizer eventos interconectados para análise da rede de interações utilizando diferentes níveis do sistema (GONZALEZ-ANGULO; HENNESSY; MILLS, 2010). A biologia de sistemas oferece os meios para os limites de tradução de modelos animais em diferentes ensaios clínicos às avaliações toxicológicas para a biologia celular. Pois, podemos integrar os dados contidos em interações entre proteínas, rotas metabólicas, redes, ontologias, expressão gênica e pequenas moléculas para construir modelos matemáticos preditivos desse sistema e assim compreender essas informações em diferentes níveis dos sistemas biológicos individuais (IDEKER; GALITSKI; HOOD, 2001). Com a utilização do Big Data podemos analisar dados entre interações de RNA longo não- codificante (Long non-coding RNA - lncRNA), microRNA (miRNA) e proteínas de bancos de dados online. Os lncRNA são uma classe de RNAs não codificadores de proteínas que possuem mais de 200 nucleotídeos, estão envolvidos em uma ampla variedade de processos biológicos como moléculas reguladoras (SZCZEŚNIAK; MAKAŁOWSKA, 2016). Os microRNAs (miR- NAs) são classes caracterizadas de ncRNAs e são pequenos reguladores de moléculas de RNA a partir de precursores maiores através de uma via altamente coordenada (JALALI et al., 2013). 8 2.3 Tecnologias para obtenção e análise dos dados de expres- são gênica 2.3.1 Microarranjo A tecnologia de microarranjo foi um dos grandes benefícios obtidos durante pesquisas relizadas no decorrer do Projeto do Genoma Humano (TREVINO; FALCIANI; BARRERA- SALDANA, 2007). Com a utilização dessa tecnologia, tornou-se possível mensurar, ao mesmo tempo com rapidez e eficiência, a expressão de vários genes de um determinado organismo. O principio da técnica de microarranjo in situ consiste na utilização de uma superficie sólida que possui diversas sequências de nucleotídeos com tamanhos que variam dependendo do chip utili- zado (entre 20 a 100 pares de bases por sonda) fixadas em sua base, essas sequências podem ser de dois tipos: cDNA ou oligonucleotídeos (MILLER; TANG, 2009). Os oligonucleotídeos ou o cDNA são usados como sonda que quando híbrida com uma molécula alvo marcada com flu- oróforo permite a detecção de DNA complementar ou RNA. Em pouco tempo, o microarranjo se tornou uma das ferramentas mais utilizadas em meta análises de dados genômicos (TSENG; GHOSH; FEINGOLD, 2012). 2.4 Tecnologias de Microarranjo 2.4.1 Affymetrix Na tecnologia de microarranjo da Affymetrix os oligonucleotideos são sintetizados direta- mente na superfície do microarranjo. É uma superfície de quartzo com proporções de 1,2cm2. O processo de sintetização in situ cria sondas normalmente curtas, entre 20 a 25 pares de base, por isso é utilizado várias sondas para se obter melhores valores estatísticos de sensibilidade, especificidade e precisão. (DALMA-WEISZHAUSZ et al., 2006). O processo de adição das bases A, C, T ou G na cadeia de oligonucleotídeos é realizada utilizando uma máscara litográfica e luz UV. A luz UV remove a proteção quimica existente no microarranjo, permitindo assim a síntese de apenas um nucleotídeo por vez. Padrões diferentes de utilização de máscaras em cada ciclo liberam sondas diferentes para a adição dos oligonu- cleotídeos em determinadas cadeias. A execução e repetição desse processo gera o resultado final com sondas de até 25 pb (figura 2.4). 9 Luz Fotolitogra�a Lentes Máscara litográ�ca Microarranjo (Wafer) Recursos desprotegidos Ciclo de síntese química Microarranjo (Wafer) Máscara Luz Repete 25 - mer GeneChip Microarranjo Figura 2.4: O esquema da Affymetrix utiliza uma fotolitografia a luz UV que emite uma luz incidindo na máscara litográfica que realiza o filtro para transmitir ou bloquear a luz no mi- croarranjo que está quimicamente protegido. A ordem da síntese da sequência na superfície do microarranjo é determinada com a aplicação sequencial de máscaras litográficas específicas. No Ciclo de síntese química a luz UV remove os grupos de proteção (quadrados) da superfície da matriz, permitindo a adição de um único nucleotídeo protegido à medida que ela é lavada sobre o microarranjo. A aplicação de sequências de remoção de proteção da luz, alterações nos padrões de filtragem das máscaras e adições de nucleotídeo único formam o microarranjo com sondas específicas de tamanho de 25 pb. Adaptado de (MILLER; TANG, 2009). 2.4.2 Roche A tecnologia de microarranjo da Roche consegue criar sondas de oligonucleotídeos maiores que a da Affymetrix com tamanhos entre 50 a 100 pb. Outra diferença entre os microarranjos da Affymetrix e da Roche é a utilização das máscaras. Enquanto a Affymetrix utiliza máscaras físicas a Roche utiliza máscaras virtuais. Essas máscaras são criadas através de um Dispositivo Digital de Microespelhos (Digital Micromirror Device - DMD) que é responsável por canalizar a luz na superfície do microarranjo removendo a proteção para que o possível nucleotídeo seja adicionado (figura 2.5). (HUANG; HUANG; WANG, 2010) 10 Dispositivo Digital de Microespelhos (DMD) Fonte de luz Microespelhos digitais = grupo protetor fotolábil Adiciona Adiciona Repete Até 85 mer Figura 2.5: O esquema da Roche utiliza um sintetizador de matriz que não precisa de máscara física. Com a utilização de um DMD - Digital Micromirror Device (Dispositivo Digital de Microespelhos) são criadas máscaras virtuais. O DMD direciona a luz UV permitindo que seja adicionado apenas os ácidos nucleicos espeficico durante a etapa de síntese. A luz UV remove o grupo protetor fotolábil da superfície do microarranjo, permitindo a adição de um único nucleotídeo protegido à cadeia oligonucleotídica. Essa tecnologia permite que sejam criados de 60 a 100 bp de comprimento no microarranjo. Adaptado de (MILLER; TANG, 2009). 2.4.3 Agilent As sondas sintetizadas pela tecnologia in situ da Agilent utiliza impressão com jatos de tinta. Essa tecnologia permite a hibridização com multiplas cores, cada cor correspondente aos nucleotídeos A, C, T e G. Diferente dos suportes da Affymetrix e da Roche, os suportes 11 da Agilent são feitos de vidro e para a construção do equipamento são utilizadas cabeças de impressão a jato de tinta comerciais. Para a impressão são usados monômeros de fosforamidita em carbonato de propileno (figura 2.6). (HUGHES et al., 2001) Figura 2.6: No esquema da Agilent temos: (A) Usando uma tecnologia de impressão de tinta não é necessário contato direto, assim é gerada a primeira camada de nucleotídeos na superfí- cie do microarranjo. (B) Esse procedimento se repete aumentando o comprimento das sondas oligonucletídicas específicas. (C) Visão aproximada da cadeia oligonucleotídica sendo aumen- tada base a base. (D) A sonda sintetizada in situ pela Agilent possui comprimento de 60 pb. Adaptado de (MILLER; TANG, 2009). 2.4.4 RNA-seq O RNA-seq é uma tecnologia que permite gerar o perfil do transcriptoma. O perfil do transcriptoma leva em consideração o conjunto e a quantia de transcritos de uma célula em uma determinada condição fisiológica ou em um estágio de desenvolvimento específico. Usando tecnologias de sequenciamento o RNA-seq permite mensurar de forma mais precisa o nível dos transcritos e suas isoformas. Entender o perfil do transcriptoma é fundamental para elucidar os elementos do genoma, compreender os constituintes moleculares das células e tecidos e assim permitir o estudo e desenvolvimento de doenças (WANG; GERSTEIN; SNYDER, 2009). O RNA-seq possui um menor ruído de background do que a tecnologias de microarrays e também possui uma faixa dinâmica maior para ser realizada a detecção (HRDLICKOVA; TOLOUE; TIAN, 2017). 12 Biologia experimental Extração de RNA Fragmentação do RNA e transcrição reversa Construção da biblioteca e sequenciamento Biologia computacional Milhões de reads pequenos Controle de qualidade e pré-processamento Alinhamento a um genoma de referência ou montagem de novo Indexação para as regiões de codi�cação / exons / junções Biologia de sistemas Análise das DEG Análise da estrutura do transcriptoma Análise da via metabólica ou co-expressão da rede Análise integrada com epigenomica / dados proteômicos Teste das categorias enriquecidas Percepções biológicas Figura 2.7: Esquema geral de um pipeline para RNA-seq. É dividido em três áreas principais: biologia experimental, biologia computacional e biologia de sistemas. O pipeline é iniciado com a extração de DNA na fase da biologia experimental, que é responsável pela preparação da amostra. Na fase de biologia computacional é realizado o controle de qualidade, alinha- mento/montagem e indexação das regiões. Por último, temos a biologia de sistema com três etapas inicias: as análises de genes diferencialmente expressos (DEG), a análise de estrutura do transcriptoma e as análises integradas. Todas elas levam à percepções biológicas. Adaptado de (HAN et al., 2015). O RNA-seq realiza o seu processo baseado nas tecnologias de sequenciamento. Para cada geração de sequenciamento existem tecnologias e seus respectivos métodos utilizados. Entre as principais tecnologias temos: Sanger (primeira-geração), Ilumina (segunda-geração) e Pacific Biosciences (terceira-geração). 2.4.5 Sanger (primeira-geração) A tecnologia de sequenciamento criada por Sanger e colaboradores (SANGER; NICKLEN; COULSON, 1977), conhecida também como de “primeira-geração”, utiliza dideoxinucleotí- deos como bloqueadores de síntese da cadeia de DNA (METZKER, 2010) (figura 2.8). Esse é um método de sequenciamento, onde ocorre a síntese de uma fita complementar a sequência de DNA de interesse, para isso são necessários DNA polimerase, o primer que servirá como ini- 13 ciador os deoxinucleotídeos (DNTPs) para a sintese e os dideoxinucleotídeos (ddNTPs) como finalizadores inibidores. Os dideoxinucleotídeos (dDNTPs) são nucleotídeos modificados que não possuem um grupo hidroxila na posição 3’ do carbono do anel de sacarose bloqueando assim a adição de novos nucleotídeos. Durante a síntese, várias cópias da fita complementar são sintetizadas com a adição de DNTPs. Porém, quando os dDNTPs são incorporados, ocorre a interrupção da inclusão de novos nucleotídeos. Essa interrupção pode ocorrer em qualquer etapa da síntese, gerando fragmentos de diferentes tamanhos de dNTPs. Após essa etapa, os fragmentos de DNA são separados utilizando um gel de poliacrilamida. A sequência é obtida através da visualizaçaõ das bandas que indicará a sequência de nucleotídeos da fita complemen- tar e, por complementaridade de bases. Atualmente o método passou a ser automatizado, com a utilização de computadores para leitura do gel e processamento das sequências e a utilização de fluorocromos para os nucleotídeos (HEATHER; CHAIN, 2016). A utilização do método de Sanger permitiu o surgimento de novos tipos de análises onde o sequenciamento de vários organismos simultaneamente está sendo utilizado e possibilitando estudos aprofundados que o isolamento de materiais genéticos de um único organismo não propiciava. Utilizando o sequenciamento de Sanger foi possível, por exemplo, sequenciar o genoma humano (METZKER, 2010). 14 Fita a ser sequenciadaPrimer para replicação Primer DNA + Primer Primer Primer Figura 2.8: Ilustração do funcionamento da tecnologia de sequênciamento de Sanger. À tem- peratura de 95ºC a fita dupla sofre uma desnaturação separando-se em duas fitas simples. Cada uma dessas fita simples possui primer, nucleotídeos e DNA polimerase. A aproximadamente 50ºC ocorre o anelamento do primer e com 72ºC a DNA polimerase entra em ação realização a extensão da fita complementar. Quando os dideoxinucleotídeos (ddNTPs) são incorporados à fita de DNA ocorre o bloqueio da adição de novos nucleotídeos, gerando assim fragmentos de tamanhos diferentes. Ao colocar no gel essas fitas migram por causa da sua massa e carga. No sequenciamento automatizado os ddNTPs (dideoxinucleotídeos) é utilizando um sistema de laser e detector sendo possível identificar esses nucleotídeos, que são fluorescentes, no capilar. Adaptado de (WINNICK, 2004). 2.4.6 Sequenciamento de nova geração Os métodos de sequenciamento que surgiram após o método de Sanger e que utilizam es- tratégias como preparação de fitas molde, sequenciamento e imagem, alinhamento de genoma e métodos de montagem são chamados de sequenciamentos de nova geração next-generation sequencing (NGS). As empresa de equipamentos de NGS utilizam tecnologias diferentes para a criação dos templates (modelos), sequenciamento e captura de imagem. Essas tecnologias dife- rentes e seus métodos estão diretamente relacionadas a qualidade e o custo dos dados gerados. (METZKER, 2010). Entre as principais fabricantes de equipamento de sequenciamento temos: Applied Biosys- tems, Ilumina, Pacific Biosciences, Ion Torrent, Oxford Nanopore e a SOLiD. Para exemplificar essas tecnologias veremos o funcionamento da metodologia aplicada pelas empresas Applied Biosystems, Ilumina, Pacific Biosciences. 15 2.4.6.1 Applied Biosystems A Applied Biosystems utiliza o método de preparação do template onde são fixados os primers, de forma individual e são distribuídos sobre um suporte sólido, esses suportes em formato de esferas são fixadas em uma lâmina de vidro (figura 2.9). Na tecnologia da Applied Biosystems, os tubos possuem uma mistura de primers, templates, dNTPs e polimerase. Ocorre uma reação de amplificação por PCR, que é quebrada por emulsão ocorrendo assim a separação do template. Applied Biosystems Emulsão por PCR Uma molécula de DNA por bead. A ampli�cação do clone para milhares de cópias ocorre em microrreatores numa emulsão Primer, template, dNTPs e polimerase Quimicamente reticulado a uma lâmina de vidro Ampli�cação por PCR Quebra por emulsão Dissociação do template 100–200 milhões de pequenas esferas(beads) Figura 2.9: Estratégias de imobilização de templates utilizada pela Applied Biosystems. Pri- meiro ocorre a adição e ligação dos adaptadores em seguida são selecionados os fragmentos que possuem adaptadores. Em uma segunda etapa, acontece a ligação da fita simples de DNA às esferas e em seguida a amplificação do DNA por PCR. Por último, temos a eliminação das gotí- culas. Com a presença de reagentes (sulfurilase) é gerada luz que é captada pelo equipamento. Adaptado de (METZKER, 2010). 16 2.4.6.2 Ilumina A Ilumina utiliza um método de fixação de uma única molécula de DNA por cluster (figura 2.10). Nessa técnica, são criados agrupamentos utilizando fragmentos ou mate-paired templates em uma lâmina de vidro. Cada agrupamento possui primers que durante a fase de amplificação criarão pontes entre os segmentos foward e reverse da fita de DNA. Ilumina Ampli cação por fase sólida Uma molécula de DNA por cluster. Preparação da amostra de DNA (5 �g) Ampli�cação da ponte Template dNTPs e polimerase 100–200 milhões de clusters de moléculas Crescimento dos clusters Incorporação dos quatro tipos de nucleotídeos Lavagem e obteção da imagem Clivagem e nova lavagem Repetição dos ciclos Topo: CATCGT Inferior: CCCCCC Figura 2.10: Estratégia de amplificação por fase sólida usada pelos equipamentos da Ilumina. Em cada cluster, há a ligação entre os segmentos da fita de DNA foward e reverse. Com isso os nucleotídeos são incorporados para a criação da fita de DNA complementar. Ocorre uma lavagem para retirar os nucleotídeos não incorporados, é obtida a imagem pelo equipamento, é realizada a clivagem para retirar os fluorocromos (responsável pela emissão de luz). Esse ciclo é repetido até a obtenção de toda a sequência de nucleotídeos da fita complementar. Adaptado de (METZKER, 2010). 17 2.4.6.3 Pacific Biosciences O método utilizado pela Pacific Biosciences realiza a detecção dos fragmentos incorporados em tempo real e é considerado de terceira geração. Nesse método, a polimerase é fixada à superfície sólida. A detecção dos nucleotídeos incorporados ocorre em tempo real com isso é possível conseguir tamanhos de reads maiores do que as outras metodologias (figura 2.11)(LIU et al., 2012; METZKER, 2010). Vidro Limite de detecção Tempo In te n s id a d e Pulso de �uorescência Figura 2.11: Estratégia de fixação da polimerase no suporte utilizada pela Pacific Biosciences. A polimerase é fixada em uma superfície solida. O equipamento possui um limite de detecção para captura da imagem, com isso consegue verificar a intensidade em relação ao tempo do pulso de fluorescência quando um nucleotídeo é incorporado. Após a captura da imagem, ocorre a clivagem do fluorocromo. Adaptado de (METZKER, 2010). 2.4.7 Single Cell Os resultados em uma análise de RNA-seq são obtidos utilizando os cálculos dos valores de perfis de expressão das médias de um conjunto de células. O víes da utilização de RNA-seq é a impossibilidade de realizar uma análise minuciosa nos diversos tipos e subtipos de células usando analises baseadas em população. Desse modo, a técnica de single cell permite entender a expressão gênica no nível de célula única o que é importante para estudos e análises isoladas dessas células. (HRDLICKOVA; TOLOUE; TIAN, 2017) (LUN; MCCARTHY; MARIONI, 2016) O primeiro método de sequenciamento de RNA single cell (scRNA-seq) foi desenvolvido em 2009 utilizando a premissa que células individuais são únicas e a base para a contrução dos 18 organismos. A execução de um sequenciamento em massa de RNA pode mascarar a singulari- dade de cada celula além de ocultar possíveis mudanças nessas células (TANG et al., 2009). Para cada célula, o mRNA é isolado e transcrito reversamente em cDNA para execução do sequenciamento utilizando as tecnologias de nova geração (NGS - Next Generation Sequen- cing). Essa tarefa pode ser realizada usando plataformas microfluídicas como o Fluidigm C1, protocolos baseados em placas de microtitulação como Smart-seq2 ou tecnologias baseadas em gotículas como inDrop. A quantificação da expressão de cada célula é obtida através do ma- peamento das suas leituras. Também podem ser utilizados identificadores moleculares únicos (UMIs) para medir o número de moléculas de transcrição para cada gene. Os dados de conta- gem são analisados e fornecem informações biológicas para detectar genes altamente variáveis (HVGs) que demonstram a heterogeneidade entre células em uma população, é possível encon- trar correlações entre genes e fenótipos celulares assim como identificar novas subpopulações através da identificação de agrupamentos (figura 2.12) (LUN; MCCARTHY; MARIONI, 2016). 19 Pipeta Microscópio Placa de 96 poços Pipeta capilar Detector multiespectral Célula Micro uídicos óleo óleo Células da suspensão Micropartículas e tampão de lise Gota com célula única Coleta de sangue Anticorpo anti-EpCAM com partícula magnética Enriquecimento CTC Transcrição reversa com troca de modelo Estrutura do barcode do primer Alça do PCR Barcode da célula Sequência de captura Gota Célula Partícula Lise celular Quebra da gota A B C D E F G Figura 2.12: Isolamento de Single Cell e preparação da biblioteca.(A) O método de diluição limitante isola células individuais, alavancando a distribuição estatística de células diluídas. (B) A micromanipulação envolve a coleta de células únicas usando pipetas capilares guiadas por microscópio. (C) FACS (Fluorescence Activated Cell Sorting) isola as células altamente purificadas através da marcação com proteínas fluorescentes. (D) A microdissecção de captura a laser ( Laser capture microscopy - LCM) utiliza um sistema de laser auxiliado por um sistema de computador para isolar células de amostras sólidas. (E) A tecnologia microfluídica para isolamento de célula única requer volumes do tamanho de nanolitros. (F) O sistema CellSearch enumera CTCs (Circulating tumor cells) de amostras de sangue de pacientes usando um ímã conjugado com anticorpos de ligação à CTC. (G) Um exemplo esquemático de geração de biblioteca baseada em gotículas. Bibliotecas para scRNA-seq geralmente são geradas via lise celular, transcrição reversa no cDNA da primeira fita usando barcodes exclusivos, síntese da segunda fita e amplificação de cDNA. Adaptado de (HWANG; LEE; BANG, 2018). 20 2.5 Normalização dos dados Os dados de microarranjo precisam ser normalizados com a finalidade de diminuir as va- riações existentes entre os dados, essas variações ocorrem devido a diferença na eficiência de marcação dos fluoróforos verde e vermelho no processo de detecção no escaneamento. Com a normalização é possível realizar comparações apropriadas entre os dados (DUDOIT et al., 2002). Para a os dados obtidos por meio de técnicas de RNA-seq podemos utizar dois tipos de normalizações: RNA-seq Bulk e RNA-seq single cell. O protocolo RNA-seq Bulk é utilizado para o RNA-seq tradicional enquanto o RNA-seq single cell são utilizados para amostras obtidas pela técnica de single Cell. (LUN; MCCARTHY; MARIONI, 2016). Os dados de microarranjo podem ser normalizamos usando um dos dos 3 métodos/protoco- los: • Microarray Suite 5 (MAS5); • Robust Multi-array Average (rma); • GC Robust Multi-array Average (gcrma); 2.6 Dados transcriptomicos 2.6.1 Sequence Read Archive (SRA) O Sequence Read Archive (SRA) é um banco de dados público e internacional para armaze- namento de dados de sequências obtidas de tecnologias de NGS (Next Generation Sequence). É administrado pelo National Center for Biotechnology Information (NCBI), o Instituto Europeu de Bioinformática (EBI) e o DNA Data Bank of Japan (DDBJ), tendo como missão preservar os dados de sequenciamento de domínio público e fornecer acesso livre, irrestrito e permanente a esses dados (LEINONEN; SUGAWARA; SHUMWAY, 2010). No SRA é possível obter dados de RNA-Seq. 2.6.2 Gene Expression Omnibus (GEO) O GEO (Gene Expression Omnibus) possui dados de RNA-Seq e microarranjo. O GEO é um projeto que iniciou com o aumento exponencial de dados de expressão gênica e a necessi- 21 dade de um repositório público para esses dados (EDGAR; DOMRACHEV; LASH, 2002). 2.7 Redes 2.7.1 Search Tool for the Retrieval of Interacting Genes (STRING) Para a criação das redes de integração utilizaremos dados obtidos no banco de dados STRING. O STRING é um banco de dados de interações de proteínas-proteínas que atualmente possui 5090 organismos (o dobro da versão anterior 2031 organismos), 24.6 milhões proteínas e mais de 2 bilhões de interações cadastradas (STRING, 2017). Segundo Szklarczyk e colaboradores o STRING objetiva fornecer uma avaliação crítica e integração de interações proteína-proteína, incluindo associações diretas (físicas) e indiretas (funcionais) ((SZKLARCZYK et al., 2014)). Na sua versão mais atual (STRING V11), possui melhorias que incluem a possibilidade de carregar como input um conjunto de dados de genoma inteiro, permitindo assim ao usuário visualizar, como redes de interação, grupos menores existentes ou realizar uma análise de en- riquecimento do conjunto de genes de todo o genoma. Além dos sistemas de classificação já conhecidos como o Gene Ontology e o KEEG agora permite a utilização de outras duas opções: um sistema de mineração de dados que busca palavras chaves em resumos de artigos do Pub- Med e um sistema de clusterização hierarquica da própria rede do STRING que retorna clusters de tamanho entre 5 e 200 levando em consideração módulos que possuem muitas conexões. Na geração da rede existem configurações importantes que devem ser observadas para garantir a qualidade e confiança do resultado: • Minimum required interaction score: utiliza uma escala própria entre zero e um utili- zando todas as associações verdadeiras nas evidências disponíveis. • Textmining: realiza uma análise estatística de co-citação em todos os resumos do Pub- Med assim como outras bases de dados. • Experiments: todas as interações existentes no banco de dados IMEx são novamente ma- peadas e processadas retirando os dados duplicados. Os registros resultantes são aferidos contra o KEGG. • Databases: é baseado nas intererações dos bancos de dados curados como KEGG, Reac- tome, BioCyc e Gene Ontology, assim como em bancos de dados legados como o PID e 22 BioCarta. • Co-expression: a correlação entre genes é testada entre vários bancos de dados de ex- pressão como por exemplo o NCBI Gene Expression Omnibus. • Neighborhood: Através de comparação sistemáticas de genomas de procariotos verifica a semelhança entre os genes vizinhos. • Gene Fusion: Assim como no neighborhood, utiliza a comparação com genomas de pro- cariotos para idenficação da fusão dos genes em cada organismo. • Co-ocurrence: Também utiliza a comparação de genomas de procariotos para verificar a existência ou falta de proteínas que estão ligadas. 2.7.2 STITCH STITCH é um banco de dados de interações proteína-pequenas moléculas que integra fontes experimentais e curadas manualmente com informações de mineração de texto (textmining) e previsões de interação (KUHN et al., 2013). Atualmente possui cadastradas redes com 2031 organismos, 500 mil drogas, 9,6 milhões de proteínas e 1,6 bilhões de interações. 2.8 Redes Biológicas Redes complexas de uma forma muito simplificada, corresponde ao conjunto de elementos que interagem entre si, são representadas por elementos matemáticos como os vértices (nós, nodos) e as arestas (interações, ligações, associações). No caso de redes sociais, cada pessoa representa um vértice e a amizade entre duas pessoas, é representada pela aresta. Uma rede complexa pode ser direcionada, quando existe uma orientação para a aresta, ou não-direcionada quando não há nenhuma orientação para a aresta. No caso de redes biológicas (VERLI, 2014), a figura 2.13 (A) apresenta um exemplo de rede direcionada. O mecanismo de degradação ubiquitina-proteassoma: uma proteína destinada à degradação é marcada por ligações covalentes de moléculas de ubiquitina que transmitem um sinal para o proteassoma que, por sua vez, degrada a proteína em peptídeos. Essa representa- ção é dita direcionada porque não é possível realizar o caminho inverso, partir dos peptídeos para formar a proteína via proteassoma. A figura 2.13 (B) apresenta um exemplo de rede não direcionada. A reação reversa de fosforilação e desfosforilação de adenosina difosfato. Te- 23 mos adenosina monofosfato (AMP) que recebe um grupo fosfato (PO4) e se torna adenosina difosfato (ADP) que sua vez pode receber um grupo fosfato (PO4) que se torna em adenosina trifosfato (ATP) que pode perder um grupo fosfato por vez até tornar-se AMP (AMP⇐⇒ ADP ⇐⇒ ATP). Figura 2.13: Exemplo de rede direcionada e não-direcionada. (A) Rede direcionada, a via de de- gradação de proteína; (B) Rede não-direcionada, a reação reversa de fosforilação de adenosina difosfato. Adaptado de (VERLI, 2014) Pode-se definir uma rede complexa por meio de uma matriz de adjacência (A) como uma representação matricial de uma rede, onde cada elemento da matriz ai,j assume o valor 1(0) no caso de haver (ou não) uma aresta ligando os vértices identificados por i e j. Essa representação não traz informação sobre um possível direcionamento (i age sobre j mas j não age sobre i) nem sobre os pesos destas associações (figura 2.14). A B C D E F A B C D E F A B V = 6 E = 9 V = 6 E = 9 Grafo não direcionado Grafo direcionado Conexão fraca Conexão forte Figura 2.14: Exemplos de tipos de grafos. (A) Grafos não direcionados demonstram apenas as conexões entre os nós. (B) Grafos direcionados possuem informações sobre as conexões, direção e força (espessura da linha) em cada conexão. Fonte: O Autor, 2022. 24 2.8.1 Conectividade A conectividade (ki) de um vértice i de uma rede é definida como o número de arestas do vértice (i). A partir desta informação, é possível obter a conectividade para cada vértice via matriz de adjacência (equação 2.1). ki = N ∑ j aij (2.1) Onde N é o número total de vértices, e aij é o elemento da matriz de adjacência (A). Através desta medida podemos definir também a conectividade média da rede 〈k〉 (equação 2.2): 〈k〉= 1 N N ∑ i=1 ki. (2.2) 2.8.2 Coeficiente de clusterização para redes não direcionadas O coeficiente (Ci) de clusterização mensura a razão existente de arestas n entre os vizinhos de um dado vértice i e o número máximo possível destas arestas (equação 2.3): Ci = 2n ki(ki−1) = 1 ki(ki−1) N ∑ j=1 aij N ∑ m=1 ajmami. (2.3) Quando Ci é igual a zero, os vizinhos do vértice i não possuem conexão entre si, e no caso de Ci = 1 todos os vizinhos de i estão conectados entre si. Assim como na conectividade, podemos ter um valor do coeficiente de clusterização médio para uma rede (equação 2.4): 〈C〉= 1 N N ∑ i=1 Ci. (2.4) 2.8.3 Modelos de Redes 2.8.3.1 Rede Aleatória Em 1960, Erdös-Rényi (ERDŐS; RÉNYI, 1960) criaram um modelo de rede aleatória, iniciando a partir de uma rede com N vértices e considerando uma probabilidade p que um dado par de vértices seja conectado. Este processo gera uma rede com aproximadamente pN(N−1) 2 arestas distribuídas aleatóriamente como na figura 2.15 Aa. A distribuição da conectividade segue uma lei de distribuição binomial, que indica que muitos vértices terão a mesma quantidade 25 de arestas, enquanto que alta e baixa conectividades são raras como se pode observar pelo gráfico na figura 2.15 Ab. O coeficiente de clusterização é independente da conectividade do vértice, como é visto pelo gráfico c(k) versus k, onde temos uma linha horizontal (C(k)≈ p), figura 2.15 Ac. 2.8.4 Rede Escala Livre A rede escala livre é obtida por meio do modelo de crescimento de redes proposto por Ba- rabási e colaboradores (BARABASI; OLTVAI, 2004) que, iniciando com um pequeno conjunto de vértices todos ligados uns aos outros, novos vértices são acrescentados um a um. As ligações de um novo vértice com os já existentes são criadas com uma probabilidade dada por: p(ki) = ki ∑ N j=1 kj 〈k〉 (2.5) onde ki é a conectividade do vértice e 〈k〉 a conectividade média desejada. A rede é mos- trada na figura 2.15 Ba. Esta rede apresenta uma distribuição de conectividade p(k) na forma de uma lei de potência caracterizada por um expoente γ = −3, mostrada na figura 2.15 Bb. A probabilidade de existir vértices altamente conectados é estatisticamente mais significativa do que na rede aleatória e tais vértices são chamados de “hubs". A figura 2.15 Bc, mostra o comportamento do coeficiente de clusterização com respeito à conectividade. Vemos que é uma linha reta paralela ao eixo da conectividade. Isto significa que todos os vértices têm sempre um valor de coeficiente de clusterização muito próximo um dos outros, não importando a sua conectividade, logo não existe uma formação de módulo. No caso da 2.15 Cc, vemos que o coeficiente de clusterização tende a ser muito alto para vértices pouco conectados e baixo para vértices muito conectados (reta decrescente). Se tivéssemos uma curva gaussiana no lugar da reta decrescente na figura 2.15 Bc, poderíamos dizer que existe um tamanho preferencial de módulo, dado pela média da gaussiana. 26 Figura 2.15: Principais modelos de redes, figura retirada do artigo do Barabási (BARABASI; OLTVAI, 2004). Esquemas para a A rede aleatória, B rede de escala livre e C rede hierárquica. Com as representações para suas redes topológicas (Aa, Ba e Ca), distribuição de conectividade (Ba, Bb e Bc) e coeficiente de clusterização (Ac, Bc e Cc). 2.8.5 Rede Hierárquica Uma rede hierárquica (BARABASI; OLTVAI, 2004) pode ser construída partindo um bloco de N vértices todos ligados entre si, que é replicado m vezes. Uma rede aumentada é gerada ligando cada vértice central destes m módulos ao vértice central do módulo inicial, formando um super módulo de (m+1)N vértices. Repetindo este processo ad infinitum obtemos uma rede hierárquica, como na figura 2.15 Ca que apresenta uma topologia livre de escala mas com uma estrutura modular. A distribuição de conectividades desta rede é uma de lei de potências com 27 expoente γ = −2,26, como na figura 2.15 Cb. O coeficiente de clusterização escala com uma lei de potência que segue C(k) ≈kγ , como pode ser visto na figura 2.15 Cc. A arquitetura hierárquica apresenta vértices pouco conectados fazendo parte de áreas alta- mente clusterizadas com comunicação entre os vizinhos nos mais variados níveis de cluteriza- ção sendo mantidos por poucos nós muito conectados: os “hubs”. 2.8.6 Justificativa A utilização desses métodos permitem uma visão sistêmica de toda a topologia da rede que, quando integrada às moléculas que fazem parte da estrutura e regulação, torna-se possível entender como o surgimento de doenças está relacionada a alterações na rede (CHARITOU; BRYAN; LYNN, 2016). Rybarczyk e colaboradores desenvolveram uma metodologia e o transformaram em um pa- cote para a linguagem de programação R chamado transcriptograma, nessa metodologia os ge- nes são ordenados em uma lista e através de informações geradas a partir de interações proteína- proteína com dados disponibilizados em bancos de dados públicos os correlaciona com a ex- pressão gênica, todos os genes são analisados não sendo descartado nenhum, diferencialmente expressos ou não, pois genes que não são considerados diferencialmente expressos podem ter um efeito importante no sistema estudado ((RYBARCZYK-FILHO et al., 2011)). Entre os principais repositórios de pacotes desenvolvidos para a linguagem de programação R está o Bioconductor (www.bioconductor.org). Ao submetermos um pacote para ser aceito no Bioconductor são realizadas diversas verificações e controles de qualidade no código e nos resultados gerados pelo pacote. Ao final das verificações são apresentados notas, avisos ou erros. Notas permitem que o pacote passe essa etapa e podem estar relacionados, por exemplo, a quantidade de linhas das funções do pacote. Avisos podem gerar problemas e pode estar relacionados, por exemplo, a quantidade de caracteres e identação do código. Se o código possuir erros o pacote não é aceito pelo Biocondutor. O transcriptograma em sua versão original, ao realizar as etapas de processamento, cria diretórios e arquivos de texto para organizar e permitir que o usuário acesse os resultados. O Bioconductor retorna erro durante a etapa de verificação do pacote caso sejam salvos dados em formato de arquivos nos discos de armazenamento. Para resolvermos esse problema fizemos alterações no código do transcriptograma para que todos os resultados sejam salvos em um objeto do R. Salvar os resultados em um objeto do R facilita a manipulação dos dados pelo usuário, além de padronizar o formato e permitir a 28 construção de outros pacotes que expandam as funcionalidades do transcriptograma. Além disso, todas as funções e processos foram inseridas em uma interface gráfica do usuá- rio, em formato de dashboard, visando fornecer visualizações rápidas dos resultados obtidos e facilitar alterações nos parâmetros de execução. 29 3 Objetivos Desenvolvimento de uma plataforma que permita a integração de dados (Big Data), tais como: redes biológicas, expressão gênica, processos biológicos, dentre outros. A plataforma deve ser de fácil acesso para diferentes níveis de usuários e que permita a integração de outras ferramentas oriundas de repositórios como o Bioconductor e R-cran. 3.1 Objetivos específicos • Desenvolvimento de um pacote para projeção de expressão gênica sobre uma rede bioló- gica. • Criação de um objeto em R para salvar os dados gerados entre as etapas do processamento do transcriptograma. • Integração da técnica de transcriptograma em ambiente R. • Desenvolvimento de uma interface amigável para acessar as técnicas do transcriptograma. • Validar o pacote utilizando dados de expressão gênica de amostras de pulmão de indiví- duos fumantes, ex-fumantes e que nunca furamaram que tenham ou não adenocarcinoma em uma rede criada a partir de dados de interações proteína-proteína de Homo sapiens . 30 4 Material e Métodos 4.1 Workflow Nesse trabalho, nós propomos a análise dos dados de expressão gênica de amostras de pul- mão obtidas das tecnologias de sequenciamento microarranjo e Single-Cell RNA. Estes dados serão normalizados e avaliados aplicando o workflow SimpleSingleCell elaborado por (LUN; MCCARTHY; MARIONI, 2016). As amostras foram adquiridas dos estudos PD-L1 amplifi- cation is associated with an immune cell rich phenotype in squamous cell cancer of the lung (GOLDMANN et al., 2021) e Gene Expression Signature of Cigarette Smoking and Its Role in Lung Adenocarcinoma Development and Survival (LANDI et al., 2008). A tabela 4.1 possui os dados do título do artigo, autores, quantidade de amostras, tecnologia de sequenciamento utilizado e número de identificação no repositório Gene Expression Omnibus. Tabela 4.1: Detalhes dos dados de expressão utilizados na análise Artigo Autores Quantidade de amostras Tecnologia de sequenciamento GSE PD-L1 amplification is associated with an immune cell rich phenotype in squamous cell cancer of the lung. GOLDMANN et al. 218 RNA-seq, Illumina HiSeq 2500 GSE81089 Gene Expression Signature of Cigarette Smoking and Its Role in Lung Adenocarcinoma Development and Survival LANDI et al. 135 Microarray (Affymetrix) GSE10072 Fonte: O autor (2022). Paralelamente iremos adquirir dados para criação da rede biológica utilizando o STRING. Serão utilizados os seguintes parâmetros: Experimentos e database, com score de 0.80 e será realizado o download de todas as interações de Homo sapiens (taxon id = 9606). A integração desses dados serão analisados usando a metodologia do transcriptograma (figura 4.1). 4.2 levi O levi será desenvolvido utilizando algumas linguagens de programação de forma híbrida. Abaixo, temos os conceitos das ferramentas utilizadas e as explicações dos cálculos para con- 31 Homo sapiens GEO (microarranjo/RNA-Seq); Aquisição de dados para criação da rede transcriptograma levi Tecidos sádios/câncer (in vivo): * pulmão Desenvolvimento do dashboard usando o Shiny Normalizações *Microarranjo *RNA-seq *Single Cell Figura 4.1: Workflow com as etapas do projeto. O projeto será dividido em três etapas, sendo as duas primeiras executadas paralelamente. (A) Teremos a obtenção dos dados para análise de expressão gênica de Homo sapiens. (B) Ao mesmo tempo faremos a aquisição de dados em bancos de dados online para criação das redes de interação. (C) Com a utilização dos métodos do transcriptograma e o levi iremos desenvolver uma ferramenta em dashboard para facilitar a utilização das ferramentas de análise de rede. traste, resolução, zoom e suavização que são responsáveis por alterações na geração de imagem do landscape. 32 4.2.1 R R é uma linguagem e um ambiente de desenvolvimento voltado principalmente para compu- tação estatística (inferência, simulações, data mining, etc) e gráficos, está disponível como um software livre, atualmente está na versão 4.2.2 (publicada em 31/10/2022) e pode ser executado em sistemas operacionais Windows, Linux, MacOS (R Core Team, 2018). Entre as facilidades da utilização da linguagem R, podemos citar: • Facilita o armazenamento e manipulação de dados; • Possui variadas funções e pacotes para manipulação de vetores e matrizes; • Pacotes e ferramentas que permitem a análise dos dados; • Integração com outras linguagens de programação; • Possibilidade de criação de pacotes com interface gráfica. O ambiente de desenvolvimeto integrado (IDE) utilizado foi o RStudio. O RStudio pos- sui uma interface gráfica do usuário que permite a utilização de botões, navegação entre os diretórios, leitura da documentação dos pacotes e facilita a codificação de scripts em R. O R foi usado em 85% do desenvolvimento e é responsável por receber os parâmetros do usuário como: arquivo com dados dos nodos, arquivo com valores de expressão, nomes das colunas dos dados de expressão que serão utilizadas para o processamento, coluna com o Gene Symbol; criação de funções utilizadas internamente no processamento; execução das linhas de código; desenvolvimento da interface de usuário com o Shiny e geração dos resultados. Um paradigma de programação bastante utilizado é a programação orientada a objetos (POO) ela consiste na utilização do conceito de objetos para armazenar atributos (dados) e métodos (códigos). A linguagem R propicia a utilização de programação orientada a objetos para a criação de programas. Para o desenvolvimento do presente trabalho algumas classes de objetos foram importantes como os vetores, matrizes e listas. • Vetores - variável unidimensional de tamanho fixo. Ao ser criado um vetor é informado quantos elementos poderá ter, esse valor não poderá ser alterado posteriormente. • Listas - variável unidimensional de tamanho dinâmico. É possível aumentar ou dimini- nuir o seu tamanho conforme novos elementos são incluídos ou excluídos. 33 4.2.2 C++ O C++ é uma das linguagens de programação mais utilizadas no mundo, seu uso vai desde a criação de sistemas operacionais até o desenvolvimento de programas para serem utilizados em redes de computadores e aplicações cliente/servidor. Foi criada no ínicio da década de 1980 por Bjarne Stroustrup e uma das suas principais características é a programação orientada a objetos (DEITEL; DEITEL, 1999). A linguagem R possui limitação na velocidade de execução de laços de repetição, para resolver esse problema foi utilizada a linguagem de programação C++, que faz parte de 14.5% de todo o código, e é responsável por executar alguns laços de repetição com maior velocidade. 4.2.3 CSS O Casdading Style Sheets (CSS) permite que o programador defina regras de estilos que são aplicadas aos elementos das páginas HTML. Essas regras podem ser aplicadas a um elemento único, a um grupo de elementos ou a um tipo específico de elemento. As regras de estilos permitem alterar a renderização dos elementos como cores, alinhamentos e bordas facilitando a execução na maioria dos navegadores (GOODMAN, 2002). O CSS foi utilizado em 0.5% do código e trabalha em conjunto com o Shiny para seleção de cores e efeitos na barra de carregamento que aparece quando o programa está em execução no seu modo gráfico. 4.2.4 Equações Contraste Aplica o cálculo para contraste no landscape. O valor de contraste altera a quantia de bits por pixel. contraste = 0.1− ( 0.1 ( x 100 )) (4.1) Para um valor de entrada, na formula sendo representado pela variável x, de “1” no contraste é aplicado o resultado do cálculo de 0.099 na geração da imagem, enquanto um valor de entrada de contraste de “100” aplica o resultado de 0.001 na geração da imagem. O valor de contraste está relacionado ao tamanho da visualização de cada vertice na geração 34 do landscape. Um valor alto para esse parâmetro irá aumentar o raio para cada vértice, enquanto que um valor menor irá diminuir o raio para cada vértice. Resolução Altera a dimensão do landscape. Está relacionado ao tamanho da matriz para criação da imagem. Cada célula da matriz é transformada em um pixel para a geração do landscape. resolução = inteiro (( y 100 ) 210+30 ) (4.2) A equação retorna o valor inteiro do cálculo. Um valor de entrada, na formula sendo re- presentado pela variável y, igual a “1” gera uma matriz de 32x32, da mesma forma um valor de entrada igual a “100” gera uma matriz de 240x240. Esses valores são respectivamente o menor e maior valor possível para a resolução no levi. Uma resolução maior fará com que o landscape possua uma maior quantidade de pixels, com isso melhora a visualização do resultado gerado, contudo, quanto maior a resolução, pro- porcionalmente, também é maior o tempo de processamento. Zoom Aumenta ou díminui a escala de visualização da rede do landscape. O algoritmo utilizado para gerar a imagem sempre cria o landscape de forma centralizada a partir da celula existente no ponto médio dos eixos x e y da matriz. A variável z representa a entrada do usuário e pode receber valores entre 0 e 100. zoom = 0.2 ( z 100 ) −0.2 (4.3) Para o zoom temos como exemplo que o valor de entrada “0” aplica o resultado de -0.2 no landscape. O valor de entrada igual a “100” aplica o resultado de 0 no landscape. Suavização Aplica o cálculo de suavização na imagem gerada do landscape. suavização = inteiro ( w 100 ) 18 (4.4) Se a suavização, na formula sendo representado pela variável w, for menor ou igual a zero ela recebe 1. Com isso o menor e maior valor resultantes do cálculo são respectivamente 1 e 18. 35 O parâmetro de suavização altera os valores do vértice virtual no ponto médio entre a co- nexão de dois vértices reais. O que temos na prática é que se o valor de suavização for baixo o landscape gerado possuirá, na sua visualização, pixels com intensidades de expressão diferen- tes, se a rede for grande, esse tipo de visualização pode dificultar a leitura de áreas de expressão. A figura 4.2 exemplifica o workflow para geração do landscape pelo levi. (A) temos uma rede hipotética criada utilizando o Medusa na sua versão 3.0 essa rede é utilizada como entrada para o levi. (B) ao executar o levi são verificados os valores para os parâmetros de contraste, resolução, zoom e suavização e realizado os cálculos para cada uma dessas configurações. (C) a primeira etapa para geração do landscape é a criação do contorno utilizando os dados dos nodos e interações, em conjunto com os parâmetros definidos pelo usuário. O tamanho da matriz é definido pelo valor de resolução. Os valores de constraste e zoom definem se as celulas da matriz recebem o valor 0 ou 10. Celulas com valor 10 são usadas para definir o contorno do landscape. (D) em seguida são aplicados os valores de expressão e suavização substituindo os valores das celulas que estavam com valor 10. (E) por fim, o landscape é gerado. 36 Cria o contorno calculando o ponto médio entre os nodos e utilizando os parâmetros: resolução, contraste e zoom. Aplica os valores de expressão e a suavização, substituindo os valores de contorno existentes. Rede criada no Medusa Versão 3.0. Resolução R e so lu çã o Resolução R e so lu çã o Resolução R e so lu çã o Equações A B C D E levi Figura 4.2: Workflow demonstrando as etapas de geração do landscape pelo levi utilizando o padrão (= 50) para os valores de resolução, contraste, suavização e zoom. 37 4.3 transcriptograma O transcriptograma é um programa desenvolvido para o ambiente de programação R que utiliza como entrada uma rede e realiza análises utilizando o método de Monte Carlo para identificação de clusters 1. Ele executa três funções principais: ordenamento, modularidade e análise da expressão gênica. O transcriptograma salva no computador onde foi executado os resultados dos seus proces- sos em arquivos no formato de texto. Nesse trabalho modificamos o transcriptograma para que todos os resultados entre as etapas de processamento sejam salvas em um objeto do R visando atender as exigências para ser aceito no Bioconductor e principalmente filtrar seu resultado em variáveis para facilitar a leitura do dashboard criado em Shiny para visualização dos resultados de forma interativa. Salvar os resultados das etapas em uma objeto do R facilita a manipulação para geração de novas análises, visualizações ou integração com outros pacotes do R. Com os genes ordenados pelo transcriptograma é possível utilizar a ferramenta levi para a geração panorâmica da rede facilitando a visualização das regiões de interesse. 4.4 Método de ordenamento de redes em uma dimensão Partindo de uma rede de interações proteína-proteína, não direcionadas, sem pesos nas interações, podemos transformá-la numa matriz de adjacência da seguinte maneira. Seja G uma rede com N vértices (proteínas) e E arestas (interações), podemos rotular de maneira arbitrária os vértices com números inteiros no intervalo [1,N], onde a matriz de adjacência A tem N colunas e N linhas, de tal maneira que cada elemento ai,j pode ter valor lógico FALSO ou VERDADEIRO. Atribuimos valor VERDADEIRO para o caso dos vértices i e j interagirem entre si, caso contrário o valor será FALSO (figura 4.3). 1cluster é um neologismo, ele tem sentido de aglomeração, agrupamento. 38 A B C H I J G D E F B A C D 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Figura 4.3: Transformação da rede em matriz de adjacência. (A) Rede hipótetica de 10 vértices e 20 arestas. (B) A rede convertida em forma de lista. (C) Transformação da rede em formato de lista para o formato númerico para ser convertida em matriz. D Rede no formato de matriz de adjacência, onde V significa que existe interação entre os elementos e F significa que não existe interação entre os elementos. A ordem de numeração dos vértices segue de forma crescente para cada novo vértice iden- tificado, porém, essa ordem pode ser alterada por meio de permutações de linhas e colunas. Para cada alteração, uma nova matriz de adjacência é criada, sendo assim, o número possível de matrizes de adjacência criadas é N! (fatorial de N). Por exemplo, uma rede com 20 vértices terá 20! (2.43× 1018) matrizes de adjacência para a mesma rede. Neste exemplo, sabemos que todas as matrizes representam a rede, algumas dessas matrizes podem evidenciar possíveis agrupamentos de vértices que podem ser relevantes. Uma maneira de encontrar as matrizes que possam ser relevantes é arranjar os vértices apro- ximando os elementos VERDADEIROS da diagonal da matriz e afastar os elementos FALSOS, 39 como apresentado na figura 4.4. 0 1 2 3 5 4 6 7 8 9 0 1 2 3 5 4 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Figura 4.4: (A) Matriz de adjacência com 10 vértices numerados de 0 até 9. (B) Trata-se da mesma matriz apresentada em (A), porém foram realizadas duas trocas de linhas e colunas da mesma (coluna 4 foi trocada pela coluna 5, o mesmo foi realizado para as linhas). A matriz B apresenta mais elementos próximos da diagonal do que a matriz A, logo a matriz B é o resultado desejado. Para alcançar este objetivo são necessárias duas condições: • Condição 1: A melhor distribuição a ser atingida é aquela onde teremos menos inter- faces VERDADEIRO/FALSO, ou seja, o melhor resultado é ter um grande número de elementos VERDADEIRO próximos (figura 4.5). • Condição 2: A distância dos elementos VERDADEIROS em relação à diagonal da ma- triz de adjacência é um importante fator de aproximação dos elementos. Quanto mais elementos próximos da diagonal, menos elementos estarão presentes nas extremidades da matriz, assim facilitando a visualização de agrupamentos (figura 4.6). 40 Distribuição 1 Distribuição 2 Distribuição 3 Distribuição 4 Distribuição 5 Distribuição 6 Figura 4.5: Proximidade dos vizinhos em relação ao elemento central na matriz de adjacência. A figura mostra seis possibilidades de vizinhos do elemento central. A melhor distribuição é aquela que apresenta maior número de VERDADEIROS em torno do elemento central, no caso a distribuição nº 6 é a melhor distribuição dentre todas as possibilidades. 4.4.1 Modelo Cruz No artigo de Rybarczyk-Filho e colaboradores (RYBARCZYK-FILHO et al., 2011) foi apresentado um modelo que atende a condição 1 e 2 da seção 4.4. O modelo avalia os vizinhos acima, abaixo, à esquerda e à direita de um elemento VERDADEIRO na matriz de adjacência (figura 4.7) multiplica pela distância euclidiana do elemento em relação a diagonal da matriz de adjacência (Equação 4.5). ε = V ∑ j=1 V ∑ i=1 di, j{|ai, j−ai+1, j|+ |ai, j−ai−1, j|+ |ai, j−ai, j+1|+ |ai, j−ai, j−1|} (4.5) Este cálculo é realizado para todos os elementos VERDADEIROS da matriz e somam-se seus resultados. O resultado final é chamado de “custo energético” (ε) da matriz de adjacência. Aplica-se o método de Monte Carlo para minimizar o ε da matriz. 41 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Figura 4.6: Representação de quatro possíveis distâncias do elemento central em relação a diagonal principal de uma matriz de adjacência. A diagonal principal é representada pela linha vermelha na matriz. A distância até o elemento A é a distância menos favorável, pois o elemento central está muito afastado em relação a diagonal. A até o elemento D pode ser considerada a distância mais favorável em relação elemento central e diagonal. O caso ideal é que a distância entre o elemento central e a diagonal seja o menor possível. A metodologia se baseia na aleatorização dos vértices da matriz A. Realizam-se permuta- ções de linhas e as respectivas colunas, ou seja, nenhuma interação é perdida ou criada durante o processo, a cada permutação é calculada a função “custo energético” (ε). Comparam-se os valores de εi antes e depois da permutação ε f . Verifica-se ε f < εi, caso seja, a nova distribuição da matriz de adjacência é aceita e realiza-se novas permutações. Caso ε f > εi, a distribuição poderá ser aceita com uma probabilidade de exp− (ε f−εi) T , onde T é um parâmetro análogo a temperatura no Método de Monte Carlo. Caso ε f não seja aceito, então a matriz de adjacência retorna para o estado de εi. Para a simulação, T inicia com um valor T0 que é um valor igual ao “custo energético” inicial da matriz de adjacência ε0. Esse valor de T é diminuído gradativamente ao longo da 42 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Figura 4.7: Avaliação da vizinhança do elemento central no modelo “cruz”, onde o elemento central é representado pelo simbolo de confirmação verde e branco e os vizinhos avaliados são representados por quadrados amarelos com setas nas direções que são avaliados os elementos em seu entorno (conforme equação 4.5). simulação, espera-se um tempo suficiente para que o sistema atinja o equilíbrio termodinâmico para a temperatura em questão. A temperatura é reajustada por meio de uma razão de arrefei- cimento µ , tal que T ∗ = µT , sendo 0 < µ < 1, onde T ∗ é a nova temperatura. Este processo é repetido até a temperatura seja próxima de zero. Esta técnica é conhecida como simulated annealing, muito empregada em simulações para minimização de energia (figura 4.8). 43 Figura 4.8: Gráfico de nível de custo energético por configurações possíveis de uma matriz de adjacência. Este gráfico representa a aplicação do simulated annealing em uma matriz hipoté- tica para todas as suas possíveisinon configurações. O objetivo da técnica é atingir o Minímo Absoluto passando pelos Máximos Locais sem que a simulação termine em algum Minímo Local. 4.4.2 Modelo X Este modelo foi proposto por Molan-Rybarczyk-Filho (MOLAN; RYBARCZYK-FILHO, 2014) a partir de uma alteração na equação do modelo cruz para o cálculo de proximidade dos elementos vizinhos em relação ao elemento central (equação 4.6). O Modelo X consiste numa avaliação de vizinhos às diagonais do elemento central: superior direito, superior esquerdo, inferior direito e inferior esquerdo (figura 4.9). ε = V ∑ j=1 V ∑ i=1 di, j{|ai, j−ai−1, j+1|+ |ai, j−ai−1, j−1|+ |ai, j−ai+1, j+1|+ |ai, j−ai+1, j−1|} (4.6) 44 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Figura 4.9: Avaliação da vizinhança do elemento central no modelo “X”, onde o elemento central é representado pelo simbolo de confirmação verde e branco e os vizinhos avaliados são representados por quadrados amarelos com setas nas direções que são avaliados os elementos em seu entorno (conforme equação 4.6). 4.4.3 Modelo Anel Este modelo foi proposto por Molan-Rybarczyk-Filho (MOLAN; RYBARCZYK-FILHO, 2014) a partir da união dos modelos cruz e X para o cálculo de proximidade dos elementos vizinhos em relação ao elemento central (equação 4.7). O Modelo Anel consiste numa avaliação de todos os vizinhos do elemento central (figura 4.10). ε = V ∑ j=1 V ∑ i=1 di, j{|ai, j−ai−1, j−1|+ |ai, j−ai−1, j|+ |ai, j−ai−1, j+1|+ |ai, j−ai, j+1| +|ai, j−ai+1, j+1|+ |ai, j−ai+1, j|+ |ai, j−ai+1, j−1|+ |ai, j−ai, j−1|} (4.7) 45 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Figura 4.10: Avaliação da vizinhança do elemento central no modelo “Anel”, onde o elemento central é representado pelo simbolo de confirmação verde e branco e os vizinhos avaliados são representados por quadrados amarelos com setas nas direções que são avaliados os elementos em seu entorno (conforme equação 4.7). 4.5 Modularidade A definição de um módulo funcional é um conjunto de elementos (proteínas, genes, etc) que interagem entre si de alguma forma (FRASER, 2005; VINOGRADOV, 2008) e realizam alguma função específica, como, por exemplo, o ciclo do ácido tricarboxílico ou ciclo de Krebs, que possui uma série reações catabólicas e anabólicas com a função de oxidar a acetil-CoA (NELSON; COX, 2004). Para o cálculo da modularidade, não consideramos as classificações de natureza biológica (ontologias, rotas metabólicas, etc) para evidenciar os módulos. Basica- mente, os módulos são o resultado do rearranjo da matriz de adjacência. Para a visualização dos módulos de uma maneira mais simples, utiliza-se uma função que mensura o número de interações entre os vértices contidos em uma janela de largura w dividido pela quantidade de conexões que cada vértice possui dentro e fora da janela w e atribui-se o valor para o vértice central da janela. A janela percorre todos os vértices da rede com condições de 46 contorno periódica. A figura 4.11 apresenta um exemplo do cálculo da modularidade para uma rede com dez vértices previamente ordenado pelo método (CFM), onde aplica-se uma janela de largura igual a três (w = 3). Figura 4.11: A figura apresenta 10 janelas para calcular a modularidade de uma rede com 10 vértices. Para calcular a modularidade utiliza-se uma função que mensura o número de interações entre os vértices contidos em uma janela de largura w dividido pela quantidade de conexões que cada vértice possui dentro e fora da janela w e atribui-se o valor para o vértice central da janela. A janela percorre toda a rede com condições de contorno periódicas. Fonte: (BIAZOTTI, 2016) A figura 4.12 mostra a formação dos agrupamentos dos vértices baseada no cálculo de mo- dularidade. Vemos dois grandes agrupamentos, um aproximadamente 0.33 de modularidade e outro com no máximo 0.40 de modularidade. Entre estes grupos o nível máximo de modulari- dade é aproximadamente 0.1. Podemos interpretrar da seguinte maneira: No agrupamento com modularidade 0.4, os vértices dentro da janela compartilham no máximo 40% de suas intera- ções dentro da janela e os mesmos vértices têm 60% de suas interações fora com vértices fora da janela. O ideal seria atingir o valor 1.0, que significa que todos os vértices dentro da janela compartilham entre si todas as suas interações. 47 Figura 4.12: A figura mostra os agrupamentos formados pela modularidade de janela. Um primeiro agrupamento possui 0.33 de modularidade e segundo 0.4 de modularidade. Entre os dois agrupamentos temos uma máximo de 0.1 de modularidade. Isto significa que os vértices entre estes dois agrupamentos compartilham entre si apenas 10% de suas interações, lembrando que isto somente é valido para uma janela de largura w = 3. Fonte: (BIAZOTTI, 2016) 4.6 Análise de Expressão Gênica Os dados de expressão gênica podem ser gerados de tecnologias de RNA-seq ou micro- arranjo. Após a aquisição deve-se normalizar os dados, permitindo que seja possível realizar comparações entre os resultados. Com os dados normalizados, é aplicado um filtro que remove as sondas que não estão presentes na rede proteíca, caso haja referência a mais de uma sonda é aplicado um cálculo de média para a expressão das sondas. A aplicação de suavização é similar a utilizada na etapa de modularidade, distinguindo somente de não utilizar a razão no cálculo e sim a média entre os valores das expressões das sondas. A última etapa desse processo é o cálculo do p-valor que utiliza uma função beta incompleta (equação 4.8) verificando a proba- bilidade de ocorrência em um intervalo finito. Para o cálculo do p-valor utiliza-se os dados dos 48 módulos de expressão antes da suavização retornando assim o p-valor para cada sonda. Bx(a,b) = ∫ x 0 ta−1(1− t)b−1dt (4.8) 4.7 Enriquecimento Funcional Após a aplicação da modularidade e separação dos agrupamentos, é necessário verificar a significância biológica de cada módulo. Para isto podemos utilizar bancos de dados como o Gene Ontology (GO) (ASHBURNER et al., 2000), Kyoto Encyclopedia of Genes and Ge- nomes (KEGG) (KANEHISA et al., 2012), Reactome (FABREGAT et al., 2018), entre outros. Sabemos que cada agrupamento é formato por uma coleção de vértices, os quais podem ser pro- teínas. Podemos utilizar ferramentas de enriquecimento funcional da plataforma Bioconductor (HUBER et al., 2015) e analisar cada agrupamento separadamente para encontrar os possíveis processos biológicos. Além dos processos biológicos essas ferramentas permitem a obtenção dos componentes celulares e funções moleculares. 4.8 Desenvolvimento da ferramenta dashboard A ferramenta de dashboard visa agrupar as ferramentas do transcriptograma e do levi per- mitindo uma utilização mais intuitiva pelo usuário final. Seu desenvolvimento foi realizado utilizando principalmente a linguagem de programação R. Outras linguagens como C e C++ foram utilizadas em algumas funções por realizarem mais rapidamente alguns processos que são custosos computacionamente para a linguagem R, assim otimizando a velocidade de execução das tarefas. Como, por exemplo, utilizamos a linguagem C++ em algumas funções que buscam percorrer todas as celulas da matriz utilizando um laço de repetição. Para facilitar o acesso a comunidade científica a ferramenta será disponibilizada no reposi- tório do Bioconductor. 4.8.1 Método transcriptograma O transcriptograma (RYBARCZYK-FILHO et al., 2011) é um pacote desenvolvido para o ambiente R. Esse pacote consegue analisar uma quantidade massiva de dados (Big Data). Fo- ram realizadas alterações no código original do método para que os cálculos intermediários não 49 salvem informações temporárias necessárias para a geração do resultado final em unidades de armazenamento. Os modulos utilizados no presente trabalho são ordenamento e modularidade. Com isso as etapas realizadas pelo método são as seguintes: 1. É fornecida pelo usuário uma rede de interação, podendo ser proteína-proteína, regulação, etc; 2. O pacote do transcriptograma analisa a rede utilizando o método de Monte Carlo para en- contrar clusters na rede em que foi fornecida pelo usuário; 3. Por fim, a ferramenta apresenta todos os clusters em um gráfico interativo que permite a seleção das proteínas para geração de sub-redes e apresenta métricas para análise de redes com- plexas. 50 5 Resultados e Discussão 5.1 levi O levi é um pacote de código aberto, desenvolvido para o ambiente R com o propósito de visualização concomitante da projeção de expressão gênica utilizando métricas de centralida- des sobre uma rede biológica. A criação do levi foi concebida utilizando como base dois outros softwares. O primeiro é o ViaComplex, um software que utilizada o compilador FORTRAN para criar gráficos de expressão gênica de redes (CASTRO et al., 2009) . O segundo é o GA- LANT (GrAph LANscape VisualizaTion), um plugin para o Cytoscape que realiza as mesmas funções do ViaComplex mas com a facilidade de integração com as ferramentas já existentes do Cytoscape (CAMILO et al., 2013). 5.1.1 Implementação Para a utilização do levi é necessário um arquivo contendo dados de expressão dos genes de interesse. Esses arquivos podem ser obtidos de bases de dados online (Gene Expression Omnibus (GEO), ArrayExpress, The Cancer Genome Atlas (TCGA), etc). A seleção dos genes e sua respectiva normalização dos dados de expressão devem ser realizadas pelo usuário. O arquivo de expressão deve possuir uma coluna com dados do Gene Symbol, contendo a nomenclatura dos genes e pelo menos uma coluna com os valores de expressão. Também é possível realizar a comparação entre duas colunas de valores de expressão (Teste/Controle). Os dados dentro desse arquivo não podem estar entre aspas simples ou duplas. Caso o arquivo de expressão não possua valores para todos os genes da rede, uma men- sagem será exibida mostrando o caminho para um arquivo de log em um diretório temporário com os nomes dos genes. Na geração do landscape os genes sem valor de expressão serão exi- bidos com valores próximos a 0.5 demonstrando que não houveram alterações (subexpressos ou superexpressos). 51 Dados de rede podem ser obtidos de repositórios online (starBase, miRBase, lncRNAdb, HTRIdb, STRING, STITCH, etc). Também podem ser gerados utilizando programas específi- cos (Cytoscape, RedeR, Medusa, etc). O levi reconhece arquivos de rede nos formatos Medusa (DAT), RedeR (DYN), Pajek (NET) e do STRING / STITCH. Os gráficos gerados podem ser salvos nos formatos TIFF, BMP, JPEG e PNG. O levi foi projetado levando em consideração usuários com diferentes níveis de conhe- cimento em informática e programação e, visando atender necessidades distintas. Por conta disso, possui dois modos de visualização: Interface de usuário (GUI) e script. O modo GUI foi implementado utilizando o pacote Shiny com o intuíto de facilitar a criação de páginas web interativas e se destina principalmente a usuários com qualquer nível de conhecimento em in- formática. O modo script utiliza linhas de comando e permite a execução em lote para a criação de gráficos com diferentes comparações entre valores de expressão. Por utilizar o console do R, é voltado para usuários com maior experiência em programação. A versão script, por não executar o ambiente gráfico, realiza o processo de geração do gráfico um pouco mais rápido do que a versão GUI. Ambos os modos de visualização permitem alterar parâmetros relacionados ao zoom, dimensão, suavização e contraste. Os dois modos também permitem a utilização de escala logaritmica que, mantendo as proporções, melhora a visualizão das expressões nas àreas da rede. Utilizando o modo de visualização GUI é possível escolher entre seis conjuntos de cores para a criação do gráfico. 5.1.2 Instalação O pacote levi está disponível no Bioconductor atráves desse link. Após a instalação ele pode ser carregado utilizando o modo script ou a interface gráfica do usuário, esse último modo permite a visualização de duas formas diferentes: no navegador padrão ou com a própria engine do R. Abaixo temos as linhas de código para o carregamento e execução dos diferente modos do pacote levi após instalação do arquivo binário. 1 # I n s t a l a ç ã o do l e v i u t i l i z a n d o o r e p o s i t ó r i o do B i o c o n d u c t o r 2 i f ( ! r e q u i r e ( " BiocManager " , q u i e t l y = TRUE) ) 3 i n s t a l l . p a c k a g e s ( " BiocManager " ) 4 5 BiocManager : : i n s t a l l ( " l e v i " ) 6 7 l i b r a r y ( l e v i ) 8 # Execu ta o l e v i no navegado r pa d r a o . https://www.bioconductor.org/packages/release/bioc/html/levi.html 52 9 l e v i _ u i (TRUE) 10 11 # Execu ta o l e v i no R . 12 l e v i _ u i (FALSE) 13 14 # Execu ta o l e v i em modo s c r i p t s e l e c i o n a n d o os p a r a m e t r o s por l i n h a de comando . 15 l e v i ( e x p r e s s i o n I n p u t , f i l e T y p e I n p u t , ne tworkNodes Inpu t , ne tworkEdges Inpu t , geneSymbolnput , readExpColumn , c o n t r a s t V a l u e I n p u t , zoomValueInput , r e s o l u t i o n V a l u e I n p u t , s m o o t h V a l u e I n p u t ) 5.1.3 Carregando os arquivos O levi reconhece arquivos de rede nos formatos Medusa (DAT), RedeR (DYN), Pajek (NET) e do STRING / STITCH. O arquivo de expressão gênica deve possuir uma coluna com dados do Gene Symbol, contendo a nomenclatura dos genes e pelo menos uma coluna com os valores de expressão. Também é possível realizar a comparação entre duas colunas de valores de expressão (Teste/Controle). A rede (nodos e interações) foi criada utilizando como base os componentes biomoleculares da via de sinalização ErbB (hsa04012) obtidos no repositório online KEGG PATHWAY que foram exportados para o STRING. Para a representação gráfica da rede gerada, importamos os dados do STRING para o Me- dusa 1.5 (figura 5.1). 5.1.4 Execução do levi Para a primeira análise realizamos duas comparações. A primeira foi com dados de expres- são gênica de pessoas que não possuem adenocarcinoma mas que são fumantes em relação à pessoas que nunca fumaram e não possuem adenocarcinoma. A segunda comparação é entre pessoas que fumam e não possuem adenocarcinoma em relação à pessoas que nunca fumaram e não possuem adenocarcinoma. Para a execução do levi e geração do resultado com as compa- rações utilizadas nesse estudo de caso, o usuário deve digitar os seguintes comandos no console do R: 53 CAMK2G CAMK2DCAMK2B ELK1 ARAF CAMK2A AREG STAT5B JUN BRAF PRKCB STAT5A