Construção de uma ferramenta para análise de enriquecimento funcional gênico multiespécie entre amostras comparativas

Carregando...
Imagem de Miniatura

Data

2018-07-24

Autores

Molan, André Luiz

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Sequenciar um organismo, atualmente, pode ser financeiramente custoso. A quantidade de dados gerada por uma única corrida é grande. Analisá-los não é trivial, exigindo, cada vez mais, técnicas computacionais e métodos estatísticos robustos, capazes de extrair o máximo possível de informações. Normalmente, alguns estudos visam à busca por genes diferencialmente expressos mediante diferentes condições experimentais. É importante conhecer perfis de expressão, porém, faz-se necessário entender como os genes relacionam-se entre si funcionalmente, o que só é possível por meio de uma análise de enriquecimento funcional. Dessa forma, desenvolvemos um pacote em ambiente de programação R chamado EntropyClusterGenes. Ele é capaz de enriquecer conjuntos amostrais comparativos sob o ponto de vista da atividade e diversidade gênica utilizando a teoria da informação de Shannon. A ferramenta apresenta uma nova perspectiva de enriquecimento funcional, buscando por grupos de genes funcionalmente associados (GFAGs) através do conceito de entropia relacionado à ontologias e KEGG pathways. Para cada GFAG encontrado, através da técnica de bootstrap, calcula-se um p-valor, que é validado via FDR (False Discovery Rate) para determinar se o grupo encontrado é ou não significativo em uma dada comparação amostral (controle versus experimento). Através de uma nova análise de RNA-seq com o protocolo Tuxedo, quantificamos os transcritos de forma bruta e diferencial em 46 amostras de Aedes aegypti e 8 amostras de Drosophila melanogaster, reagrupadas, posteriormente, em 40 combinações (controle e experimento) para o enriquecimento funcional pela nova ferramenta. De acordo com cada combinação, encontramos diversos grupos significativos relacionados a processos biológico, funções moleculares, componentes celulares e KEGG pathways. Para validar a análise de enriquecimento, comparamos os resultados obtidos pelo EntropyClusterGenes a alguns dos principais resultados obtidos pelos pesquisadores nos estudos originais, além de realizarmos um benchmarking com outras três ferramentas similares, encontrando resultados semelhantes entre elas.
An organism sequencing is still expensive. The amount of data generated by a single run is massive. Analyzing them is not trivial, requiring computational techniques and robust statistical methods capable of extracting as much information as possible. Usually, some studies aim to search for genes differentially expressed by different experimental conditions. It is important to know the expression profiles, however, it is necessary to understand how the genes are functionally related to each other, which is only possible through a functional enrichment analysis. In this context, we have developed a package in the R programming environment called EntropyClusterGenes. It is able to enrich comparative sample sets from the perspective of gene activity and gene diversity using Shannon’s information theory. The tool presents a new approach of functional enrichment, searching for groups of functionally associated genes (GFAGs) related to ontologies and KEGG pathways classifying them according to their entropy. For each GFAG found, by means of the bootstrap technique, a p-value is calculated, which is validated by FDR (False Discovery Rate) to determine if the group found is significant or not in a given sample comparison (control vs. experiment). Using a new analysis of RNA-seq with the Tuxedo protocol, we quantified the raw and differential transcripts in 46 samples of Aedes aegypti and 8 samples of Drosophila melanogaster, later regrouped in 40 combinations (control and experiment) for the enrichment with the new tool. According to each combination, we found several significant groups related to biological processes, molecular functions, cellular components and KEGG pathways. To validate the enrichment analysis, we compared the results obtained by EntropyClusterGenes to some of the main results obtained by the researchers in the original studies. In addition, we have run a benchmarking with three other similar tools, finding similar results between them.

Descrição

Palavras-chave

diversidade gênica, atividade gênica, enriquecimento funcional gênico, ferramenta computacional, grupo de genes funcionalmente associados (GFAGs)

Como citar