Publicação: Desenvolvimento de um método de classificação taxonômica de dados de metagenomas
dc.contributor.advisor | Rybarczyk Filho, José Luiz [UNESP] | |
dc.contributor.advisor | Takeda, Agnes Alessandra Sekijima [UNESP] | |
dc.contributor.author | Pilan, José Rafael [UNESP] | |
dc.contributor.institution | Universidade Estadual Paulista (Unesp) | |
dc.date.accessioned | 2017-04-18T19:31:24Z | |
dc.date.available | 2017-04-18T19:31:24Z | |
dc.date.issued | 2017-02-15 | |
dc.description.abstract | Na análise de dados metagenômicos temos duas perguntas básicas que podemos fazer: “Quem são?” e “O que estão fazendo?” os microorganismos de uma determinada amostra. Para responder a primeira pergunta utiliza-se a análise taxonômica de microorganismos. Existem diversos software que utilizam diferentes metodologias para atingir essa finalidade. Esses métodos são divididos em duas categorias principais: composicional e alinhamento por similaridade. O que diferencia os métodos são principalmente o tempo para ser realizada a análise, poder computacional e eficiência na identificação dos reads. Nesse trabalho propomos um novo método por composição que utiliza cinco assinaturas genômicas e suas combinações para identificação dos reads: concentração de GC (Guanina/Citocina), entropia de dipletes, entropia de tripletes, entropia de tetrapletes e abundância total de dinucleotı́deos. Utilizamos um conjunto de dados referente a 3055 genomas completos de bactérias provenientes do NCBI (National Center for Biotechnology Information)que foram fragmentados em dois grupos: teste e controle. Os grupos foram fragmentados em tamanhos de 50-1000pb com partições de tamanho 50pb, buscando se aproximar dos tamanhos de reads normalmente gerados pelos equipamentos de sequenciamento de nova geração. O desempenho da metologia foi avaliado por medidas de sensibilidade, especificidade, precisão e média harmônica em comparação aos resultados do grupo teste com o grupo controle. Dentre as combinações analisadas, a concentração de GC apresentou melhor desempenho na identificação dos organismos. Para a comparação do método com os software já existentes, prospectamos 233 amostras no EBI (European Bioinformatics Institute) do projeto “A human gut microbial gene catalog established by deep metagenomic sequencing”, realizamos a análise das amostras com os programas Phymm, Phymmbl e Raiphy e comparamos com os resultados de nossa metodologia. Na comparação, a medida de concentração de GC em conjunto com a medida entropia de dipletes mostrou-se eficiente em comparação as demais atingindo em média 89,5% de identificação dos reads. | pt |
dc.description.abstract | In analyzing metagenomic data we have two basic questions that we can ask: “Who are they?” and “What are doing the microorganisms of a given sample?” . To answer the first question we use the taxonomic analysis of microorganisms. There are several software that use different methodologies to achieve this purpose. These methods are divided into two main categories: compositional and alignment by similarity. What differentiates the methods are mainly the time to perform the analysis, computational power and efficiency in the identification of reads. In this work we propose a new compositional method that uses five genomic signatures and their combinations to identify reads: GC concentration, diplet entropy, triplet entropy, tetraplet entropy and total abundance of dinucleotides. We used a data set of 3055 complete bacterial genomes from the NCBI (National Center for Biotechnology Information) that were fragmented into two groups: test and control. The groups were fragmented in sizes of 50-1000bp with partitions of size 50bp, seeking to approximate the sizes of reads normally generated by the new generation sequencing equipment. The performance of the metology was evaluated by measures of sensitivity, specificity, precision and harmonic mean in comparison to the results of the test group with the control group. Among the combinations analyzed, the GC concentration presented better performance in the identification of organisms. For the comparison of the method with existing software, we prospected 233 samples in the EBI (European Bioinformatics Institute) of the project “A human gut microbial gene established by deep metagenomic sequencing”, we performed the analysis of the samples with the programs Phymm, Phymmbl and Raiphy and compared with the results of our methodology. In the comparison, the GC concentration measure in conjunction with the entropy measurement of diplets proved to be efficient in comparison to the others reaching a mean of 89.5% of the identification of the reads. | en |
dc.identifier.aleph | 000884304 | |
dc.identifier.capes | 33004030077P0 | |
dc.identifier.uri | http://hdl.handle.net/11449/150319 | |
dc.language.iso | por | |
dc.publisher | Universidade Estadual Paulista (Unesp) | |
dc.rights.accessRights | Acesso aberto | |
dc.subject | Metagenômica | pt |
dc.subject | Taxonomia numérica | pt |
dc.subject | Metagenoma | pt |
dc.subject | Micro-organismos | pt |
dc.subject | Código genético | pt |
dc.title | Desenvolvimento de um método de classificação taxonômica de dados de metagenomas | pt |
dc.title.alternative | Development of a taxonomic classification method of metagenomic data | en |
dc.type | Dissertação de mestrado | |
dspace.entity.type | Publication | |
unesp.campus | Universidade Estadual Paulista (UNESP), Instituto de Biociências, Botucatu | pt |
unesp.embargo | 24 meses após a data da defesa | pt |
unesp.graduateProgram | Biotecnologia - IBB | pt |
unesp.knowledgeArea | Biotecnologia | pt |
unesp.researchArea | Biotecnologia aplicada a saúde humana e animal | pt |
Arquivos
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.97 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: