Desenvolvimento de um método de classificação taxonômica de dados de metagenomas

Pilan, José Rafael [UNESP]

Desenvolvimento de um método de classificação taxonômica de dados de metagenomas

dc.contributor.advisor	Rybarczyk Filho, José Luiz [UNESP]
dc.contributor.advisor	Takeda, Agnes Alessandra Sekijima [UNESP]
dc.contributor.author	Pilan, José Rafael [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2017-04-18T19:31:24Z
dc.date.available	2017-04-18T19:31:24Z
dc.date.issued	2017-02-15
dc.description.abstract	Na análise de dados metagenômicos temos duas perguntas básicas que podemos fazer: “Quem são?” e “O que estão fazendo?” os microorganismos de uma determinada amostra. Para responder a primeira pergunta utiliza-se a análise taxonômica de microorganismos. Existem diversos software que utilizam diferentes metodologias para atingir essa finalidade. Esses métodos são divididos em duas categorias principais: composicional e alinhamento por similaridade. O que diferencia os métodos são principalmente o tempo para ser realizada a análise, poder computacional e eficiência na identificação dos reads. Nesse trabalho propomos um novo método por composição que utiliza cinco assinaturas genômicas e suas combinações para identificação dos reads: concentração de GC (Guanina/Citocina), entropia de dipletes, entropia de tripletes, entropia de tetrapletes e abundância total de dinucleotı́deos. Utilizamos um conjunto de dados referente a 3055 genomas completos de bactérias provenientes do NCBI (National Center for Biotechnology Information)que foram fragmentados em dois grupos: teste e controle. Os grupos foram fragmentados em tamanhos de 50-1000pb com partições de tamanho 50pb, buscando se aproximar dos tamanhos de reads normalmente gerados pelos equipamentos de sequenciamento de nova geração. O desempenho da metologia foi avaliado por medidas de sensibilidade, especificidade, precisão e média harmônica em comparação aos resultados do grupo teste com o grupo controle. Dentre as combinações analisadas, a concentração de GC apresentou melhor desempenho na identificação dos organismos. Para a comparação do método com os software já existentes, prospectamos 233 amostras no EBI (European Bioinformatics Institute) do projeto “A human gut microbial gene catalog established by deep metagenomic sequencing”, realizamos a análise das amostras com os programas Phymm, Phymmbl e Raiphy e comparamos com os resultados de nossa metodologia. Na comparação, a medida de concentração de GC em conjunto com a medida entropia de dipletes mostrou-se eficiente em comparação as demais atingindo em média 89,5% de identificação dos reads.	pt
dc.description.abstract	In analyzing metagenomic data we have two basic questions that we can ask: “Who are they?” and “What are doing the microorganisms of a given sample?” . To answer the first question we use the taxonomic analysis of microorganisms. There are several software that use different methodologies to achieve this purpose. These methods are divided into two main categories: compositional and alignment by similarity. What differentiates the methods are mainly the time to perform the analysis, computational power and efficiency in the identification of reads. In this work we propose a new compositional method that uses five genomic signatures and their combinations to identify reads: GC concentration, diplet entropy, triplet entropy, tetraplet entropy and total abundance of dinucleotides. We used a data set of 3055 complete bacterial genomes from the NCBI (National Center for Biotechnology Information) that were fragmented into two groups: test and control. The groups were fragmented in sizes of 50-1000bp with partitions of size 50bp, seeking to approximate the sizes of reads normally generated by the new generation sequencing equipment. The performance of the metology was evaluated by measures of sensitivity, specificity, precision and harmonic mean in comparison to the results of the test group with the control group. Among the combinations analyzed, the GC concentration presented better performance in the identification of organisms. For the comparison of the method with existing software, we prospected 233 samples in the EBI (European Bioinformatics Institute) of the project “A human gut microbial gene established by deep metagenomic sequencing”, we performed the analysis of the samples with the programs Phymm, Phymmbl and Raiphy and compared with the results of our methodology. In the comparison, the GC concentration measure in conjunction with the entropy measurement of diplets proved to be efficient in comparison to the others reaching a mean of 89.5% of the identification of the reads.	en
dc.identifier.aleph	000884304
dc.identifier.capes	33004030077P0
dc.identifier.uri	http://hdl.handle.net/11449/150319
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Metagenômica	pt
dc.subject	Taxonomia numérica	pt
dc.subject	Metagenoma	pt
dc.subject	Micro-organismos	pt
dc.subject	Código genético	pt
dc.title	Desenvolvimento de um método de classificação taxonômica de dados de metagenomas	pt
dc.title.alternative	Development of a taxonomic classification method of metagenomic data	en
dc.type	Dissertação de mestrado	pt
dspace.entity.type	Publication
relation.isGradProgramOfPublication	aaa64bd9-51f2-4e53-81bf-8e6e2b322f6b
relation.isGradProgramOfPublication.latestForDiscovery	aaa64bd9-51f2-4e53-81bf-8e6e2b322f6b
relation.isOrgUnitOfPublication	ab63624f-c491-4ac7-bd2c-767f17ac838d
relation.isOrgUnitOfPublication.latestForDiscovery	ab63624f-c491-4ac7-bd2c-767f17ac838d
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Biociências, Botucatu	pt
unesp.embargo	24 meses após a data da defesa	pt
unesp.graduateProgram	Biotecnologia - IBB	pt
unesp.knowledgeArea	Biotecnologia	pt
unesp.researchArea	Biotecnologia aplicada a saúde humana e animal	pt

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2

Nome:: pilan_jr_me_araiq_par.pdf
Tamanho:: 1.9 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Nome:: pilan_jr_me_araiq_int.pdf
Tamanho:: 5.82 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.97 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Botucatu - IBB - Instituto de Biociências