Logotipo do repositório
 

Publicação:
Identificação e análise de variantes genéticas obtidas a partir do sequenciamento do genoma de touros da raça Nelore

Carregando...
Imagem de Miniatura

Supervisor

Oliveira, Henrique Nunes de

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Relatório de pós-doc

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Estratégias para utilização de dados de sequenciamento completo do genoma em avaliações genéticas de várias espécies têm sido desenvolvidas em função da evolução e barateamento das técnicas de sequenciamento e do aumento esperado da acurácia das avaliações decorrente da possibilidade de incluir informações de mutações causais. Métodos de alinhamento das sequências e de identificação das variantes são de fundamental importância para a utilização dos dados de sequenciamento. Existem diferenças entre os métodos disponíveis quanto ao número e concordância de fase de parte das variantes identificadas. Estas diferenças podem influenciar diretamente nos resultados das análises realizadas para avaliações genéticas que são diretamente dependentes da descoberta das variantes. Assim, a escolha de um método menos adequado para identificação das variantes poderia comprometer os resultados das análises subsequentes ou, no mínimo, reduzir o ganho em acurácia esperado. No presente projeto serão utilizados dados de sequenciamento completo do DNA e de genotipagem pelo painel Illumina Bovine HD chip de 150 touros da raça Nelore, escolhidos pela sua importância para a raça. Serão comparados dois métodos de alinhamento de sequências ao genoma de referência (BWA e HISAT2) e dois métodos de identificação de variantes (SAMtools e GATK) em esquema fatorial. Desta maneira serão testadas quatro combinações para o processo de identificação das variantes genéticas (SNPs e indels) na população (BWASAMtools, BWA-GATK, HISAT2-SAMtools e HISAT2-GATK). A comparação dos métodos será feita com base nas estatísticas “Non-reference sensitivity (NRS)” e “Nonreference discrepancy (NRD)”. A estatística NRS mede o grau de sensibilidade da metodologia utilizada, de maneira que um valor de NRS igual à unidade significa uma perfeita concordância entre os resultados do sequenciamento e daqueles provenientes do painel de SNP, enquanto que a estatística NRD é uma medida que denota a taxa de falsos positivos. Uma vez definida a melhor estratégia de identificação das variantes, será realizada a anotação das regiões polimórficas identificadas bem como a caracterização do genoma quanto aos níveis de desequilíbrio de ligação. Além disto, será investigada a acurácia de imputação de chips de diferentes densidades de marcadores para a sequência completa do genoma, sendo então imputados os genótipos constantes de uma base de dados de 10.000 animais. O desenvolvimento deste projeto deverá contribuir diretamente para o processo de obtenção e utilização de dados genômicos advindos da sequência completa do DNA de bovinos de corte.

Resumo (inglês)

Strategies to use the complete DNA sequence in animal genetic evaluations of several species have been developed due to advances in next-generation sequencing techniques associated with decreasing in sequencing costs and due to an expected increasing of prediction accuracies by the possibility of using causal mutations. Aligner and variant calling methods are of paramount importance to use sequencing data in genetic analyses. There are differences among methods regarding the number and phase concordance of part of the identified genotypes. These differences can influence the results of analysis performed to genetic evaluations which are directly dependent of variant discovery. Thus, the use of an inadequate method could compromise the results of all subsequent analyses or, at least, to reduce the expected accuracy gain. In the present project, there will be used data from the complete DNA sequence and genotyping by the panel Illumina Bovine HD chip of 150 Nellore bulls selected by their importance for the breed. There will be compared two aligners (BWA e HISAT2) and two variant calling methods (SAMtools e GATK) in a factorial scheme. In this way, there will be tested four combinations to the process of identification of genetic variants (SNPs and indels) in the population (BWA-SAMtools, BWA-GATK, HISAT2-SAMtools e HISAT2-GATK). The platforms will be compared based on the Non-reference sensitivity (NRS) and Non-reference discrepancy (NRD) statistics. The NRS measures the methodology sensibility degree in which a value of NRS equal to unit means a perfect agreement between the sequencing and genotyping results, while the NRD statistics denotes the false positive rate. With the definition of the better strategy for variant identification, there will be performed the variant annotation as well as the genome linkage disequilibrium characterization. There will be also investigated the imputation accuracy of different SNP panel densities to complete genome sequence with a subsequent imputation of a database with more than 10,000 animals. The developing of this project should contribute to the obtaining and utilization process of genomic data generated from the whole-genome sequencing of beef cattle.

Descrição

Palavras-chave

Bovinos de corte, Análise de DNA, Genética animal

Idioma

Português

Como citar

FERNANDES Jr., G.A. - Identificação e análise de variantes genéticas obtidas a partir do sequenciamento do genoma de touros da raça Nelore - 2025, 25f - Relatório de Pós Doutorado - Universidade Estadual Paulista "Júlio de Mesquita Filho", Jaboticabal, 2021.

Itens relacionados

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação