Publicação: Identificação de polimorfismos de nucleotídeo único a partir do sequenciamento do genoma completo de touros da raça Gir
Carregando...
Arquivos
Data
Autores
Orientador
Munari, Danisio Prado 

Braga, Larissa Graciano
Sena, Thomaz Marques
Coorientador
Pós-graduação
Curso de graduação
Ciências Biológicas -FCAV
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A chamada de variantes é o processo pelo qual novas variantes são identificadas quando sequências são alinhadas a um genoma de referência. No entanto, após descobertas, essas variantes necessitam passar por um controle de qualidade a fim de retirar possíveis chamadas falso-positivas. Neste trabalho, o objetivo foi relatar o efeito de diferentes valores da profundidade de leitura mínima na filtragem de Variantes de Nucleotídeo Único (SNV) em sequências de genoma completo de touros da raça Gir. Neste estudo foi sequenciado o genoma completo de 30 touros da raça Gir, em que foram produzidas leituras de 2x150 pb, totalizando média de 16,7x de cobertura entre as amostras. As leituras foram alinhadas ao genoma de referência ARS-UCD 1.2 e consecutivamente foi realizada a chamada de variantes pela opção HaplotypeCaller do GATK. Após a chamada de variantes, essas foram armazenadas em um arquivo no formato VCF contendo as variantes dos 30 animais amostrados. Esse arquivo passou por processo de filtragem de variantes, que foi dividido em cinco diferentes controles de qualidade denominados “QC_A, QC_B, QC_C, QC_D e QC_E”. Esses controles diferiram entre si quanto à profundidade mínima de leitura dos sítios onde foram detectadas as variantes. A média de SNVs para os 30 animais amostrados foi de 17.757.945. A amostra com menor número de SNVs foi de 17.123.018 e a com maior número obteve 20.617.141 SNVs. O arquivo VCF raw (cru) apresentou um total de 38.597.271 SNVs. Este número foi reduzido consecutivamente após a aplicação dos controles de qualidade, do menos restritivo ao mais restritivo, demonstrando que há variação da cobertura na montagem do genoma. Esse estudo traz uma perspectiva do efeito da profundidade de leitura na exclusão de variantes que podem representar possíveis chamadas falso-positivas.
Resumo (inglês)
Variant calling is the process by which new variants are identified when sequences are aligned to a reference genome. However, after these variants are discovered, they need to undergo a quality control in order to remove possible false-positive calls from the variant file. In this study, the aim was to report the effect of different minimum read depth values on the filtering of Single Nucleotide Variants (SNV) in whole genome sequences of Gir bulls. In this study, the whole genome of 30 Gir bulls was sequenced, obtained from the Illumina NovaSeq 6000 platform, in which 2x150 bp readings were produced, totaling an average of 16.7x coverage between samples. The readings were submitted to quality control following the recommended parameters from the protocol of the 1000 Bull Genomes Project, aligned to the ARS-UCD 1.2 reference genome and consecutively, variants were called by the HaplotypeCaller option of the GATK software. After the variant calling, these were saved in a VCF file containing the variants of the 30 animals considered in this study. This file went through the process of variant filtering, which was divided into five different quality controls named “QC_A, QC_B, QC_C, QC_D and QC_E”. These, in turn, had practically the same combination of parameters as those most used in filtering variants, but, however, they differed from each other in terms of the minimum reading depth of the sites where the variants were detected. The mean SNV for the 30 animals sampled was 17,757,945. The sample with the lowest SNV count was 17,123,018 and the one with the highest count had 20,617,141 SNVs. The raw VCF file, in other words, the file containing all the variants but which had not yet gone through any filtering process, had a total of 38,597,271 SNVs. This number was consecutively reduced after the quality controls application, from the least restrictive to the most restrictive, demonstrating that there is variation in genome assembly. This study provides a perspective on the effect of read depth in excluding variants that may represent possible false-positive calls.
Descrição
Palavras-chave
Polimorfismo de nucletídeo único, Genética Animal, Sequenciamento de nucleotídeos de alto rendimento, Controle de qualidade, Gado Leiteiro
Idioma
Português