UNIVERSIDADE ESTADUAL PAULISTA - UNESP CAMPUS JABOTICABAL IDENTIFICAÇÃO DE REGIÕES CROMOSSÔMICAS, GENES E POLIMORFISMOS DE DNA ASSOCIADOS AO DESEMPENHO DE EQUINOS DE CORRIDA DA RAÇA QUARTO DE MILHA Guilherme Luis Pereira Zootecnista 2017 UNIVERSIDADE ESTADUAL PAULISTA - UNESP CAMPUS JABOTICABAL IDENTIFICAÇÃO DE REGIÕES CROMOSSÔMICAS, GENES E POLIMORFISMOS DE DNA ASSOCIADOS AO DESEMPENHO DE EQUINOS DE CORRIDA DA RAÇA QUARTO DE MILHA Guilherme Luis Pereira Orientador: Prof. Dr. Rogério Abdallah Curi Co-orientadora: Luciana Correia de Almeida Regitano 2017 Tese apresentada à Faculdade de Ciências Agrárias e Veterinárias – Unesp, Câmpus de Jaboticabal, como parte das exigências para obtenção do título de Doutor em Genética e Melhoramento Animal. Pereira, Guilherme Luis P436i Identificações de regiões cromossômicas, genes e polimorfismos de DNA associados ao desempenho de equinos de corrida da raça Quarto de Milha / Guilherme Luis Pereira. – – Jaboticabal, 2017 xix, 98 p. : il. ; 29 cm Tese (doutorado) - Universidade Estadual Paulista, Faculdade de Ciências Agrárias e Veterinárias, 2017 Orientador: Rogério Abdallah Curi Banca examinadora: Julio Cesar de Carvalho Balieiro, Guilherme Costa Venturini, Fernando Sebastian Baldi Rey, Guilherme de Camargo Ferraz Bibliografia 1. GWAS. 2. Exoma. 3. Índice de Velocidade. I. Título. II. Jaboticabal-Faculdade de Ciências Agrárias e Veterinárias. CDU 636.082:636.1 Ficha catalográfica elaborada pela Seção Técnica de Aquisição e Tratamento da Informação – Diretoria Técnica de Biblioteca e Documentação - UNESP, Câmpus de Jaboticabal. DADOS CURRICULARES DO AUTOR Guilherme Luis Pereira, Itaporanga, 19 de fevereiro de 1986. Possui graduação em zootecnia pela Universidade Estadual de Ponta Grossa (2012). Possui Mestrado em Genética e Melhoramento Animal pala Universidade Estadual Paulista Júlio de Mesquita Filho Campus Jaboticabal (FCAV). Atualmente é Doutorando em genética e Melhoramento Animal pela Universidade Estadual Paulista Júlio de Mesquita Filho Campus Jaboticabal (FCAV). Tem experiência na área de Genética, com ênfase em Genética Animal, atuando principalmente nos seguintes temas: Genética Molecular, Melhoramento Genético e Melhoramento de Equinos. “Dificuldades preparam pessoas comuns para destinos extraordinários”. C. S. Lewis Aos meus pais, José e Lucia. Ao meu querido irmão Eduardo. À minha noiva Ariane. Ao saudoso professor Marcilio Dias Silveira da Mota. DEDICO AGRADECIMENTOS Agradeço à Deus, pela sua bondade em permitir que essa etapa fosse concluída, por estar comigo todos os dias e pelo Seu cuidado. Aos meus pais José e Lúcia e ao meu irmão Eduardo, os quais foram meus maiores incentivadores e apoio nessa etapa. Ao meu tio Cesar e aos meus avós Fiíca e Dito Veiga, por suas preocupações, incentivo e apoio. Agradeço à minha noiva e amor Ariane, pela paciência e incentivo nas fases mais difíceis do projeto. Ao meu orientador (e amigo) Prof. Rogério Curi, em qual trago profundo respeito, admiração e muita gratidão; sempre esteve por perto, se preocupando, ajudando e incentivando, enfim, sou grato por todo tempo que passamos juntos. Aos professores Dr. Marcelo Vicari e Dra. Luciana Regitano, (e todo o pessoal de seus laboratórios) por crerem que eu poderia chegar aonde cheguei e pelo esforço de me ajudarem a começar esse sonho, desde a minha graduação, sou muito grato. Ao professor Dr. Henrique Oliveira pela tão grande ajuda e direcionamento dos trabalhos. A todos do departamento de Melhoramento e Nutrição Animal (FMVZ – Botucatu), os professores e funcionários que me acolheram, incentivaram e me ajudaram em todo esse tempo. Aos colegas de pós graduação e laboratório que em ajudaram e estiveram comigo, em especial, Rafael Matteis, Cintia Marchiori, Adriana Somavilla, Tatiane Chud. A CAPES pela concessão da bolsa e a FAPESP pelo financiamento do projeto de pesquisa. Aos membros da banca examinadora, Dr. Fernando Baldi, Dr. Julio Balieiro, Dr. Guilherme Ferraz e Dr. Guilherme Venturini. Aos meus amigos que me acolheram em Botucatu e se tornaram meus irmãos, Antone, Ananda, Barbara, Camila, Gabi, Jéssica, Rafinha, Mari, Sabrina, Leandro, Estefânia, Rebeca, Felipe, Manu, Ivânio, Guilherme Vicentini, Natália, David e Mateus. SUMÁRIO CAPÍTULO 1 – Considerações Gerais .................................................................... 1 1. INTRODUÇÃO .................................................................................................... 1 2. OBJETIVOS GERAIS .......................................................................................... 3 2.1. Objetivos específicos ............................................................................. 3 3. REVISÃO DE LITERATURA ............................................................................... 3 3.1. Os equinos no Brasil e no mundo .......................................................... 3 3.2. A raça Quarto de Milha ........................................................................... 5 3.3. Melhoramento genético de equinos ....................................................... 7 3.4. Características quantitativas e major genes .......................................... 8 3.5. Polimorfismos de nucleotídeos únicos (SNPs) ...................................... 9 3.6. Painéis de SNPs e imputação de genótipos ........................................ 10 3.9. Estudos associação ampla do genoma (GWAS) ...................................12 3.10. Marcadores para desempenho em corridas de equino ...................... 13 3.11. Sequenciamento de DNA ................................................................... 14 4. REFERÊNCIAS .................................................................................................. 16 CAPITULO 2 – Imputação e avaliação da acurácia em cavalos de corrida da raça Quarto de Milha genotipados com diferentes painéis comerciais de SNPs ..................................................................................... 23 1. Introdução .......................................................................................................... 25 2. Material e Métodos ............................................................................................. 26 2.1. Animais ................................................................................................. 26 2.2. Genotipagem dos SNPs e controle de qualidade ................................. 26 2.3. Análise populacional ............................................................................. 27 2.4. Imputação de genótipos e avaliação da acurácia de imputação .......... 28 3. Resultados e discussão ..................................................................................... 29 3.1. Estrutura da população e análise de parentesco ................................. 29 3.2. Acurácia de imputação por SNP .......................................................... 30 3.3. Acurácia de imputação por amostra ..................................................... 33 3.4. Acurácia de imputação por cromossomo ............................................. 36 4. Conclusões ........................................................................................................ 38 5. Referências ........................................................................................................ 39 CAPITULO 3 – Estudo de associação ampla genoma em equinos de corrida da raça Quarto de Milha ................................................................... 42 1. Introduçã ............................................................................................................ 44 2. Material e Métodos ............................................................................................. 45 2.1. Animais, coleta de sangue e extração do DNA .................................... 45 2.2. Controle de qualidade de genotipagem e imputação de genótipos...... 46 2.3. Informações fenotípicas ....................................................................... 48 2.4. Estudo de associação ampla do genoma ............................................ 49 2.5. Anotação de genes e análise funcional ............................................... 50 3. Resultados e Discussão .................................................................................... 51 3.1. Dados utilizados e estratificação da população ................................... 51 3.2. Associação ampla do genoma ............................................................. 53 3.3. Anotação de genes e análise funcional ............................................... 59 4. Conclusões ........................................................................................................ 66 5. Referências ........................................................................................................ 67 CAPITULO 4 – Sequenciamento de exomas de equinos em regiões alvo relacionadas ao desempenho em corridas na raça Quarto de Milha ....................................................................................... 73 1. Introdução .......................................................................................................... 75 2. Material e métodos ............................................................................................ 76 2.1. Amostras, genotipagem e obtenção de GEBVs ................................... 76 2.2. Seleção de amostras com GEBVs contrastantes para desempenho em corridas .................................................................................................................. 77 2.3. Preparo das bibliotecas, captura e sequenciamento dos exomas equino ......................................................................................................... 78 2.4. Alinhamento das reads ao genoma equino de referência ................... 79 2.5. Detecção e filtragem de polimorfismos ................................................ 80 2.6. Prospecção e anotação dos polimorfismos e genes de interesse ....... 81 3. Resultados e discussão ..................................................................................... 82 3.1. Amostras sequenciadas ....................................................................... 82 3.2. Sequenciamento e alinhamento ........................................................... 84 3.3. Detecção e filtragem de SNPs e InDels ............................................... 86 3.4. Anotação funcional de variantes genômicas ........................................ 88 3.5. Genes prospectados ............................................................................ 92 4. Conclusões ........................................................................................................ 94 5. Referências ........................................................................................................ 95 Capitulo 5 – Considerações finais ........................................................................ 98 IDENTIFICAÇÃO DE REGIÕES CROMOSSÔMICAS, GENES E POLIMORFISMOS DE DNA ASSOCIADOS AO DESEMPENHO DE EQUINOS DE CORRIDA DA RAÇA QUARTO DE MILHA RESUMO – Dentre os equinos selecionados para velocidade, a linhagem de corrida da raça Quarto de Milha se destaca pelo alto desempenho em provas de curtas distâncias, sendo considerados os mais velozes do mundo. Apesar de, no Brasil, o efetivo de animais ser relativamente menor na linhagem de corrida do que nas demais, sua importância econômica é substancial. Tendo em vista o interesse econômico e científico relacionado a esta característica atlética, poucos esforços têm sido realizados para a maior compreensão de seus mecanismos genéticos e fisiológicos. Este trabalho teve como objetivos: 1) realizar a imputação de genótipos em duas vias entre indivíduos de uma amostra populacional relativamente pequena de cavalos de corrida da raça Quarto de Milha genotipados com painéis de 54k ou de 65k, bem como avaliar a acurácia de imputação por meio de simulações; 2) realizar estudo de associação ampla do genoma (GWAS) em cavalos da linhagem de corrida da raça Quarto de Milha por meio da utilização de chips equinos de genotipagem de SNPs, visando a prospecção de regiões cromossômicas, genes e polimorfismos relacionados ao desempenho; 3) analisar exomas de equinos de corrida da raça Quarto de Milha contrastantes para Índice de Velocidade máximo (IV max) em regiões previamente associadas à característica por meio de GWAS, visando a prospecção de polimorfismos gênicos causais, ligados ou em forte desequilíbrio de ligação com o desempenho em corridas. A imputação foi realizada utilizando 116 cavalos genotipados com o arranjo de SNPs de 54k e 233 genotipados com arranjo de 65k. Nas simulações foram escolhidas amostras aleatórias para constituírem as populações imputadas e referências em dois cenários. O cenário A simulou a imputação genótipos na primeira via (65k para 54k) e o cenário B na segunda (54k para 65k). No cenário A foram considerados 113 indivíduos para a população referência e 236 para a imputada, dos quais 116 e 120 foram genotipados com os arranjos de 54k e 65k, respectivamente. No cenário B foram considerados 50 indivíduos para a população referência e 299 para a imputada, dos quais 66 e 233 foram genotipados com os arranjos de 54k e 65k, respectivamente. Com isso, após o controle de qualidade, os painéis de 54k e de 65k contaram com 7.048 e 16.940 marcadores exclusivos, respectivamente. As médias de taxa de concordância para os cenários A e B foram 0,9815 e 0,9751 e para r2 alélico foram 0,9791 e 0,9740, respectivamente. O GWAS foi realizado com base no método single step GBLUP por meio de duas abordagens: ssGWAS1, em que somente efeitos de SNPs são reestimados a cada iteração, e ssGWAS2, em que a cada iteração são reestimados efeitos de SNPs a partir de valores genético genômico (GEBVs) reestimados. Vinte e uma regiões foram encontradas explicando mais que 1% da variância genética total (gVar) da característica índice de velocidade máximo (IV max) para ssGWAS1 e doze para ssGWAS2. No total mais de 40% da gVar foi explicada por estas regiões para ssGWAS1 e cerca de 30% para ssGWAS2. Entre os cromossomos que explicaram mais de 1% da variância genética, cinco foram comuns aos dois métodos (ECA 3, 10, 15, 22, 25). Foram identificados 108 genes na primeira abordagem e 59 na segunda. A partir de informações de GEBVs de cada cavalo foram formados dois grupos de animais contrastantes para desempenho em corridas (20 animais de IV max superior e 20 IV max inferior), para ser sequenciados. Foram observadas leituras de boa qualidade para toda extensão das reads sequenciadas (até 100pb) e cobertura média de 43x. Foram identificadas 1.203 variantes (1.105 SNPs e 93 InDels) em 33 regiões de interesse obtidas, anteriormente, por meio de estudo de GWAS, das quais 61,3% não estavam registradas/depositadas no banco de dados de variantes equino. Do total de polimorfismos, 29 (24 SNPs e 5 InDels) foram considerados de importância com base em três abordagens distintas e independentes: escores SIFT classificado como deletério (<0,05), grau de impacto na região consenso de cada polimorfismo, e frequências alélicas diferentes, identificadas pelo teste de Fisher (p< 0,01), entre os grupos de cavalos contrastantes para IV max. Com isso, oito genes descritos como candidatos em trabalhos anteriores (ABCG5, COL11A1, GEN1, SOCS3, MICAL1, SPTBN1, EPB41L3 e SHQ1), e oito genes candidatos novos (AKNA, ARMC2, FKBP15, LHX1, NOL10, TMEM192, ZFP37, FIG4 e HNRNPU) foram relacionados ao desempenho em corridas de cavalos da raça Quarto de Milha. Assim, os resultados obtidos neste trabalho mostraram que o desempenho em corridas na raça Quarto de Milha, dado pelo IV max, é característica quantitativa e que não há ocorrência de major genes. Palavras-chave: exoma, GWAS, Imputação de genótipos, InDels, índice de velocidade, SNPs IDENTIFICATION OF CHROMOSOMAL REGIONS, GENES AND DNA POLYMORPHISMS ASSOCIATED WITH PERFORMANCE OF QUARTER HORSE RACE HORSES ABSTRACT – Among horses selected for speed, the racing line of Quarter Horses is characterized by high performance in sprint races, with these animals being considered the fastest horses in the world. Although in Brazil the effective number of animals in the racing line is relatively smaller compared to the other lines, its economic importance is substantial. Despite economic and scientific interest in this athletic trait, few efforts have been made to better understand the genetic and physiological mechanisms underlying this trait. The objectives of this study were: 1) to perform two-step genotype imputation between individuals in a relatively small population sample of racing Quarter Horses genotyped with the 54k or 65k panel, and to evaluate the accuracy of imputation through simulations; 2) to perform genome-wide association studies (GWAS) in Quarter Horses of the racing line using equine SNP genotyping chips for prospecting chromosome regions, genes and polymorphisms related to performance; 3) analyze exomes and UTRs in regions previously associated with this trait by GWAS in Quarter Horse racehorses with contrasting maximum speed index (SImax), prospecting causal gene polymorphisms that are related to or are in strong linkage disequilibrium with racing performance. Genotypes were imputed using 116 horses genotyped with the 54k SNP array and 233 animals genotyped with the 65k array. For the simulations, random samples were chosen to compose the imputed and reference populations in two scenarios. Scenario A simulated the genotype imputation in the first step (from 65k to 54k) and scenario B in the second step (from 54k to 65k). Thus, after quality control, the 54k and 65k panels contained 7,048 and 16,940 exclusive markers, respectively. The mean concordance rate was 0.9815 and 0.9751 for scenarios A and B, and the mean allelic r2 was 0.9791 and 0.974, respectively. After imputation was performed by the single-step GBLUP method using two approaches: ssGWAS1 in which only SNP effects are recalculated at each iteration, and ssGWAS2 in which SNP effects are recalculated from genomic estimated breeding values (GEBVs) at each iteration. Twenty-one regions that explained more than 1% of the total genetic variance (gVar) in the maximum speed index were identified by ssGWAS1 and 12 by ssGWAS2. More than 40% of gVar was explained by these regions in ssGWAS1 and about 30% in ssGWAS2. Among chromosomes that explained more than 1% of genetic variance, five were common to both methods (ECA 3, 10, 15, 22, 25). A total of 108 genes were identified with the first approach and 59 with the second approach. To exome sequencing, GEBVs were used for the formation of two groups of animals with contrasting racing performance (20 animals with superior SI max and 20 with inferior SI max). Good quality data were obtained throughout the reads sequenced, with an average coverage of 43x. A total of 1,203 variants (1,105 SNPs and 93 InDels) were identified in 33 regions of interest obtained previously by GWAS; of these, 61.3% were not registered/deposited in the horse genomic variant database. Twenty-nine of the polymorphisms (24 SNPs and 5 InDels) were considered to be important based on three different and independent approaches: SIFT scores classified as deleterious (<0.05), degree of impact on the consensus region of each polymorphism, and different allele frequencies identified by Fisher’s exact test (p< 0.01) between the groups of horses with contrasting SImax. Thus, eight genes described as functional and positional candidates in previous studies (ABCG5, COL11A1, GEN1, SOCS3, MICAL1, SPTBN1, EPB41L3, and SHQ1) and eight new candidate genes (AKNA, ARMC2, FKBP15, LHX1, NOL10, TMEM192, ZFP37, FIG4, and HNRNPU), some of them with known function, were related to racing performance in Quarter Horses. Taken together, the present results show that the racing performance of Quarter Horses, given by the maximum speed index, is a quantitative trait and that no major genes exist. Keywords: Exome, GWAS, Imputation of genotypes, InDels, Speed Index, SNPs, 1 CAPÍTULO 1 – Considerações Gerais 1. INTRODUÇÃO A raça Quarto de Milha foi a primeira a ser criada na América do Norte, a partir do século XVII, com a entrada de equinos de origem árabe e turca, trazidos por colonizadores europeus. O seu maior desenvolvimento ocorreu com a ocupação do oeste Norte Americano, devido à necessidade de cavalos robustos e versáteis (ABQM, 2016). No século passado a raça foi intensamente difundida pelo mundo, sobretudo nas Américas, chegando ao Brasil em 1955. Atualmente encontram-se dentro da raça três segmentos distintos, originados por diferentes objetivos de seleção: as linhagens de corrida, de trabalho e de conformação (ABQM, 2016). No Brasil destacam-se, em números, cavalos da linhagem de trabalho, que são utilizados tanto no campo quanto em provas funcionais. Apesar do efetivo de animais ser relativamente menor na linhagem de corrida, sua importância econômica é substancial. Em 2015 o complexo da agroindústria do cavalo gerou renda de R$ 16,15 bilhões de reais no Brasil, dos quais R$ 6,63 bilhões foram gerados a partir de cavalos destinados a lazer e esporte (MAPA, 2015). Embora os equinos tenham grande impacto na economia e sejam de grande interesse científico, pesquisas genéticas dedicadas ao melhoramento de raças, evolvendo ou não a exploração de ferramentas moleculares, tem sido bastante restritas quando comparados à espécies domésticas de produção. Tal fato pode estar relacionado a alguns fatores, como: 1) ausência de programas consistentes de melhoramento genético na espécie, a exemplo do que ocorrem com bovinos, aves e suínos; 2) dificuldades em mensurar características de desempenho, as quais podem ser dadas por meio indireto ou pouco preciso; 3) altos custos de ensaios customizados destinados a estudos genômicos; e 4) tradicionalismo e, por conta disso, resistência de associações e criadores à biotecnologias. Na ultima década, plataformas de sequenciamento de nova geração tornaram-se acessíveis, permitindo o sequenciamento e mapeamento de milhares de polimorfismos espalhados por todo o genoma equino (WADE et al., 2009; DOAN et al., 2012), o que levou ao desenvolvimento de painéis de genotipagem de SNPs em larga escala. Em sua primeira versão, a plataforma de genotipagem especifica para espécie equina, o Equine SNP50 BeadChip da empresa Illumina (Illumina Inc., EUA), contava com cerca de 54.000 SNPs (54K). Atualmente, em sua segunda geração, o SNP chip equino (Equine SNP70 BeadChip; Illumina Inc., EUA) possui aproximadamente 65 mil SNPs (65K), dos quais 19 2 mil são novos marcadores e 45 mil foram validados no Equine SNP50 BeadChip. A imputação de genótipos com base em informações de desequilíbrio de ligação (DL) entre SNPs oferece potencial solução para a resolução deste problema (HAYES et al., 2011; SARGOLZAEI; CHESNAIS; SCHENKEL, 2014). A fim de melhorar a predição dos resultados obtidos pelos estudos de associação e pela seleção genômica, diferentes estratégias de imputação de genótipos têm sido aplicados em dados genômicos (HAYES et al., 2011; SARGOLZAEI; CHESNAIS; SCHENKEL, 2014). A relação causal entre polimorfismos genéticos dentro de uma espécie e as diferenças fenotípicas observadas entre indivíduos é de fundamental interesse biológico (KORTE; FARLOW, 2013) e, em muitas situações, econômico. Segundo Sahana et al. (2010), o principal propósito de estudos de associação ampla do genoma (Genome-Wide Associations Studies – GWAS), os quais envolvem milhares de marcadores distribuídos ao longo de todo o genoma, é identificar regiões dos cromossomos que abrigam genes que contribuem para a variação fenotípica de uma característica, servindo, posteriormente, como regiões putativas de QTL (quantitative trait loci) para mais estudos. Estudos de associação entre polimorfimos de DNA e desempenho em corridas em cavalos têm sido realizados na raça Puro-Sangue Inglês, tanto de forma pontual (GU et al., 2010; HILL et al., 2010), quanto de forma ampla (SHIN et al., 2015). Entretanto, os resultados encontrados por Pereira et al. (2016a,b) demonstraram que marcadores apropriados para a raça inglesa não servem para a identificação de animais superiores para desempenho em corridas na raça Quarto de Milha. Embora a utilização de painéis de SNPs permita o estudo de todo o genoma, e, com base no desequilíbrio de ligação entre milhares de marcadores, apresente grande utilidade na detecção de QTL, na seleção genômica, e em estudos evolutivos entre outros, não geram informações adicionais de sequências de genes em regiões associadas do genoma. Deste modo, para refinamento de resultados, podem ser utilizadas outras estratégias. Atualmente, os custos relacionados ao sequenciamento de regiões genômicas de tamanho significativo, ou mesmo todo genoma (Whole Genome Sequencing – WGS) tem se tornado baixos (LIU et al., 2012), possibilitando o uso de tecnologias de nova geração (Next Generation Sequencing – NGS) para, dentre inúmeras possibilidades, refinamento de experimentos que utilizam painéis de SNPs. O sequenciamento de todo o exoma (Whole Exome Sequencing – WES) pode ser, do mesmo modo, empregado para esse propósito. Com baixo custo essa abordagem permite a detecção de variantes genéticas (Single Nucleotide Polymorphisms – SNPs, Insertions/Deletions – InDels e CNVs – Copy Number Variation) já mapeadas, ou de novo, em regiões gênicas, incluindo regiões codificantes de 3 aminoácidos, além de 5’ e 3’ UTR de todo o genoma, o que pode ser útil por disponibilizar dados extras para suprir mais de uma frente de pesquisa. 2. OBJETIVOS GERAIS Considerando a falta de informações em relação ao potencial de utilização da seleção assistida por marcadores em equinos, em especial no Quarto de Milha, raça de grande importância no Brasil, este trabalho teve como objetivos encontrar polimorfismos, genes e regiões genômicas, que possam estar associados a diferenças no desempenho em corridas de equinos da raça Quarto de Milha. 2.1. Objetivos específicos  Realizar imputação de genótipos exclusivos entre amostras de Quarto de Milha genotipadas com painéis de duas gerações (54k e 65k) para obter o mesmo número de marcadores para cada indivíduo.  Realizar estudo de associação ampla do genoma (GWAS) e característica de desempenho em cavalos Quarto de Milha de corrida utilizando painéis de arranjos de SNPs.  Analisar o exoma equino de cavalos Quarto de Milha dentro de regiões de interesse, as quais foram significativas pelo GWAS, visando a prospecção de polimorfismos gênicos responsáveis diretos (causais), ligados ou em forte desequilíbrio de ligação com locos gênicos responsáveis por características determinantes para o melhor desempenho em corridas. 3. REVISÃO DE LITERATURA 3.1. Os equinos no Brasil e no mundo Existem aproximadamente 58,9 milhões de cavalos no mundo, maior parte vivendo na América, Ásia e alguns países da Europa (FAO, 2014). Os Estados Unidos da América é o país com maior número de cabeças (10.260.000), seguido da China (6.027.400), México (6.355.000) e Brasil (5.450.601) (GLIPHA, 2014). Deve-se destacar a redução da população de equinos na Ásia, principalmente na China, de 8.914.000 de cabeças em 2000 para 6.027.400 em 2014 (GLIPHA, 2014), está associada à migração interna da 4 população humana, com menor utilização dos equídeos no transporte e agricultura e o maior consumo de carne equina (ALMEIDA & SILVA, 2010). Por outro lado, nos Estados Unidos houve aumento expressivo da população de equinos, de 5.240.000 cabeças em 2000 para 10.260.000 cabeças em 2014 (GLIPHA, 2014), em parte devido às restrições legais internas ao abate e à exportação de carne de equídeos (ALMEIDA & SILVA, 2010). No Brasil, no período de 2000 à 2014, o número de equinos permaneceu praticamente estável, com pequenas oscilações (GLIPHA, 2014). O complexo do agronegócio do cavalo no Brasil é bastante expressivo, movimentando valor econômico superior a R$ 16,15 bilhões ao ano e gerando aproximadamente 3,2 milhões de empregos diretos e indiretos (MAPA, 2015). A utilização de animais (aproximadamente 3,9 milhões) no manejo de rebanhos bovinos vem sendo o seguimento de maior destaque dentro do agronegócio do cavalo no Brasil. Somando os valores do custo de manutenção, do valor anual da tropa e a renda associada à mão-de- obra, verifica-se que o segmento de lida responde por R$ 8,58 bilhões, cerca de 53% da renda gerada no complexo do agronegócio do cavalo (MAPA, 2015). Esta intensa relação tem feito os cavalos acompanharem os bovinos em seu deslocamento para as regiões Centro-Oeste e Norte do País. Embora a utilização do cavalo no manejo de bovinos seja marcante no contexto da equinocultura nacional, o seguimento que envolve os esportes equestres tem crescido acentuadamente nos últimos anos. Estima-se a existência de 1,1 milhão de animais no segmento de esportes e lazer, com 125.700 empregos diretos e movimentação econômica de R$ 5,84 bilhões (MAPA, 2015). No período de 1999 a 2004 o número de eventos envolvendo as diversas modalidades equestres (salto, adestramento, concurso completo de equitação, enduro, competições de marcha, etc.) cresceu 315%, ou seja, aumento médio de 15,3% ao ano (LIMA et al., 2006). O crescimento verificado nessa categoria desde o estudo realizado por Lima et al. (2006), em que o plantel foi estimado em 800 mil animais, foi de 37% (MAPA, 2015). Além da utilização do cavalo no campo e nas provas equestres, a tendência de sua utilização para lazer vem aumentando significativamente (MAPA, 2015). O cavalo também é utilizado na equoterapia, modalidade disponível há milhares de anos e, agora, reconhecida como de grande eficácia para o tratamento de inúmeros males físicos, psíquicos e comportamentais. De forma geral, de 2006 a 2015 o crescimento da renda total gerada pelo complexo do agronegócio do cavalo foi de 115% (LIMA et al., 2006; MAPA, 2015). Esse resultado positivo pode ser explicado por algo que tem sido tendência mundial na equinocultura, o 5 forte crescimento da criação voltada para o público urbano, tanto para o lazer quanto para o esporte. São segmentos que movimentam com maior intensidade desde a indústria de medicamentos e ferragens até cosméticos e acessórios. Junto com este consumidor, cresce também o número e tamanho dos eventos, como provas de tambor e baliza, vaquejadas e tantos outros (MAPA, 2015). 3.2. A raça Quarto de Milha A raça Quarto de Milha foi a primeira a ser formada na América do Norte, a partir do século XVII, com a introdução de equinos de origem árabe e turca, trazidos por colonizadores europeus. O seu maior desenvolvimento ocorreu com a ocupação do oeste Norte Americano, devido à necessidade de cavalos robustos e versáteis, com aptidão à sela e tração, visto a dificuldade de se manter plantel variado de animais para atender às diversas necessidades (ABQM, 2016). Em 1940, fundou-se, nos Estados Unidos da América, a American Quarter Horse Association (AQHA), primeira envolvendo a raça. Atualmente, a AQHA é considerada a maior associação de criadores do mundo, com cerca de 400 mil sócios e mais de cinco milhões de cavalos registrados, divididos em 43 países, representando 52% dos equinos em todo o mundo (dados de até 31 de dezembro de 2011) (ABQM, 2016). Em 1969 foi fundada a Associação Brasileira de Criadores de Cavalo Quarto de Milha (ABQM), a qual conta atualmente com plantel composto por 474.862 animais registrados, 95.792 criadores, proprietários e associados cadastrados distribuídos por todos os estados brasileiros. No Brasil, a criação da raça apresenta impacto relevante no agronegócio nacional do cavalo, visto que seus haras ocupam área de aproximadamente um milhão de hectares, estimados em mais de R$ 19,8 bilhões (dados de até 13 de agosto de 2015) (ABQM, 2016). A seleção para diferentes propostas na raça Quarto de Milha (EVANS, 1996), levou à formação de linhagens, entre as quais as de: corrida, conformação e trabalho. A linhagem de trabalho destina-se às provas de caráter funcional, explorando habilidades como agilidade e obediência, características consideradas de grande importância no manejo do gado a campo. Dentro desta linhagem sempre houve grande interesse na produção de cavalos com cow sense superior (ELLERSIECK et al., 1985). Cow sense, ou habilidade de trabalhar com bovinos, pode ser medida pela capacidade do cavalo em cercar o gado e apartar do rebanho um animal escolhido (HINTZ, 1980), com pouca assistência do cavaleiro (ELLERSIECK et al., 1985). A linhagem de conformação enfatiza 6 a morfologia do padrão racial. A linhagem de corrida explora a aptidão dos animais quanto à velocidade em pistas retas e de curta distância. Destacadamente equinos desta raça tem melhor desempenho em corridas de curtas distâncias do que qualquer outra raça (ABQM, 2016), podendo alcançar velocidades de até 88 km/h e percorrer, a partir de uma posição estática, ¼ de milha (402 metros, aproximadamente) em menos de 21 segundos (AMERICA’S HORSE DAILY, 2008). De acordo com Meira et al. (2013), existem diferenças significativas entre as linhagens de corrida e de trabalho da raça Quarto de Milha com relação às características morfológicas de peso, altura à cernelha, comprimentos corporal, da canela, da quartela, da garupa, da cabeça, e do pescoço e perímetros torácico, da canela e do casco. Os autores observaram que animais de corrida apresentaram maiores pesos, alturas, comprimentos e perímetros corporais em relação aos de trabalho. Apesar do efetivo de animais ser relativamente menor na linhagem de corrida do que nas demais linhagens, sua importância econômica é substancial, não somente por gerar renda por meio de premiações e apostas (LIMA et al., 2006), mas também pelo elevado custo gerado na manutenção destes animais dentro desta modalidade esportiva. O principal atributo de seleção utilizado pelos criadores do cavalo Quarto de Milha de corrida é a pontuação conhecida como Índice de Velocidade (IV). Este índice é obtido durante a campanha de um animal com o intuito de classificar o seu desempenho em diferentes condições (distâncias, hipódromo, clima, país) (EVANS, 1996). Cada hipódromo tem sua própria tabela de IV, que é elaborada a partir da média das três vitórias mais rápidas (três melhores tempos) para cada um dos três últimos anos consecutivos, em cada distância, sendo que o valor da média desses nove tempos equivalerá ao IV igual a 100 (JCS, 2002). Os pontos de IV são inteiros e variam de acordo com o tempo, ao nível de centésimos de segundo, seguindo ajustes em acordo com a distância percorrida. A tabela de IV (Tabela 1) faz a conversão do tempo em pontos do IV com ajustes pelas distâncias. Como exemplo, nas distâncias de 365 metros (m), 402m e 503m, a cada quatro centésimos de segundo, a mais ou a menos, que um animal obtém, em relação ao tempo que representa o índice de velocidade igual a 100, diminui-se ou acresce-se um ponto neste índice. Assim, ao se considerar que a média das nove vitórias (IV =100) foi de 22 segundos para os 402m, o animal cujo tempo se situe entre 22,01 e 22,04 terá IV igual a 99, se o tempo estiver entre 22,05 e 22,08 o IV será 98, e assim por diante. Por outro lado, se o tempo estiver entre 21,96 e 21,99 será acrescido em um ponto, obtendo o IV 101, e os que tiverem tempo entre 21,92 e 21,95 seus IV serão de 102 pontos, e assim sucessivamente a cada quatro centésimos de segundo a menos. Para distâncias menores 7 a variação do IV ocorrerá em uma menor variação do tempo, em 320m se alternará a cada três e quatro centésimos de segundo, iniciando com três centésimos de segundo, enquanto que aos 301m e 275m será de três centésimos de segundo e aos 228m será a cada dois centésimos de segundo. Essa tabela é válida para animais que correm carregando um peso mínimo de 53 Kg. Para aqueles com peso inferior, deve-se acrescentar cinco centésimos de segundo ao seu tempo, para cada quilo a menos, antes de consultar a tabela. Tabela 1. Esquema da variação para pontuação do Índice de Velocidade (IV), de acordo com a distância (m), tendo como ponto de partida os tempos referentes ao IV igual a 100. Centésimos de segundo 4 3 e 4* 3 2 Distância (m) 365 320 275 228 402 301 503 *alternados, iniciando-se com 3 centésimos (fonte: adaptado de Corrêa; Mota, 2007) 3.3. Melhoramento genético de equinos Em relação a outras espécies de exploração zootécnica, as pesquisas na área de melhoramento genético são proporcionalmente menores em equinos, no mundo todo. No Brasil, em particular, dada a grandeza de sua tropa, esta distância é ainda mais evidente. Embora algumas pesquisas publicadas em cavalos envolvam a área de melhoramento genético (SANTOS, 2006; CORRÊA; MOTA, 2007; PRADO; MOTA, 2008), ainda não existem, efetivamente, programas consistentes de seleção nas diferentes raças criadas no Brasil. Neste sentido, pequenos grupos de pesquisadores ligados às universidades e institutos de pesquisa têm trabalhado na área, especialmente em relação a aspectos conservacionistas em raças nacionais ou quantitativos de caracteres de interesse econômico (herdabilidades e correlações) em raças nacionais e importadas. Recentemente, pesquisas envolvendo Genética e Biologia Molecular têm sido realizadas 8 em algumas raças da espécie no Brasil (MEIRA et al., 2014a,b,c; PEREIRA et al., 2016a,b). Trabalhos mais refinados em relação à seleção e ao melhoramento genético de equinos vêm sendo realizados na Europa, com a utilização de modelos estatísticos mais adequados para a obtenção de valores genéticos individuais, como o BLUP (Best Linear Ubiased Prediction) (ARNASON, 2013). Esta alternativa tem sido aplicada na criação de cavalos destinados a esportes olímpicos como o cross country, o adestramento e o salto. A maior causa desta dificuldade é a baixa herdabilidade do desempenho atlético e os valores de correlações genéticas existentes entre as características mais almejadas nos cavalos, principalmente ligadas a reprodução e desempenho em provas funcionais e corridas (KOENEN et al., 1995; WALLIN et al., 2003; BOKOR et al., 2005). A baixa herdabilidade do desempenho atlético em equinos é argumento a ser considerado para a utilização de novas ferramentas disponíveis para a seleção e o melhoramento genético, tais como os marcadores moleculares. 3.4. Características quantitativas e major genes Da mesma forma que para a maior parte das características de importância econômica nas espécies de interesse zootécnico, o desempenho em corridas dos equinos Quarto de Milha, muitas vezes representado pelo Índice de Velocidade, deve ser governado por um grande número de genes, localizados em regiões cromossômicas denominadas locos de características quantitativas (Quantitative Trait Loci – QTL). Estes genes podem ter grandes efeitos e serem chamados de “genes principais” ou major genes, ou podem ter pequenos efeitos individualmente e serem chamados de "genes menores”. A estrutura da variação genética que está por trás de traços fenotípicos tem consequências importantes para a compreensão da evolução de características quantitativas (AGRAWAL et al., 2001). A frequência e o papel dos genes de grande efeito em genética quantitativa têm sido alvo de intenso debate e investigação (ORR, 2005). Apesar do fascínio pelo modelo infinitesimal, há evidência acumulada de várias fontes (experimentos de seleção artificial, evolução experimental, e mapeamento de QTL) sugerindo que os genes de grande efeito, muitas vezes contribuem para caracteres quantitativos (STINCHCOMBE et al., 2009). 9 3.5. Polimorfismos de nucleotídeos únicos (SNPs) Marcador molecular é toda e qualquer variação oriunda de um gene expresso ou de um segmento específico de DNA, correspondente a regiões expressas ou não do genoma. Ao se verificar que esses marcadores segregam de acordo com as leis mendelianas para características monogênicas, ou apresentam distribuições compatíveis com as esperadas para características poligênicas, um marcador molecular é também definido como marcador genético (FERREIRA; GRATTAPAGLIA, 1998). Do ponto de vista molecular ocorrem três tipos principais de variações na molécula de DNA, as regiões repetitivas (minissatélites e microssatélites), as inserções e deleções (InDels) e as alterações de uma base (polimorfismos de nucleotídeos únicos – SNPs). À medida que as sequências de nucleotídeos dos genomas foram sendo desvendado, um grande número de variações de uma base foram encontradas ao se comparar segmentos correspondentes do mesmo genoma, ocorrendo, aproximadamente, a cada 600 bases. As substituições mais frequentes observadas no DNA envolvem bases nitrogenadas de mesma característica estrutural, ou seja, são trocas entre duas purinas (A/G ou G/A) ou duas pirimidinas (C/T ou T/C) e são denominadas transições. As transversões são substituições de uma purina por uma pirimidina ou o contrário. Essas alterações podem ser provocadas por erros de incorporação de bases durante a replicação do DNA ou em outros casos, são causadas por agentes ambientais (químicos e físicos). Caso essas alterações ocorram em células sexuais e sejam transmitidas às gerações seguintes passam a ser denominadas mutações germinativas. Caso fixem-se na população a uma frequência mínima de 0,01 ou mais (minor allele frequency – MAF ≥ 1%), passam a ser denominadas de polimorfismos ou SNPs, no caso de alterações de apenas um nucleotídeo (KWOK & GU, 1999). Os SNPs podem ocorrer em regiões codificadoras ou com função regulatória, bem como em espaços intergênicos, sem função determinada. Em regiões codificadoras, quando resultam em uma substituição de aminoácido na sequência proteica, são denominados não sinônimos, podendo a substituição ser conservativa ou não conservativa em função das características dos aminoácidos envolvidos na troca. Nesses casos, pode haver modificações estruturais e funcionais na proteína. Embora SNPs sinônimos não alterem a sequência proteica, eles podem modificar a estrutura e a estabilidade do RNA mensageiro, e, consequentemente afetar a quantidade de proteína produzida. Esta também pode ser afetada quando ocorrem alterações nas regiões não traduzidas do RNA mensageiro (5’ UTR e 3’ UTR). Além disso, polimorfismos gênicos podem promover 10 processamentos alternativos, geração ou supressão de códons de terminação, alteração nos códons de iniciação da tradução e alterações no padrão de expressão de genes quando a troca de bases ocorre em sequências promotoras (GUIMARÃES & COSTA, 2002). Polimorfismos em regiões de intron ganharam importância pelo fato de não ser mais descartados como possíveis responsáveis diretos por alterações fenotípicas. RNAs não codificantes transcritos a partir de regiões de introns (micro-RNAs) podem estar envolvidos em diferentes processos biológicos tais como os controles transcricional e pós- transcricional da expressão gênica (NAKAYA et al., 2007). Embora a função da maior parte das regiões intergênicas ainda seja desconhecida, conhece-se cada vez com mais profundidade a sua importância no controle da regulação da expressão gênica. Neste sentido, polimorfismos localizados nestas regiões também podem estar associados à variações fenotípicas. Estudos em humanos (VENTER et al., 2001; LANDER et al., 2011) e em espécies de interesse zootécnico (WADE et al., 2009; DOAN et al., 2012; ) mostraram a ocorrência de milhões SNPs ao longo do genoma de um indivíduo (Human Genome Project Information, The SNP Consortium LTD, Bovine Genome Sequencing and Analysis Consortium, EquCab2.0 SNP Collection), ou seja, apenas pela comparação da sequência dos seus dois cromossomos homólogos. Além dos marcadores SNP serem abundantes, suas bases moleculares permitem sua distribuição homogênea pelo genoma (CAETANO, 2009). 3.6. Painéis de SNPs e imputação de genótipos De acordo com Chowdhary e Raudsepp (2008), entre os maiores destaques provenientes da análise do genoma de equinos estão o seu sequenciamento completo (EquCab2.0) e, a partir deste, a identificação de 1.162.753 de SNPs que ocorrem entre diversas raças (WADE et al., 2009). Projetado para permitir a identificação de regiões genômicas modificadas pela seleção e a identificação de regiões cromossômicas, genes e SNPs que contribuem para características de interesse nas principais raças de equinos criadas atualmente no mundo, o Equine SNP50 BeadChip da empresa Illumina (Illumina Inc., EUA) constituiu poderosa plataforma para a seleção e o melhoramento genético da espécie, habilitando pesquisadores da área a conduzir vasta gama de experimentos em que a aplicação da genotipagem de polimorfismos de DNA é necessária. Já em sua segunda geração, o novo SNP chip equino (Equine SNP70 BeadChip; Illumina Inc., EUA) possui aproximadamente 11 65 mil SNPs, dos quais 19 mil são novos marcadores e 45 mil foram validados no Equine SNP50 BeadChip. A análise simultânea de milhares de polimorfismos espalhados ao longo dos genomas têm possibilitado o estudo da estrutura genética de diferentes populações em várias espécies de animais domésticos (KIJAS et al., 2009; McKAY et al., 2008; GIBBS et al., 2009), estimar o grau de diversidade dentro e divergência genética entre populações (ZENGER et al., 2006), determinar a relação entre a perda de alelos e o aumento da endogamia devido à seleção (MUIR et al., 2008), e identificar e localizar regiões do genoma sujeitas à seleção (HAYES et al., 2006; BARENDSE et al., 2009; MACEACHERN et al., 2009; PRASAD et al., 2008). Boa parte destas aplicações requerem o conhecimento ou acesso ao desequilíbrio de ligação (DL) existente entre os marcadores moleculares em dada população da espécie de interesse. O DL entre marcadores moleculares descreve a correlação entre os genótipos de dois marcadores, expressando o grau de associação não aleatória entre seus alelos (PORTO-NETO et al., 2014). Em geral, esta associação ou ligação é consequência da proximidade física existente entre dois locos (ARDLIE et al., 2002; BOLORMAA et al., 2011) e é influenciado por eventos como mutação, deriva, seleção, recombinação e tamanho efetivo da população. A genotipagem de SNPs com diferentes arranjos em um mesmo experimento pode levar a uma perda importante de dados. A imputação de genótipos com base em informações de desequilíbrio de ligação (DL) entre marcadores oferece potencial solução para a resolução deste problema (HAYES et al., 2011; SARGOLZAEI et al., 2014). A fim de melhorar a predição dos resultados obtidos pelos estudos de associação entre genótipos e fenótipos e pela seleção genômica, diferentes estratégias de imputação de genótipos têm sido aplicadas em dados genômicos (HAYES et al., 2011; SARGOLZAEI et al., 2014). A imputação possibilita diversas aplicações como: 1) gerar painéis de alta densidade (HD) para animais genotipados com os de baixa densidade (LD) (SARGOLZAEI et al., 2014; BOICHARD et al., 2012); 2) combinar dados provenientes de amostras populacionais genotipadas com painéis de diferentes densidades ou raças distintas, permitindo painéis com densidade única e assim aumentar o número de indivíduos na amostra, para promover resultados mais satisfatórios em estudos genômicos (HAYES et al., 2011; LARMER et al., 2012); e 3) predizer genótipos faltantes do painel de genotipagem em decorrência do controle de qualidade dos dados ou erros de leitura, aumentando a porcentagem de genótipos válidos dos animais (WENG et al., 2012). 12 Entretanto, a imputação em situações reais entre amostras de populações genotipadas com painéis distintos pode trazer grandes desafios à inferência da acurácia. Desse modo, algumas análises e simulações podem ser conduzidas no conjunto amostral com o intuito de direcionar a escolha de estratégias mais eficientes para imputação, bem como estimar a confiabilidade das imputações realizadas sob essas circunstâncias. 3.9. Estudos associação ampla do genoma (GWAS) A relação causal entre polimorfismos genéticos dentro de uma espécie e as diferenças fenotípicas observadas entre indivíduos é de fundamental interesse biológico (KORTE; FARLOW, 2013) e, em muitas situações, econômico. Segundo Sahana et al. (2010) o principal propósito de estudos de associação ampla do genoma (GWAS), os quais envolvem milhares de marcadores distribuídos ao longo de todo o genoma, é identificar regiões dos cromossomos que abrigam genes que contribuem para a variação fenotípica de uma característica, servindo, posteriormente, como regiões putativas de QTL para estudos mais aprofundados. Os GWAS baseiam-se também no princípio do DL ao nível da população. Os estudos de associação ampla têm emergido como poderosa ferramenta para revelar as bases genéticas de doenças herdáveis e de características quantitativas (COLLINS et al., 1998). Em equinos, e em um primeiro momento, estudos de associação ampla serviram com sucesso, principalmente, à identificação de regiões genômicas e genes relacionados à importantes doenças e síndromes que acometem determinadas raças, tais como: lordose (COOK et al., 2010), osteocondrose (LYKKJEN et al., 2010; TEYSSEDRE et al., 2012), neuropatia laringeal recorrente (DUPUIS et al., 2011), nanismo (EBERTH et al., 2009) e síndrome do potro lavanda (BROOKS et al., 2010). Mais recentemente, características complexas relacionadas à desempenho em provas esportivas e aptidões específicas, como a marcha e suas variações, têm sido avaliadas (HILL et al., 2010; BINNS et al., 2010; SCHRÖDER et al., 2011; PETERSEN et al., 2013, MEIRA et al., 2014c, FONSECA et al., 2016, STAIGER et al., 2016a). Com relação às provas esportivas, estudos de associação amplos têm sido realizados, principalmente, com característica relacionadas à distância e ao desempenho em corridas na raça Puro-Sangue Inglês (HILL et al., 2010; BINNS et al., 2010; TOZAKI et al., 2010) e ao salto em diversas raças (BRARD; RICARD, 2015). Características morfométricas (SIGNER-HASLER et al., 2012; TETENS et al., 2013; MEIRA et al., 2014b; STAIGER et 13 al., 2016b), de fertilidade (GOTTSCHALK et al., 2016) e temperamento (STAIGER et al., 2016c) também têm sido contempladas. 3.10. Marcadores para desempenho em corridas de equinos Embora polimorfismos de DNA já sejam utilizados para predição de distâncias ótimas e desempenhos superiores em corridas para a raça Puro-Sangue Inglês (PSI), esses marcadores não têm os mesmos efeitos em diferentes raças de igual propósito (corrida). Esta afirmação pode ser mantida ainda que se considere a linhagem de corrida da raça Quarto de Milha, a qual possui influência genética de PSIs que correm distâncias curtas (PEREIRA et al., 2016a,b). Nos trabalhos realizados por Pereira e colaboradores não foram encontrados efeitos significativos dos alelos dos SNPs g.38973231A>G do gene PDK4, g.22684390C>T do gene COX4I2 e g.22999655C>A do gene CKM sobre o Índice de Velocidade (IV) máximo de equinos de corrida da raça Quarto de Milha. Estes resultados sugerem que os alelos dos genes PDK4 e COX4I2, relacionados com melhor desempenho em corridas na raça PSI, estejam relacionados à adaptações benéficas do metabolismo aeróbico e, dessa forma, tenham papéis secundários no desempenho em corridas de curtas distâncias e de explosão física (predominantemente anaeróbicas) da raça Quarto de Milha. Esperava-se que variações no CKM apresentassem papel relevante sobre o desempenho em corridas na raça Quarto de Milha uma vez que o produto proteico expresso por esse gene é responsável por manter os níveis de ATP celular constantes devido à fosforilação de adenosina difosfato (ADP) via creatina-fosfato, sendo importante no metabolismo energético muscular em exercícios intensos e curtos. Todavia, algumas pesquisas em humanos e em equinos PSI relacionaram o CKM com a eficiência energética do metabolismo energético muscular aeróbio (ECHEGARAY & RIVERA, 2001; GU et al., 2010). Com base no exposto, estudos de associação ampla do genoma em cavalos Quarto de Milha de corrida seriam de grande interesse e importância para a descoberta e utilização de marcadores genéticos para seleção de fenótipos superiores na linhagem. Em trabalho desenvolvido por Meira et al. (2014c), considerado preliminar em razão do pequeno número de animais utilizados (n= 112), foram apontados alguns SNPs em genes candidatos possivelmente associados (P < 0,0001; Q-value de 0,25 – após correção para testes múltilplos) à característica de desempenho (índice de velocidade) na linhagem de corrida da raça Quarto de Milha (MEIRA et al., 2014c). 14 Estes SNPs, encontrados pelo GWAS com a característica IV, estão localizados, com base no EquCab2.0, nos cromossomos (Chr) 2: 97634986 e 97642160; Chr 4: 82402787; Chr 10: 52188059; Chr 18: 33671391; 36917870; 39128343 e Chr 27: 35222223 (MEIRA et al., 2014c), próximos à regiões selecionadas de forma divergente na linhagem de corrida em relação à de trabalho da raça Quarto de Milha, identificadas pela aplicação simultânea das metodologias homozigose relativa do haplótipo estendido (REHH – “relative extended haplotype homozygosity”) e índice de fixação (FST), localizadas nos Chr 2: 87453500-89546885; Chr 4: 96192056-983156500; Chr 10: 65461613-67583618; Chr 18: 30519448-32573824 e Chr 27: 14932202-16989870 (MEIRA et al., 2014a). Embora os resultados encontrados sejam interessantes, em função de mostrarem pela primeira vez regiões do genoma possivelmente associadas ao desempenho em Quartos de Milha de corrida, necessitam ser corroborados em amostra maior de animais. Além disso, as regiões alvo de interesse devem ser sequenciadas em busca de polimorfismos em forte desequilíbrio de ligação, ligados ou responsáveis diretos pela variação da característica de interesse. 3.11. Sequenciamento de DNA Quinze anos após a publicação da sequência de nucleotídeos do genoma humano no ano de 2001 nas revistas “Nature” e “Science” (VENTER et al., 2001; LANDER et la., 2001), muitos avanços ocorreram em relação às técnicas de sequenciamento e aos estudos genômicos. Os métodos de sequenciamento de próxima geração (Next Generation Sequencing – NGS) tornaram-se realidade, com rápidos e constantes avanços tecnológicos na última década, o que os deixaram extremamente eficientes e de custo relativamente baixo, processos estes em contínua evolução. Com o auxílio de ferramentas de bioinformática, estes métodos permitem o sequenciamento e análise de milhões ou até bilhões de pares de bases (pb) em rodada única de leitura. A primeira geração de NGS teve início com o desenvolvimento da 454 Life Science em 2000 por Jonathan Rothberg (www.454.com). Esse método, diferentemente da técnica que adota capilares (necessidade de eletroforese), tem abordagem de sequenciamento em tempo real, por síntese, e se baseia na detecção iluminométrica de pirofosfatos inorgânicos (PPi) liberados com a incorporação dos desoxiribonucleotídeos trifosfatados (RONAGHI et al., 1998). A segunda geração de NGS é representada principalmente por quatro plataformas: 454 FLX (Roche, EUA); Solexa (Illumina Inc., EUA); e SOLiD (Applied Biosystems, EUA), as quais possuem elevada taxa de sequenciamento, gerando de 10 a 15 600 Gb por semana e tamanho médio de fragmentos de 100 a 700 pb (SHENDURE; JI, 2008). Recentemente vêm sendo introduzidas novas plataformas de sequenciamento, incluindo os Personal Genome Machine – PGM e os NGS de terceira geração. O Ion Personal Genome Machine e MiSeq foram lançados pelas empresas Ion Torrent e Illumina, respectivamente. Ambos os equipamentos são de tamanho físico reduzido e apresentam altas taxas de rotatividade de trabalhos, mas a transferência de dados é limitada. Eles são direcionados para aplicações clínicas e pequenos laboratórios. As plataformas de sequenciamento NGS de terceira geração, diferentemente das de segunda, não necessitam de amplificação do DNA, cujo objetivo é fortalecer o sinal luminoso para capitação fiável baseado em câmeras CCD, o que pode gerar distorções pela abundância de fragmentos. Na terceira geração, pela possível miniaturização em nano escala e utilização mínima de reagentes, é possível o sequenciamento de uma única molécula de DNA (CHIN et al., 2013). O primeiro sequenciador dessa geração foi o Heliscope™ (Pacific Bioscience, EUA), seguidos de outros como o PacBio RS ou SMRT™ e Sequel System (Pacific Bioscience, EUA) (KOREN et al., 2012; CHIN et al., 2013). A utilização de painéis de SNPs de baixas e médias densidades possibilitam o estudo de todo o genoma, e, dessa forma, apresentam grande utilidade em estudos evolutivos e na detecção de QTL, entre outros. Todavia, não geram informações adicionais de regiões do genoma associadas a características de interesse. Deste modo, para refinamento de resultados, podem ser utilizadas estratégias adicionais. Atualmente, os custos relacionados ao sequenciamento de regiões genômicas de tamanho significativo, ou mesmo todo genoma (Whole Genome Sequencing – WGS) tem se tornado baixos (LIU et al., 2012), possibilitando o uso de tecnologias de próxima geração para, dentre inúmeras possibilidades, refinamento de experimentos que utilizam arranjos de SNPs por meio de resequenciamento de regiões alvo. O sequenciamento de todo o exoma (Whole Exome Sequencing – WES) pode ser, do mesmo modo, empregado para esse propósito. Com custo apenas ligeiramente superior em relação ao resequenciamento de regiões alvo por captura por sondas, esta abordagem permite a detecção de variantes genéticas (Single Nucleotide Polymorphisms – SNPs, Insertions/Deletions – InDels e CNVs – Copy Number Variation) já mapeadas, ou de novo, em regiões expressas (exons), 5’ e 3’ UTR ao longo todo o genoma. Isto permite que a análise de polimorfismos possa ficar restrita à regiões de interesse do genoma, além de trazer a vantagem de disponibilizar dados extras para suprir outras frentes de pesquisa. 16 4. REFERÊNCIAS ABQM. Associação brasileira dos criadores de cavalos Quarto de Milha. Disponível em: . Acesso em: 15 mar. 2016. AGRAWAL, A. F., BRODIE, E. D., RIESEBERG, L. H. Possible consequences of genes of major effect: transient changes in the G-matrix. Genetica, v. 112, p. 33–43, 2001. ALMEIDA, F. Q. de; SILVA, V. P. Progresso científico em equideocultura na 1ª década do século XXI. Revista Brasileira de Zootecnia, v. 39, p. 119-129, 2010. AMERICA’S HORSE DAILY. All About the Racing American Quarter Horse. 26 de fevereiro de 2008. Disponível em: . Acesso em: 12 nov. 2013. ARDLIE, K. G.; KRUGLYAK, L.; SEIELSTAD, M. Patterns of linkage disequilibrium in the human genome. Natural Review Genetics, v. 3, p. 299-309, 2002. ARNASON, T. Bright future for research in horse breeding! Journal of Animal Breeding and Genetics, v. 130, p. 167-169, 2013. BARENDSE, W.; HARRISON, B. E.; BUNCH, R. J.; THOMAS, M. B.; TURNER, L. B. Genome wide signatures of positive selection: The comparison of independent samples and the identification of regions associated to traits. BMC Genomics, v. 10, n. 178, 2009. Disponível em: < doi: 10.1186/1471-2164-10-178>. BINNS, M. M.; BOEHLER, D. A.; LAMBERT, D. H. Identification of the myostatin locus (MSTN) as having a major effect on optimum racing distance in the Thoroughbred horse in the USA. Animal Genetics, v. 41, supl. 2, p. 154–158, 2010. BOICHARD, D.; CHUNG, H.; DASSONNEVILLE, R.; DAVID, XEGGEN, A.; FRITZ, S.; GIETZEN, K. J.; HAYES, B. J.; LAWLEY, C. T.; SONSTEGARD, T. S.; VAN TASSELL, C. P.; VANRADEN, P. M.; VIAUD-MARTINEZ, K. A.; WIGGANS, G. R. Design of a bovine low-density SNP array optimized for imputation. PLoS ONE, v. 7, 2012. Disponível em: < doi: 10.1371/journal.pone.0034130> BOKOR, A.; BLOUIN, C.; LANGLOIS, B.; STEFLER, J. Genetic parameters of racing merit of Thoroughbred horses in steeplechase races. Italian Journal of Animal Science, v. 4, p. 43-45, 2005. BOLORMAA, S.; HAYES, B. J.; SAVIN, K.; HAWKEN, R.; BARENDSE, W.; ARTHUR, P. F.; HERD, R. M.; GODDARD, M. E. Genome-wide association studies for feedlot and growth traits in cattle. Journal of Animal Science, v. 89, p. 1684-1697, 2011. BRARD, S.; RICARD, A. Genome‐wide association study for jumping performances in French sport horses. Animal genetics, v. 46, n. 1, p. 78-81, 2015. BROOKS, S. A.; N. GABRESKI, D.; MILLER, A.; BRISBIN, H. E.; BROWN. Whole-genome SNP association in the horse: Identification of a deletion in Myosin Va responsible for Lavender Foal Syndrome. PLoS Genetics, v. 6, n. 4, 2010. Disponível em: < http://dx.doi.org/10.1371/journal.pgen.1000909> 17 CAETANO, A. R. Marcadores SNP: conceitos básicos, aplicações no manejo e no melhoramento animal e perspectivas para o futuro. Revista Brasileira de Zootecnia, v. 38, p. 64-71, 2009. CHIN CS, ALEXANDER DH, MARKS P, KLAMMER AA, DRAKE J, HEINER C, CLUM A, COPELAND A, HUDDLESTON J, EICHLER E.E., TURNER SW, KORLACH J. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nature Methods, v. 10, p. 563-569, 2013. CHOWDHARY, B.P., RAUDSEPP, T. The Horse Derby: racing from map to whole genome sequence. Chromosome Research, v. 16, p. 109-127, 2008. COLLINS, F. S.; BROOKS, L. D.; CHAKRAVARTI, A. A DNA Polymorphism Discovery Resource for Research on Human Genetic Variation. Genome Research, v. 8, p. 1229– 1231, 1998. COOK, D.; GALLAGHER, P.; BAILEY, E. Genetics of swayback in American Saddlebred horses. Animal Genetics, v. 41, supl. 2, p. 64–71, 2010. CORRÊA, M. J. M.; MOTA, M. D. S. Genetic evaluation of performance traits in Brazilian Quarter Horse. Journal of Applied Genetics, v. 48, p. 145-151, 2007. DOAN, R.; COHEN, N.D.; SAWYER, J.; GHAFFARI, N.; JOHNSON, C.D.; DINDOT, S.V. Whole-Genome Sequencing and Genetic Variant Analysis of a Quarter Horse Mare. BMC Genomics, v. 13, n. 78, p. 1471-2164, 2012. DUPUIS, M.C.; ZHANG, Z., DRUET, T., DENOIX, J.M.; CHARLIER, C.; LEKEUX P.; GEORGES M. Results of a haplotype-based GWAS for recurrent laryngeal neuropathy in the horse. Mammalian Genome, v. 22, n. 9, p.613-20, outubro de 2011. EBERTH, J.; SWERCZAK, T.; BAILEY, E. Investigation of Dwarfism Among Miniature Horses using the Illumina Horse SNP50 Bead Chip. Journal of Equine Veterinary Science, v.29 (5), p.315, 2009. Echegaray M, Rivera MA. Role of creatine kinase isoenzymes on muscular and cardiorespiratory endurance: genetic and molecular evidence. Sports Medicine, v. 31, p. 919-34, 2001. ELLERSIECK, M.R.; LOCK, W.E.; VOGT, D.W.; Aipperspach, R. Genetic evaluation of cutting scores in horses. Equine Veterinary Science, v. 5, p. 287-289, 1985. EVANS, J. W. Horses: a guide to selection, care and enjoyment. Freeman and Company: New York, 4 ed., 1996. 797p. FAO. FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONS STATISTICS DIVISION, 2014. Disponivel em: < http://faostat3.fao.org/browse/Q/QA/E>. Acesso em: 15 jul. 2016. FERREIRA, M. E.; GRATTAPAGLIA, D. Introdução ao uso de marcadores moleculares em análise genética. Embrapa-Cenargen: Brasília, 3 ed., 1998. 220p. FONSECA, M. G.; FERRAZ, G. C.; PEREIRA, G. L.; CURI, R. A. A genome-wide association study reveals differences in the genetic mechanism of control of the two gait 18 patterns of the Brazilian Mangalarga Marchador breed. Journal of Equine Veterinary Science, v.37, p.1-98, 2016. GIBBS, R. A.; TAYLOR, J. F.; VAN TASSELL, C. P. Genome-Wide Survey of SNP Variation Uncovers the Genetic Structure of Cattle Breeds. Science, v. 324, p. 528-532, 2009. GLIPHA. Global Livestock Production and Health Atlas, 2014. Disponível em: . Acesso em: 15 jul. 2016. GOTTSCHALK, M.; METZGER, J.; MARTINSSON, G.; SIEME, H.; DISTL O. Genome- wide association study for semen quality traits in German Warmblood stallions. Animal Reproduction Science, v. 171, p. 81-86, 2016. GU, J.; MACHUGH, D.E.; MCGIVENY, B.A.; PARK, S.D.E.; KATZ, L.M.; HILL, E.M. Association of sequence variants in CKM (creatine kinase, muscle) and COX4I2 (cytochrome c oxidase, subunit 4, isoform 2) genes with racing performance in Thoroughbred horses. Equine Veterinay Journal, v. 42, p. 569-575, 2010. GUIMARÃES, P. E. M.; COSTA, M. C. R. SNPs: Sutis diferenças de um código. Biotecnologia Ciência e Desenvolvimento, n. 26, p. 24-27, 2002. HAYES, B. J.; BOWMAN, P. J.; DAETWYLER, H. D.; KIJAS, J. W.; VAN DER WERF, J. H. J. Accuracy of genotype imputation in sheep breeds. Animal Genetics, v. 43, p. 72-80, 2011. HAYES, B. J.; LIEN, S.; NIELSEN, H.; OLSEN, H. G.; BERG, P.; MACEACHERN, S.; POTTER, S.; MEUWISWSEN, T. E. The origin of selection signatures on bovine chromosome 6. Animal Genetics, v. 39, p. 101-105, 2006. HILL, E. W.; MCGIVNEY, B. A.; GU, J.; WHISTON, R.; MACHUGH, D. E. A genome-wide SNP-association study confirms a sequence variant (g.66493737C>T) in the equine myostatin (MSTN) gene as the most powerful predictor of optimum racing distance for Thoroughbred racehorses. BMC genomics, v. 11, n 552, 2010. Disponível em < doi: 10.1186/1471-2164-11-552>. HINTZ, R.L. Genetics performance in the horse. Journal of Animal Science, v.51, p.582- 594, 1980. JCS. Especial Quarto de Milha de Corrida. Jockey Club de Sorocaba, Sorocaba, SP, 2002. KIJAS, J. W.; TOWNLEY, D.; DALRYMPLE, B. P.; HEATON, M. P.; MADDOX, J. F.; MCGRATH, A.; WILSON, P.; INGERSOLL, R. G.; MCCULLOCH, R.; MCWILLIAM, S.; TANG, D.; MCEWAN, J.; COCKETT, N. V.; ODDY, H.; NICHOLAS, F. W.; RAADSMA, H. A. Genome Wide Survey of SNP Variation Reveals the Genetic Structure of Sheep Breeds. PLoSOne, v. 4, n. 3, 2009. Disponível em:< doi: 10.1371/journal.pone.0004668>. KOENEN, E.P.C.; VAN VELDHUIZEN, A.E.; BRASCAMPA, E.W. Genetic parameters of linear scored conformation traits and their relation to dressage and show-jumping 19 performance in the Dutch Warmblood Riding Horse population. Livestock Production Science, v. 43, p. 85-94, 1995. KOREN, S; SCHATZ, M.C.; WALENZ, B.P.; MARTIN, J.; HOWARD, J.T.; GANAPATHY, G.; WANG, Z.; RASKO, D.A.; MCCOMBIE, W.R.; JARVIS, E.D.; PHILLIPPY, A.M. Hybrid error correction and de novo assembly of single-molecule sequencing reads. Nature Biotechnology, v. 30, p. 693–700, 2012. KORTE, A.; FARLOW, A. The advantages and limtations of trait analysis with GWAS: a review. Plant Methods, v. 9, p. 29, 2013. KWOK, P. Y.; GU, Z. Single nucleotide polymorphism libraries: why and how are we building them? Molecular Medicine Today, v. 5, p. 538-543, 1999. LARMER, L.; SARGOLZAEI, M.; VENTURA, R.; SCHENKEL, F. Imputation accuracy from low to high density using within and across breed reference populations in Holstein, Guernsey and Ayrshire cattle. Technical report to the Dairy Cattle Breeding and Genetics Committee on February 28, 2012. University of Guelph, Guelph, ON, Canada, 2012. LIMA, R. A. S.; SHIROTA, R.; BARROS, G. S. C. Estudo do Complexo do Agronegócio Cavalo no Brasil. (Relatório Final), CEPEA – Centro de Estudos Avançados em Economia Aplicada, Piracicaba: ESALQ/USP, SP, Brasil, 2006. 250p. LIU, L.; LI, Y.; LI, S.; HU, N.; HE, Y.; PONG, R.; LIN, D.; LU, L.; LAW, M. Comparison of next-generation sequencing systems. Journal of Biomedicine and Biotechnology, v. 2012, 2012. Disponível em: < http://dx.doi.org/10.1155/2012/251364> LYKKJEN, S.; DOLVIK, N.I.; MCCUE, M.E.; RENDAHL, A.K.; MICKELSON, J.R.; ROED, K. H. Genomewide association analysis of osteochondrosis of the tibiotarsal joint in Norwegian Standardbred trotters. Animal Genetics, v. 41, supl. 2, p. 111–120, 2010. MACEACHERN, S.; HAYES, B.; MC EWAN, J.; GODDARD, M. An examination of positive selection and changing effective population size in Angus and Holstein cattle populations (Bos taurus) using a high density SNP genotyping platform and the contribution of ancient polymorphism to genomic diversity in Domestic cattle. BMC Genomics, v.10, p.181, 2009. MAPA. Revisão do estudo do complexo do agronegócio do cavalo. Câmara de Equideocultura do Ministério da Agricultura, Pecuária e Abastecimento, Brasília, 2015. MCKAY, S. D.; SCHNABEL, R. D.; MURDOCH, B. M.; MATUKUMALLI, L.K.; AERTS, J.; COPPIETERS, W.; CREWS, D.; NETO, E. D.; GILL, C. A.; GAO, C.; MANNEN, H.; WANG, Z.; VAN TASSELL, C. P.; WILLIAMS, J. L.; TAYLOR, J. F.; MOORE, S. S. An assessment of population structure in eight breeds of cattle using a whole genome SNP panel. BMC Genetics, v. 9, n. 37, 2008. Disponível em: . MEIRA, C. T; CURI, R. A; SILVA J. A .II. V.; CORRÊA, M. J. M.; OLIVEIRA, H. N.; MOTA, M. D. S. Morphological and genomic differences between cutting and racing lines of Quarter Horses. Journal of Equine Veterinary Science, v. 13, p. 244-249, 2013. MEIRA, C.T.; CURI, R.A.; FARAH, M.M.; OLIVEIRA, H.N.; BELTRAN, N.A.R.; SILVA, J.A.IIV.; MOTA, M.D.S. Prospection of genomic regions divergently selected in racing line of Quarter Horses in relation to cutting line. Animal, v. 8, n. 11, p. 1754-1764, 2014a. 20 MEIRA, C. T.; FARAH, M. M.; FORTES, M. R. S.; MOORE, S. S.; PEREIRA, G. L.; SILVA, J. A. V.; DA MOTA, M. D. S.; CURI, R. A. A Genome-Wide Association Study for morphometric traits in Quarter Horse. Journal of Equine Veterinary Science. v. 34, p.1028-1031, 2014b. MEIRA, C. T; FORTES, M. R. S.; FARAH, M. M.; PORTO-NETO, R. L.; KELLY, M.; MOORE, S. S.; PEREIRA, G. L.; CHARDULO, L. A. L.; CURI, R. Speed Index in the Racing Quarter Horse: A Genome-wide Association Study. Journal of Equine Veterinary Science, v. 34 , n. 11 , p. 1263 – 1268, 2014c. MUIR, W. M.; WONGB, G. K.; ZHANG, Y.; WANGC, J.; GROENEND M. A. M.; CROOIJMANSD, R. P. M. A.; MEGENSD, H. J.; ZHANGE, H.; OKIMOTOF, R.; VEREIJENG, A.; JUNGERIUSG, A.; ALBERSG, G. A. A.; LAWLEYH, C. T.; DELANVI, M. E.; MACEACHERNE, S.; CHENG, H. H. Genome-wide assessment of worldwide chicken SNP genetic diversity indicates significant absence of rare alleles in commercial breeds. Proceedings of the National Academy of Sciences of the United States of America, v. 105, p. 17312-17317, 2008. NAKAYA, H. L.; AMARAL, P. P.; LOURO, R.; LOPES, A.; FACHEL, A. A.; MOREIRA, Y. B.; EL-JUNDI, T. A.; SILVA, A. M.; REIS, E. M.; VERJOVSKI-ALMEIDA, S. Comment reviews reports deposited research refereed research interactions information Genome mapping and expression analyses of human intronic noncoding RNAs reveal tissue-specific patterns and enrichment in genes related to regulation of transcription. Genome Biology, v. 8, p. 1-25, 2007. ORR, H. A. The genetic theory of adaptation: a brief history. Nat. Rev. Genet, v.6, p. 119– 127, 2005. PEREIRA, G.L.; DE MATTEIS, R.; MEIRA, C.T.; REGITANO, L.C.A.; SILVA, J.A.IIV.; CHARDULO, L.A.L.; CURI, R.A. Comparison of Sequence Variants in the PDK4 and COX4I2 Genes Between Racing and Cutting Lines of Quarter Horses and Associations With the Speed Index. Journal of Equine Veterinary Science, v. 39, p. 1–6, 2016a. PEREIRA, G.L.; DE MATTEIS, R.; REGITANO, L.C.A.; CHARDULO, L.A.L.; CURI, R.A. MSTN, CKM, and DMRT3 Gene Variants in Different Lines of Quarter Horses. Journal of Equine Veterinary Science, v. 39, p. 33-37, 2016b. PETERSEN, J.L.; MICKELSON, J.R.; RENDAHL, A.K.; VALBERG, S.J.; ANDERSSON, L.S. et al. Genome-Wide Analysis Reveals Selection for Important Traits in Domestic Horse Breeds. PLoS Genetics, v.9, n.1, p. 1-17, 2013. PORTO-NETO, L.; KIJAS, J.; REVERTER, A. The extent of linkage disequilibrium in beef cattle breeds using high-density SNP genotypes. Genetics Selection Evolution, v.46(2), 2014. PRADO, R. S. A.; MOTA, M. D. S. Correlações genéticas entre deslocamento e conformação em equinos Mangalarga. Archivos de Zootecnia, v. 57, p. 165-169, 2008. PRASAD, A.; SCHNABEL, R. D.; MCKAY, S.D.; MURDOCH, B.; STOTHARD, P.; KOLBEHDARI, D.; WANG, Z.; TAYLOR, J. F.; MOORE, S. S. Linkage disequilibrium and signatures of selection on chromosomes 19 and 29 in beef and dairy cattle. Animal Genetics, v. 39, p.597-605, 2008. 21 RONAGHI M, UHLEN M, NYREN P. A sequencing method based on real-time pyrophosphate. Science. v. 281, p.363–365, 1998. SAHANA, G.; GULDBRANDTSEN, B.; BENDIXEN, C.; LUND, M. S. Genome-wide association mapping for female fertility traits in Danish and Swedish Holstein cattle. Animal Genetics, v. 41, p. 579–588, 2010. SANTOS, L. M. Morfologia e genética do cavalo Campolina. Belo Horizonte: Universidade Federal de Minas Gerais, 2006. 48p. Dissertação (Mestrado em Genética) – Universidade Federal de Minas Gerais, 2006. SARGOLZAEI, M., CHESNAIS, J.P., SCHENKEL, F.S. A new approach for efficient genotype imputation using information from relatives. BMC Genomics, v.15, p.478, 2014. SCHRÖDER, W.; KLOSTERMANN, A.; STOCK, K.F.; DISTL, O. A genome-wide association study for quantitative trait loci of show-jumping in Hanoverian Warmblood horses. Animal Genetics, p.1-9, 2011. SHENDURE, J.; JI, H. Next-generation DNA sequencing. Nature Biotechnology, v. 26, p. 1135–1145, 2008. SHIN, D-H.; LEE, J. W.; PARK, J-E.; CHOI, I-Y.; OH, H-S.; KIM, H. J.; KIM, H. Multiple Genes Related to Muscle Identified through a Joint Analysis of a Two-stage Genome-wide Association Study for Racing Performance of 1,156 Thoroughbreds. Asian-Australasian Journal of Animal Sciences, v. 28, n. 6, p. 771-781, 2015. SIGNER-HASLER H., FLURY, C., HAASE, B., BURGER, D., SIMIANER, H., LEEB, T., RIEDER, S.A. Genome-wide association study reveals loci influencing height and other conformation traits in horses. PloS One 7, e37282., 2012. STAIGER, E. A. et al. Skeletal variation in Tennessee Walking Horses maps to the LCORL/NCAPG gene region. Physiological genomics, v. 48, n. 5, p. 325-335, 2016b. STAIGER, E. A.; ABRI, M. A.; SILVA, C. A. S.; BROOKS, S. A. Loci impacting polymorphic gait in the Tennessee Walking Horse. Journal of Animal Science, v.94, n. 4, p.1377- 1386, 2016a. STAIGER, E. A.; ALBRIGHT, J. D.; BROOKS, S. A. Genome‐wide association mapping of heritable temperament variation in the Tennessee Walking Horse. Genes, Brain and Behavior, v. 15, n. 5, p. 514-526, 2016c. STINCHCOMBE, J. R.; WEINIG, C.; HEATH, K. D.; BROCK, M. T.; SCHMITT, J. Polymorphic Genes of Major Effect: Consequences for Variation, Selection and Evolution in Arabidopsis Thaliana. Genetics, v.182, p.911, 2009. TETENS, J.; WIDMANN, P.; KÜHN, C.; THALLER, G. A genome-wide association study indicates LCORL/NCAPG as a candidate locus for withers height in German Warmblood horses. Animal Genetics, v.44, p.467–471, 2013. TEYSSÈDRE, S.; DUPUIS, M.C.; GUÉRIN, G.; SCHIBLER, L.; DENOIX, J.M.; ELSEN, J.M. et al Genome-wide association studies for osteochondrosis in French Trotters. J Animal Science, v.90, p.45-53, 2012. 22 TOZAKI, T.; MIYAKE, T.; KAKOI, H.; GAWAHARA, H.; SUGITA, S.; HASEGAWA, T. et al. A genome-wide association study for racing performances in Thoroughbreds clarifies a candidate region near the MSTN gene. Animal Genetics, v.41, p.28-35, 2010. VENTER, J.C., ADAMS; M.D.; MYERS, .E.; LI, P.W.; MURAL, R.J.; SUTTON, G.G.; SMITH, H.O.; et al. The sequence of the human genome. Science, v. 291, p. 1304–1351, 2001. WADE, C. M.; GIULOTTO, E.; SIGURDSSON, S.; ZOLI, M.; GNERRE, S.; IMSLAND, F.; LEAR, T. L.; ADELSON, D. L.; BAILEY, E.; BELLONE, R. R.; BLOCKER, H.; DISTL, O.; EDGAR, R. C.; GARBER, M.; LEEB, T.; MAUCELI, E.; MACLEOD, J. N.; PENEDO, M. C. T.; RAISON, M.; SHARPE, T.; VOGEL, J.; ANDERSSON, L.; ANTCZAK, D. F.; BIAGI, T.; BINNS, M. M.; CHOWDHARY, B. P.; COLEMAN, S. J.; DELLA VALLE, G.; FRYC, S.; GUERIN, G.; HASEGAWA, T.; HILL, E. W.; JURKA, J.; KIIALAINEN, A.; LINDGREN, G.; LIU, J.; MAGNANI, E.; MICKELSON, J. R.; MURRAY, J.; NERGADZE, S. G.; ONOFRIO, R.; PEDRONI, S.; PIRAS, M. F.; RAUDSEPP, T.; ROCCHI, M.; ROED, K. H.; RYDER, O. A.; SEARLE, S.; SKOWN, L.; SWINBURNE, J. E.; SYVANEN, A. C.; TOZAKI, T.; VaLBERG, S. J.; VAUDIN, M.; WHITE, J. R.; ZODY, M. C.; Broad Institute Genome Sequencing Platform, Broad Institute Whole Genome Assembly Team; LANDER, E. S.; LINDBLAD-TOH, K. Genome sequence, comparative analysis, and population genetics of the domestic horse. Science, v.326, p.865-867, 2009. Wallin L, Strandberg E, Philipsson J. Genetic correlations between field test results of Swedish Warmblood Riding Horses as 4-year-olds and life time performance results in dressage and show jumping. Livestock Production Science, v. 82, p. 61-71, 2003. WENG , Z.; ZHANG, Z.; XIANGDONG, D.; WEIXUAN, F.; MA, P.; WANG, C.; ZHANG, Q. Application of imputation methods to genomic selection in Chinese Holstein cattle. Journal of Animal Science and Biotechnology, v.3, p.6, 2012. ZENGER, K. R.; KHATKAR, M. S.; CAVANAGH J. A. L.; HAWKEN, R. J.; RAADSMA, H. W. Genome-wide genetic diversity of Holstein Friesian cattle reveals new insights into Australian and global population variability, including impact of selection. Animal Genetics, v. 38, p. 7-14, 2006. 23 CAPITULO 2 – Imputação e avaliação da acurácia em cavalos de corrida da raça Quarto de Milha genotipados com diferentes painéis comerciais de SNPs. RESUMO – A confecção de painéis de genotipagem de SNPs em larga escala para equinos trouxe novas possibilidades para estudos genéticos na espécie. Em sua primeira versão, contava com cerca de 54.000 SNPs (54k). Atualmente, em sua segunda geração possui aproximadamente 65 mil SNPs (65k), dos quais 19 mil são novos marcadores e 45 mil estavam presentes no primeiro painel. Este trabalho teve como objetivos realizar a imputação de genótipos em duas vias entre indivíduos de uma amostra populacional relativamente pequena de cavalos de corrida da raça Quarto de Milha genotipados com painéis de 54k ou de 65k, bem como avaliar a acurácia de imputação por meio de simulações. A imputação foi realizada utilizando 116 cavalos genotipados com o arranjo de SNPs de 54k e 233 genotipados com arranjo de 65k. Nas simulações foram escolhidas amostras aleatórias para constituírem as populações imputadas e referências em dois cenários. O cenário A simulou a imputação genótipos na primeira via (65k para 54k) e o cenário B na segunda (54k para 65k). No cenário A foram considerados 113 indivíduos para a população referência e 236 para a imputada, dos quais 116 e 120 foram genotipados com os arranjos de 54k e 65k, respectivamente. No cenário B foram considerados 50 indivíduos para a população referência e 299 para a imputada, dos quais 66 e 233 foram genotipados com os arranjos de 54k e 65k, respectivamente. Em cada cenário, os indivíduos genotipados com o mesmo arranjo da população referência, mas que foram incluídos no grupo a ser imputado, tiveram seus genótipos exclusivos mascarados para posterior averiguação da acurácia de imputação. Com isso, após o controle de qualidade, os painéis de 54k e de 65k contaram com 7.048 e 16.940 marcadores exclusivos, respectivamente. As médias de taxa de concordância para os cenários A e B foram 0,9815 e 0,9751 e para r2 alélico foram 0,9791 e 0,9740, respectivamente. Não foram observadas influências importantes dos coeficientes de parentesco genômicos entre as amostras a serem imputadas e as de referência sobre a acurácia de imputação. Desta forma, a imputação em duas vias de genótipos exclusivos entre os painéis equinos de 54k e 65k proporcionou aumento considerável de SNPs para todas as amostras (12 a 26%), sem que houvesse perdas na qualidade das informações. Palavras-chave: cromossomos, estrutura de população, IBD, MAF, taxa de concordância 24 GENOTYPE IMPUTATION AND ACCURACY EVALUATION IN RACING QUARTER HORSES GENOTYPED USING DIFFERENT COMMERCIAL SNP PANELS Abstract – The creation of large-scale SNP genotyping panels for horses has opened up new possibilities for genetic studies in the species. The first version contained about 54,000 SNPs (54k). The current second generation panel possesses approximately 65,000 SNPs (65k), 19,000 of them are new markers and 45,000 were present in the first panel. The objectives of this study were to perform two-step genotype imputation between individuals in a relatively small population sample of racing Quarter Horses genotyped with the 54k or 65k panel, and to evaluate the accuracy of imputation through simulations. Genotypes were imputed using 116 horses genotyped with the 54k SNP array and 233 animals genotyped with the 65k array. For the simulations, random samples were chosen to compose the imputed and reference populations in two scenarios. Scenario A simulated the genotype imputation in the first step (from 65k to 54k) and scenario B in the second step (from 54k to 65k). In each scenario, the individuals genotyped with the same panel as the reference population, but that were included in the imputed group, had their exclusive genotypes masked for subsequent evaluation of imputation accuracy. Thus, after quality control, the 54k and 65k panels contained 7,048 and 16,940 exclusive markers, respectively. The mean concordance rate was 0.9815 and 0.9751 for scenarios A and B, and the mean allelic r2 was 0.9791 and 0.974, respectively. No important influences of the genomic relationship coefficients on imputation accuracy were observed between the imputed and reference samples. Thus, two-step imputation of exclusive genotypes between the 54k and 65k equine panels resulted in a considerable increase of SNPs for all samples (12 to 26%) without losses in the quality of information. Keywords: concordance rate, chromosomes, IBD, MAF, population structure 25 1. Introdução O surgimento de tecnologias de sequenciamento de nova geração (Next Generation Sequencing – NGS) possibilitou o sequenciamento e mapeamento de milhares de polimorfismos espalhados por todo o genoma equino (WADE et al., 2009; DOAN et al., 2012), o que permitiu a criação de painéis de genotipagem de SNPs em larga escala, abrindo novas possibilidades para estudos genéticos na espécie. Em sua primeira versão, a plataforma de genotipagem específica para espécie, o Equine SNP50 BeadChip da empresa Illumina (Illumina Inc., EUA), contava com cerca de 54.000 SNPs (54k). Atualmente, em sua segunda geração, o SNP chip equino (Equine SNP70 BeadChip; Illumina Inc., EUA) possui aproximadamente 65 mil SNPs (65k), dos quais 19 mil são novos marcadores e 45 mil estavam presentes no Equine SNP50 BeadChip. A genotipagem de SNPs com os dois diferentes arranjos equinos em um mesmo experimento ou em experimentos diferentes pode levar à perda importante de dados. Entretanto, a imputação de genótipos de SNPs com base em informações de desequilíbrio de ligação (LD) populacional oferece potencial solução para a resolução deste problema, ou seja, permite a compatibilidade e a continuidade de pesquisas existentes. De forma geral a imputação de genótipos possibilita combinar dados provenientes de amostras populacionais genotipadas com painéis de diferentes densidades (HAYES et al., 2011; LARMER et al., 2012), gerar painéis de alta densidade (High Density – HD) para animais genotipados com os de baixa densidade (Low Density – LD) (SARGOLZAEI et al., 2014; BOICHARD et al., 2012) e predizer genótipos faltantes do painel de genotipagem em decorrência da aplicação do controle de qualidade dos dados ou erros de leitura. Neste sentido, com o intuito de se obter maior sucesso em imputações de genótipos, diversas pesquisas têm estudado fatores que influenciam diretamente a acurácia de imputação, como: tamanho da população de referência (SARGOLZAEI et al., 2011, VENTURA et al., 2016), grau de parentesco entre as populações referência e imputada (CHUD et al., 2015; VENTURA et al., 2016), densidade de painéis (ZHANG et al., 2010; SARGOLZAEI et al., 2011) e alelos de baixa frequência (Minor Allele Frequency – MAF) (ZHANG et al., 2010; SARGOLZAEI et al 2014; VENTURA et al., 2016). Contudo, a imputação em situações reais entre amostras de populações genotipadas com painéis distintos, pode trazer desafios à inferência da acurácia. Deste modo, algumas análises e simulações podem ser realizadas em um conjunto amostral com o intuito de direcionar a escolha de estratégias 26 mais eficientes para imputação, bem como para obter parâmetros de confiabilidade de imputações realizadas sob essas circunstâncias. Dentre as raças equinas, a Quarto de Milha é das mais criadas no mundo e se destaca por sua versatilidade, robustez e temperamento dócil, sendo muito utilizada no trabalho com o gado, em provas equestres funcionais e de velocidade (ABQM, 2016). Como os mais velozes do mundo, cavalos da linhagem de corrida da raça Quarto de Milha apresentam melhor desempenho em pistas de curtas distâncias do que qualquer outra raça de equinos (AMERICA’S HORSE DAILY, 2008). Dada a importância da linhagem de corrida da raça Quarto de Milha na equideocultura mundial, este trabalho teve como objetivos realizar a imputação de genótipos em duas vias entre indivíduos de uma amostra populacional relativamente pequena genotipados com painéis de 54k ou de 65k, bem como avaliar a acurácia de imputação por meio de simulações. 2. Material e Métodos 2.1. Animais Foram utilizados 360 equinos da linhagem de corrida da raça Quarto de Milha, de ambos os sexos, registrados na Associação Brasileira de Criadores de Cavalo Quarto de Milha (ABQM). Deste total, 120 cavalos tiveram o sangue coletado no ano de 2011. Os demais animais utilizados, n= 240, foram coletados no primeiro semestre do ano de 2015. Estes animais, 78 machos e 282 fêmeas, são filhos de 83 garanhões e 249 éguas, resultando em média de 4,3 progênies/garanhão e 1,4 progênies/égua. Estes animais eram pertencentes a 159 criadores e encontravam-se alojados no Jockey Club de Sorocaba (Sorocaba/SP – Brasil) e em 25 propriedades rurais localizadas em cidades do interior estado de São Paulo/Brasil. A coleta e, consequentemente, a presença de irmãos completos na amostra foi evitada. Todos os procedimentos envolvendo os animais foram realizados segundo as normas brasileiras de bem-estar animal (Protocolo n° 157/2014 – Comissão de Ética no Uso de Animais / CEUA, FMVZ, Unesp, Botucatu/SP). 2.2. Genotipagem dos SNPs e controle de qualidade Dos 360 cavalos utilizados neste estudo, 120 foram genotipados no ano de 2011 utilizando-se o Equine SNP50 BeadChip (Illumina, Inc., EUA). As demais amostras de 27 DNA (n= 240) foram genotipadas no ano de 2015 com o Equine SNP70 BeadChip (Illumina, Inc., EUA). A leitura de ambos os arranjos foi realizada utilizando-se o sistema HiScan (Illumina, Inc., EUA). Os controles de qualidade (quality control – QC) das informações de genotipagem para os indivíduos analisados com os arranjos de 54k ou de 65k (n=120 e n= 240) foram realizados por meio do pacote snpStats (Clayton, 2015) do programa R (R Core Team, 2016). Animais com call rate abaixo de 0,90 foram excluídos do conjunto amostral (Tabela 1). Foram excluídos SNPs localizados no cromossomo X, os com call rate inferior a 0,9 e os com p-value inferior a 1x10-5 para o equilíbrio de Hardy- Weinberg (Hardy-Weinberg Equilibrium – HWE) (Tabelas 1). A MAF não foi utilizada como critério para exclusão de SNPs em um primeiro momento tendo em vista que diferentes faixas de MAF foram utilizadas no processo de verificação da eficiência de imputação de genótipos em duas vias entre os chips equinos SNP50 e SNP70. Tabela 1 – Número de marcadores dos chips Equine SNP50 BeadChip e Equine SNP70 BeadChip e número de SNPs excluídos por cada critério de QC utilizados. Critérios utilizados para exclusão de amostras SNP50 (n) SNP70 (n) Call rate < 0,9 4 7 Amostras restantes 116 233 Critérios utilizados para exclusão de SNPs SNP50 (n) SNP70 (n) SNPs genotipados 54.602 65.157 Localizados no cromossomo X 3.223 3.411 Call rate < 0,9 148 504 Equilíbrio de Hardy-Weinberg – p < 1x10-5 4.519 4.638 SNPs restantes 46.712 56.604 2.3. Análise populacional Análise de estratificação da população foi conduzida com todos os SNPs comuns aos dois painéis que passaram pelo controle de qualidade foram submetidos à pruning para seleção de marcadores que não estavam em LD, considerando r2 < 0,2. As probabilidades de compartilhar marcadores idênticos por estado (identity-by-state – IBS) entre todas as amostras par a par foram calculadas utilizando os SNPs autossômicos que permaneceram após o prune. Por fim, para análise visual, foi obtido o gráfico de 28 escalonamento multidimensional por meio da opção MDS plot do programa PLINK 1.07 (PURCELL et al., 2007). Os coeficientes de parentesco, ou seja, as probabilidades de indivíduos compartilharem marcadores IBD foram calculadas para todos os pares de amostras considerando apenas os SNPs comuns entre os dois painéis. Marcadores idênticos por descendência (identity-by-descent – IBD) podem ser utilizados para identificar indivíduos mais próximos do que seria esperado em uma amostra homogênea, ou seja, aparentados (PURCELL et al., 2007). As estimativas IBD foram dadas por Z0, Z1 e Z2, que representam a probabilidade de duas amostras compartilharem nenhum marcador IBD, um marcador IBD e dois marcadores IBD, respectivamente. A proporção de IBD entre amostras foi dada por 𝑃𝐼_𝐻𝐴𝑇 = 𝑝(𝑍2) + 0,5 × 𝑝(𝑍1). Os procedimentos de pruning e a obtenção das estimativas IBS e IBD foram realizados por meio do programa PLINK 1.07 (PURCELL et al., 2007). As médias da proporção IBD de cada amostra, bem como as médias de parentesco entre as amostras do conjunto imputadas (as quais tiveram marcadores mascarados) e do conjunto referência foram obtidas por meio do programa R (R Core Team, 2016). 2.4. Imputação de genótipos e avaliação da acurácia de imputação O procedimento de imputação dos genótipos foi realizado por meio do programa FImpute v.2.2 (SARGOLZAEI et al., 2014). Como descrito anteriormente, os indivíduos utilizados neste estudo foram genotipados de forma exclusiva com um ou outro painel. Dessa forma, a imputação de genótipos final foi realizada em duas vias (i.e. do chip de 65k para o chip de 54k e vice-versa). Pelo fato de não haver no conjunto amostral animais genotipados com ambos os painéis, a avaliação da acurácia do processo de imputação de marcadores entre os painéis foi estimada por meio de simulações envolvendo diferentes cenários. Foram propostos dois cenários de imputação visando avaliar a capacidade de imputar corretamente os SNPs exclusivos em cada painel. Primeiramente, foi utilizado o painel de 65k como referência e o de 54k como imputado (cenário A). Para isso foram considerados todos os marcadores presentes no painel de 65k e somente os marcadores em comum do de 54k. Para acessar a eficiência de imputação dos SNPs exclusivos do SNP70 foram escolhidas de forma aleatória, aproximadamente 50% das amostras genotipadas com esse chip. As demais amostras genotipadas com o SNP70 tiveram seus marcadores exclusivos mascarados e foram incorporadas às amostras a ser imputadas genotipadas com painel 29 de 54k. O mesmo procedimento foi realizado na segunda via (cenário B), em que houve somente a inversão dos painéis utilizados como referência e imputado. Para determinar a acurácia de imputação foi utilizada a taxa de concordância (concordance rate – CR), a qual corresponde à proporção de genótipos imputados corretamente. Também foi estimado o r2 alélico (correlação alélica), o qual é determinado pelo quadrado da correlação entre a contagem de alelos (alelo de efeito menor) imputados e a contagem de alelos do genótipo original. Os valores de acurácia foram obtidos tanto por SNPs (médias por intervalos de MAFs e cromossomos) quanto por amostras. 3. Resultados e discussão 3.1. Estrutura da população e análise de parentesco A análise de estratificação da população foi realizada para verificar a existência de clusters constituídos, exclusivamente, de indivíduos genotipados com o mesmo chip dentro da amostra total de animais. No gráfico MDS (Figura 1) foram observadas subestruturas distintas, contudo, nenhuma delas envolvendo apenas amostras genotipadas com um ou outro arranjo nas regiões mais densas do gráfico. Figura 1 – MDS plot do conjunto total de amostras considerando os 39.664 SNPs comuns a ambos os arranjos equinos. Os círculos e os losangos correspondem a animais genotipados com os arranjos de 54k e 65k, respectivamente. 30 Este resultado indicou que não há formação de clusters exclusivos de animais genotipados com o painel de 54k ou com o de 65k, ou seja, que as amostras genotipadas com os painéis de menor e maior densidade não representam duas populações distintas. A ocorrência de populações distintas entre referências e imputados poderia acarretar em baixos valores de acurácia, ou seja, genótipos imputados não confiáveis. As estimativas IBD para a determinação do coeficiente de parentesco médio com base em marcadores SNPs foi dada pela probabilidade média de conter um ou dois marcadores IBD (IBD proportion). De forma geral, as estimativas de parentesco genômico médio para cada par de indivíduos concordaram com as informações do pedigree. Animais com proporção IBD acima da média (0,0962) foram os que apresentaram maior grau de parentesco (1º e 2º grau) em relação a todos os indivíduos da população, sendo geralmente avós e pais. O parentesco médio e máximo da população imputada em relação à de referência foi maior no cenário B se comparado ao cenário A, contudo o parentesco mínimo foi maior em A (Tabela 2). Os coeficientes de parentesco médio e máximo encontrados para as populações a serem imputadas em cada cenário foram semelhantes aos encontrados para o conjunto amostral total (Tabela 2). Tabela 2 – Coeficientes mínimo, médio e máximo de parentesco obtidos por meio de matriz IBD para todas as amostras e para amostras imputadas em cada via (54k para 65k e 65k para 54k) Amostras Mínimo Médio Máximo Todas 0,00360 0,09620 0,21100 65k para 54k* (cenário A) 0,02072 0,09909 0,18300 54k para 65k* (cenário B) 0,01449 0,10030 0,21890 *Médias IBD obtidas para amostras imputadas em relação às de referência 3.2. Acurácia de imputação por SNP A imputação de SNPs em duas vias trouxe aumento considerável de informação a cada painel. Na Tabela 3 estão descritos os números de SNPs compartilhados e exclusivos de cada painel, bem como o número total de SNPs após a imputação em duas vias. O ganho em número de marcadores em relação ao painel imputado final (64k) foi de 26% para o SNP50, ultrapassando o número original de SNPs, e 12% para o SNP70. 31 Tabela 3 – Número de marcadores dos chips Equine SNP50 BeadChip e Equine SNP70 BeadChip e comuns aos dois arranjos após o controle de qualidade e número de marcadores remanescentes após o processo de imputação em duas vias. Painéis SNPs após QC (n) SNP50 46.712 *Exclusivos SNP50 7.048 SNP70 56.604 *Exclusivos SNP70 16.940 Painel comun (SNP50 e SNP70) 39.664 Painel após a imputação 63.652 *SNPs que foram imputados para o outro painel Para o cenário A (do painel de 65k para o de 54k) foram considerados 113 indivíduos para a população referência e 236 para a imputada, dos quais 116 e 120 foram genotipados com os arranjos de 54k e 65k, respectivamente. Já para o cenário B (do painel de 54k para o de 65k) foram considerados 50 indivíduos para a população referência e 299 para a imputada, dos quais 66 e 233 foram genotipados com os arranjos de 54k e 65k, respectivamente. A utilização de aproximadamente 50% das amostras como referências e 50% como imputadas, permitiu manter número satisfatório de indivíduos tanto para o processo de imputação quanto para o procedimento de avaliação de acurácia.Para as populações imputadas, somente os genótipos comuns aos dois painéis foram considerados (39.664). Em cada cenário, os indivíduos genotipados com o mesmo arranjo da população referência, mas que foram incluídos no grupo a ser imputado, tiveram seus genótipos exclusivos mascarados para posterior averiguação da acurácia de imputação. Com isso, após o QC, os painéis de 54k o de 65k contaram com 7.048 e 16.940 marcadores exclusivos, respectivamente. As médias de CR para os cenários A e B foram 0,9815±0,02882 e 0,9751±0,03731, e para r2 alélico foram 0,9791±0,04209 e 0,9740±0,04911, respectivamente. As acurácias de imputação na via 65k para 54k foram maiores que na via oposta. Também foram analisadas as acurácia de imputação em cada cenário pela média de CR e r2 alélico para cada intervalo de MAF. 32 Figura 2 – Eficiência de imputação em diferentes cenários e em diferentes intervalos de MAF (eixo x) dado pelas médias de taxa concordância (CR) e r2 alélico (eixo y). Cada tipo de linha e ponto representa um cenário diferente de imputação. Como esperado para CR, as maiores acurácias foram obt