Application of artificial neural networks to genome-enabled prediction in Nellore cattle

Carregando...
Imagem de Miniatura

Data

2019-07-29

Autores

Ribeiro, André Mauric Frossard

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Nos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.
In recent years, the fast development of high-throughput sequencing technologies has enabled large-scale genotyping of thousands of genetic markers. Several statistical models have been developed for predicting breeding genetic values for complex traits using the information on dense molecular markers, pedigrees, or both. These models include, among others, the artificial neural networks (ANN) that have been widely used in prediction problems in other fields of application and, more recently, for genome-enabled prediction. The objective of this work was to evaluate the performance of artificial neural networks in the genomic prediction of complex trait in Nellore cattle. For this, we has been tested different network architectures (1 to 4 neurons on hidden layer), 5 strategies to select animals based on their EBV accuracy to be declared for the training network as input and evaluation of relationship matrices [ NN_G (G as input); NN_GD(combined G with D), and N_Guar (Guar as input)] to be used as input for genomic prediction in body weight traits in Nellore cattle relative to hierarchical linear Bayesian regression models (BayesB) . The dEBV of 8652 animals genotyped for body weight at 120 days, 240 days, 365 days, and 455 days was used. Animals were divided into training population and validation by the predicted EBV accuracy. All strategies were repeated five times, and the correlation between dEBV and predicted dEBV was used as the accuracy measure of the models tested. There was no evidence that more complex networks (with more neurons) produced better predictions when we used NN_G or NN_GD. Possibly, this was because dEBV for body weight trait was estimated under an additive model of inheritance in which additive genetic merit has a linear relationship with SNP effects. For both NN_G and NN_GD, the higher the number of animals in the larger training population was the prediction ability for body weight characteristics. However, when evaluating the scenario with the same size of the training population, we observed the training models with animals with higher accuracy of EBV presented greater predictive ability. Thus, artificial neural networks are not only impacted by the number of animals in the training group but also by the accuracy of the EBV of these animals. Also, all network models presented better predictions when compared with BayesB, for scenarios with few animals in the training population, and maybe an important tool for programs or traits that have few animals genotyped. We also employed K-means clustering to additive genomic relationships among all genotyped animals to partition animals into training and validation groups, to increase within-group and decrease between-group relationships for cross-validation. The K-means clustering method was applied to a dissimilarity matrix containing elements of one minus the additive genomic relationship between pairs of animals to partition the genotyped animal into four groups. The results show considerable variation in accuracy between groups. In general, body weight traits with higher heritability values (p365 and p455) presented higher prediction accuracy. The group used as the reference population with the lowest genomic relationship with the test populations showed the neural networks showed worse prediction ability when compared to training populations with higher kinship degree with the test groups. Thus we can conclude that the ability of genomic prediction of ANN when using the matrix G as input is dependent on the degree of genomic relationship between the training population and the reference population.

Descrição

Palavras-chave

Seleção genômica, Aprenzado de máquina, Zebu, Genomic selection, Machine learning

Como citar