Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle

Carregando...
Imagem de Miniatura

Data

2019-12-28

Autores

Alves, Anderson Antonio Carvalho [UNESP]

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

A seleção de animais geneticamente superiores com base na informação genômica tem sido uma tendência crescente e promissora em programas de melhoramento. No entanto, os principais métodos de predição genômica envolvem modelos paramétricos, que em sua maioria, assumem somente variância aditiva para o efeito dos marcadores, ignorando-se possíveis relações não-lineares. A consideração de tais efeitos pode ser importante para melhorar a habilidade de predição em características com arquitetura genética complexa. Recentemente, tem crescido o interesse em métodos de predição semi e não paramétricos. Dentro desse contexto, os métodos de aprendizagem de máquina tais como Redes Neurais Artificiais (ANN), “Random Forest” (RF) e “Support Vector Machines” (SVM) são alternativas interessantes. Os objetivos do presente estudo foram: i) Comparar o desempenho preditivo do modelo “Genomic Best Linear Unbiased Predictor” (GBLUP) e de métodos de aprendizagem de máquina em populações simuladas de bovinos de corte, apresentando diferentes níveis para efeitos de dominância; ii) Investigar a habilidade de predição de diferentes métodos de aprendizagem de máquina para predição genômica de características reprodutivas em bovinos da raça Nelore; iii) Desenvolver um estudo de associação genômica ampla (GWAS) utilizando a metodologia “Random Forest”, a fim de buscar genes candidatos para idade ao primeiro parto em novilhas da raça Nelore. No primeiro estudo, o genoma simulado compreendeu um painel de SNPs (“Single Nucleotide Polymorphisms”) com densidade de 50k e 300 QTLs (“Quantitative Trait Loci”), espalhados aleatoriamente ao longo de 29 cromossomos. Foram simuladas ao todo seis características, considerando-se diferentes valores de herdabilidade no sentido restrito e amplo. No cenário puramente aditivo e com baixa herdabilidade (h2 = 0,10), a habilidade de predição utilizando o método GBLUP foi levemente superior em relação aos outros métodos (aproximadamente de 0,8% a 5,0%), ao passo que as ANN obtiveram melhor acurácia nos cenários com moderada herdabilidade (h2 = 0,30). As acurácias para os efeitos de dominância variaram entre 0,180 e 0,350 no modelo GBLUP considerando a matriz de relacionamento de dominância (GBLUP-D), entre 0,062 e 0,185 para o RF e foram nulas utilizando-se os métodos ANN e SVM. Entre os métodos de aprendizagem de máquina, apenas o RF foi capaz de capturar implicitamente os efeitos de dominância, resultando em maiores acurácias de predição para os valores genéticos totais e fenotípicos quando a variância devido ao efeito de dominância aumentou. No segundo estudo, dados referentes a bovinos da raça Nelore nascidos entre 1984 e 2015 foram utilizados. As características estudadas foram Idade ao Primeiro Parto (AFC), Circunferência Escrotal (SC), Prenhez Precoce (EP) e Habilidade de Permanência (STAY). Após o controle de qualidade, o número de animais com genótipos e de marcadores SNP disponíveis foram respectivamente, 2.342 e 321.419 (AFC), 4.671 e 309.486 (SC), 3.356 e 319.108 (EP) e 2.681 e 319.619 (STAY). A habilidade preditiva de diferentes métodos de aprendizagem de máquina tais como “Support Vector Regression” (SVR), “Bayesian Regularized Artificial Neural Network” (BRANN) e RF foi avaliada. Os resultados foram comparados aos obtidos pelos modelos paramétricos GBLUP e BLASSO (“Bayesian Least Absolute Shrinkage and Selection Operator”). Para o modelo SVR, investigou-se a influência de diferentes valores para o parâmetro de largura de banda do kernel na habilidade de predição do modelo. Para o modelo BRANN, diferentes números de neurônios na camada oculta (de 1 a 4 neurônios) foram examinados para se identificar a melhor arquitetura de rede. Além disso, duas estruturas de informação genômica foram testadas como informação de entrada no modelo BRANN, a matriz de relacionamento genômica (G) e a matriz de componentes principais (PC). A habilidade de predição dos modelos foi avaliada por meio de um esquema de validação cruzada em 5 “folds”. As acurácias obtidas foram de baixas a moderadas de acordo com a característica e modelos considerados, variando entre 0,555 e 0,625 (AFC), 0,268 e 0,359 (SC), 0,573 e 0,666 (EP) e entre 0,517 e 0,618 (STAY). O modelo SVR obteve desempenho ligeiramente superior em relação aos métodos paramétricos (GBLUP e BLASSO) para todas as características avaliadas, aumentando a acurácia de predição da AFC em aproximadamente 5,1% e 3,7%, quando comparados aos modelos GBLUP e BLASSO, respectivamente, e em 7,2% para SC, 3,4% para EP e 5% para STAY quando comparado aos resultados obtidos por ambos GBLUP e BLASSO. Por outro lado, os modelos RF, BRANN_G e BRANN_PC não apresentaram habilidade de predição competitiva com os métodos tradicionais, apresentando menor acurácia de predição e maiores erros de predição para todas as características. Os resultados indicam que o SVR é um método adequado para a predição de valores genéticos genômicos para características reprodutivas em bovinos da raça Nelore, apresentando melhor habilidade de predição e eficiência no tempo de computação em relação as metodologias paramétricas estudadas. Além disso, o valor mais adequado para o parâmetro de largura de banda do kernel no método SVR dependeu da característica avaliada, desse modo, a correta predefinição desse parâmetro na fase de treinamento do modelo é aconselhável. Por último, um estudo de associação genômica ampla foi realizado utilizando a abordagem RF, a fim de se identificar genes candidatos para a idade ao primeiro parto em bovinos da raça Nelore. Os valores examinados para o parâmetro Mtry (ou seja, o número de SNPs testados em cada nó das árvores) foram 1, √p, 0.01p e 0.1p, em que p representa o número total de SNPs. Os parâmetros que produziram o menor erro quadrático nos dados out-of-bag (MSEOOB) foram mantidos para análises posteriores. Foram realizadas 5 análises independentes com diferentes sementes de inicialização do algoritmo e os escores de importância dos SNPs foram computados como a média das 5 análises. Foram identificados 118 SNPs associados com AFC, localizados em oito cromossomos autossômicos (BTA 3, 5, 10, 11, 18, 21, 25 e 27). No total, 23 regiões não sobrepostas cobriram 172 genes candidatos para AFC. Regiões genômicas previamente associadas com características de fertilidade e crescimento em bovinos Nelore foram reportadas neste estudo, o que reforça a efetividade do RF como um método para a varredura inicial de regiões candidatas associadas com características complexas. O estudo de associação baseado no método RF e a análise funcional apontaram genes candidatos com funções chave na regulação da fertilidade, incluindo a pré-implantação de embriões e seu desenvolvimento, viabilidade embrionária, maturação de células germinais masculinas e reconhecimento de feromônios.
The selection of genetically superior animals based on genomic information has been an increasing and promising trend in breeding programs. However, the main methods used for genome-enabled prediction involve parametric models that mostly assume only additive variance for markers effects, ignoring possible nonlinear relationships. Accounting for such effects may be important to improve the predictive ability for traits with complex genetic architecture. The interest in semi and non-parametric prediction methods has recently increased. Within this context, machine learning methods such as Artificial Neural Networks (ANN), Random Forest (RF) and Support Vector Machines (SVM) are an interesting alternative. The aims of the present study were: i) To compare the predictive performance of Genomic Best Linear Unbiased Predictor (GBLUP) and machine learning methods in simulated beef cattle populations presenting different degrees of dominance; ii) To investigate the predictive ability of different machine learning for genome-enabled prediction of reproductive traits in Nellore cattle and compare their performance with parametric approaches (GBLUP and BLASSO); iii) To perform a genome-wide association study (GWAS) using the Random Forest approach for scanning candidate genes for age at first calving in Nellore heifers. In the first study, the simulated genome comprised 50k single nucleotide polymorphisms (SNPs) and 300 QTL (Quantitative Trait Loci), both biallelic and randomly distributed across 29 chromosomes. A total of six traits were simulated considering different values for the narrow and broad-sense heritability. In the purely additive scenario with low heritability (h2 = 0.10), the predictive ability obtained using GBLUP was slightly higher than the other methods (approximately 0,8% to 5,0%) whereas ANN provided the highest accuracies for scenarios with moderate heritability (h2 = 0.30). The accuracies of dominance deviations varied from 0.180 to 0.350 in the GBLUP model considering the dominance genomic relationship matrix (GBLUP-D), from 0.062 to 0.185 in the RF and were null using ANN and SVM methods. Among machine learning methods, only the RF was capable to cover implicitly dominance effects without increasing the number of covariates in the model, resulting in higher accuracies for the total genetic and phenotypic values as the dominance ratio increased. In the second study, data of Nellore cattle from commercial herds born between 1984 and 2015 were used. The studied traits were Age at First Calving (AFC), Scrotal Circumference (SC), Early Pregnancy (EP) and Stayability (STAY). After quality control, the number of genotyped animals and SNP markers available were respectively, 2,342 and 321,419 (AFC), 4,671 and 309,486 (SC), 3,356 and 319,108 (EP) and 2,681 and 319,619 (STAY). The predictive ability from different machine learning models such as Support Vector Regression (SVR), Bayesian Regularized Artificial Neural Network (BRANN) and RF, was assessed. Results were compared with that obtained using GBLUP and BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) parametric models. For the SVR, the influence of different kernel bandwidth parameter values on the model predictive ability was assessed. In the BRANN models, different numbers of neurons in the hidden layer (1 to 4 neurons) were examined to assess the best ANN architecture. Further, two genomic structures were assessed as input information in the BRANN model, the marker-based genomic relationship matrix (G) and the principal components scores matrix (PC). The predictive ability of the studied models was evaluated by a 5-fold cross-validation scheme. The average accuracies were from low to moderate according to the trait and model considered, ranging between 0.555 and 0.625 (AFC), 0.268 and 0.359 (SC), 0.573 and 0.666 (EP) and 0.517 and 0.618 (STAY). The SVR provided slightly better performance than the parametric models for all traits, increasing the prediction accuracy for AFC around 5.1% and 3.7% compared to GBLUP and BLASSO models, respectively, and around 7.2% for SC, 3.4% for EP and 5% for STAY, comparing to both GBLUP and BLASSO. In contrast, the RF, BRANN_G and BRANN_PC models did not present competitive predictive ability compared to the benchmark approaches, presenting lower prediction accuracies and higher MSE for all traits. Our results indicate that the SVR is a suitable method for genomic breeding values prediction for reproductive traits in Nellore Cattle, presenting better predictive ability and computational time efficiency than the studied parametric approaches. Further, the optimal kernel bandwidth parameter in the SVR model was trait-dependent, thus, the correct pre-definition of this parameter in the training phase is advisable. Lastly, a genome-wide association study (GWAS) was performed using the RF approach for scanning candidate genes for AFC in Nellore cattle. The assessed values for the Mtry parameter (i.e. the number of SNPs to search at each node) were 1, √p, 0.01p and 0.1p, in which p represents the total number of SNPs. The RF parametrization which produced the lowest mean squared error in the out-of-bag data (MSE_OOB) was maintained for further analysis. We run five independent analyses with different initialization seeds for the algorithm and the SNPs importance scores were averaged. There were identified 118 SNPs associated with AFC, located over eight autosomes (BTA 3, 5, 10, 11, 18, 21, 25 and 27). In total, 23 non-overlapping genomic regions embedded 172 candidate genes for AFC. Genomic regions previously associated with fertility and growth traits in Nellore cattle were reported in the present study, which reinforces RF effectiveness for pre-screening candidate regions associated with complex traits. The RF-based genome-wide scan and functional analysis highlighted candidate genes with key roles in fertility, including embryo pre-implantation and development, embryonic viability, male germinal cell maturation and pheromone recognition.

Descrição

Palavras-chave

Bovinos de corte, Fertilidade, Genes candidatos, Métodos não-paramétricos, Precocidade, Predição genômica, Beef cattle, Fertility, Candidate genes, Nonparametric methods, Precocity, Genomic prediction

Como citar