Causal learning techniques using multi-omics data for carcass and meat quality traits in Nelore cattle
Carregando...
Data
2019-07-18
Autores
Orientador
Albuquerque, Lucia Galvão de
Cavalheiro, Roberto
Coorientador
Pós-graduação
Genética e Melhoramento Animal - FCAV
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Tese de doutorado
Direito de acesso
Acesso aberto
Resumo
Resumo (português)
Registros de características quantitativas e informações genotípicas cole- tadas para cada animal são utilizados para identificar regiões do genoma associadas à variação fenotípica. No entanto, essas investigações são, geralmente, realizadas com base em testes estatísticos de correlação ou associação, que não implicam em causalidade. A fim de explorar amplamente essas informações, métodos poderosos de inferência causal foram desenvolvidos para estimar os efeitos causais entre as variáveis estudadas. Apesar do progresso significativo neste campo, inferir os efeitos causais entre variáveis aleatórias contínuas ainda é um desafio e poucos estudos têm explorado as relações causais em genética quantitativa e no melhoramento animal. Neste contexto, dois estudos foram realizados com os seguintes objetivos: 1) Buscar as relações causais entre as características de carcaça e qualidade de carne usando um modelo de equação estrutural (MEE), sob modelo linear misto em bovinos da raça Nelore, e 2) Reconstruir redes de genes-fenótipos e realizar análise de rede causal por meio da integração de dados fenotípicos, genotípicos e transcriptômicos em bovinos da raça Nelore. Para o primeiro estudo, um total de 4.479 animais com informação fenotípica para o peso da carcaça quente (PCQ), área de olho lombo (AOL), espessura de gordura subcutânea (EGS), força de cisalhamento (FC) e marmoreio (MAR) foram usados. Os animais foram genotipados usando os painéis BovineHD Bead- Chip e GeneSeek Genomic Profiler Indicus HD - GGP75Ki. Para inferência causal usando MEE, uma metodologia de múltiplos passos foi utilizada: a) um modelo multicaracteristica padrão, considerando as características estudadas, foi ajustado e as (co)variâncias residuais a posteriori foram estimadas, b) o algoritmo "Inductive Causa- tion" (IC) foi utilizado para inferir as estruturas causais entre as caracteríticas usando as (co)variância residuais a posterior, e c) a partir da estrutura causal recuperada pelo algoritmo IC, o MEE foi ajustado. Aplicando intervalo de maior densidade a posteriori (HPD) de 95 %, 90 % e 85 %, as mesmas estruturas causais entre as característi- cas foram detectados pelo algoritmo IC, com links não direcionados entre EGS com PCQ e MAR. Ligação extra entre FC e PCQ e a direção entre EGS e PCQ foram identificados usando intervalo de HPD menor (80 %), enquanto que o link entre EGS e MAR permaneceram estatisticamente sem direção. Dois MEE diferentes foram ajustados com base na rede causal recuperada pelo algoritmo IC, com a seta EGS → MAR ou com a seta EGS ← MAR. O MEE que melhor se ajustou compreende as seguintes ligações entre características: FC → AOL, FC → PCQ, PCQ → AOL, EGS → PCQ e EGS → MAR com coeficientes estruturais a posteriori igual a -0,29, 0,43, 0,10, 1,92 e 0,03, respectivamente. O MEE final revelou relações causais entre as características, e os efeitos causais sugerem que intervenções em FC e no EGS afe- tariam diretamente o PCQ e a MAR. Para o segundo estudo, um total de 4.599 animais com informações fenotípicas (AOL, EGS e FC) e genotípicas (como descrito anterior- mente) foi utilizados. O sequenciamento do RNA (RNA-Seq) para 80 amostras de tecido muscular de animais da raça Nelore foi realizado pelo sistema Illumina HiSeq 2500 produzindo leituras pared-end de 2x100 pares de bases usando amostra de tecido muscular. Redes de gene-fenótipo e análise de rede causal foram realizadas usando uma abordagem de três passos: a) análises de varredura do genôma para identificar a associação entre dados genotípicos e fenotípicos (pQTL - mapeamento de locos de características quantitativas fenotípicas) e entre dados genotípicos e de expressão gênica (eQTL - mapeamento de locos de características quantitativas de expressão). Os efeitos dos marcadores estimados em cada mapeamento de pQTL para os fenótipos estudados (AOL, EGS e FC) foram usados para realizar uma análise multicaracteristica. b) regiões significativas para os dois mapeamentos de QTL (multicaracteristica e eQTL) foram co-localizadas, e c) a reconstrução da rede usando um algoritmo de aprendizado estrutural causal considerando AOL, EGS, FC, eQTL e características de expressão gênica foi realizada. A partir da análise multi-característica, 14 regiões do genoma foram associadas significativamente com AOL, EGS e FC e 19 cis-eQTL estavam sobrepondo cinco das regiões do genoma. Com base na posição cis-eQTL (a mais significativa em cada região do genoma), trinta e dois genes próximos foram identificados. Integrando dados fenotípicos, genotípicos e de expressão gênica a rede inferida indicou que o rs137704711, localizado no cromossomo 20, afe- tou os três fenótipos (AOL, EGS e FC), e o rs133894950, localizado no cromossomo 16, afetou o EGS por meio da expressão de vários genes localizados em diferentes cromossomos. As inferências causais realizadas utilizando diferentes metodologias foram capazes de identificar relações causais entre as variáveis em estudo.
Resumo (inglês)
Quantitative traits and genotypes information have been collected for each animal and used to identify genome regions related to phenotypes variation. However, these investigations are, usually, performed based on correlation or association statistical tests, which do not imply in causation. In order to fully explore these information, powerful causal inference methods have been developed to estimate causal effects among the variables under study. Despite significant progress in this field infer causal effect among random variables remains a challenge and some few studies have explored causal relationships in quantitative genetics and animal breeding. In this context, two studies were performed with the following objectives: 1) Search for the causal relationship among carcass yield and meat quality traits using a structural equation model (SEM), under linear mixed model context in Nelore cattle, and 2) Reconstruct gene-phenotype networks and perform causal network analysis through the integrating of phenotypic, genotypic, and transcriptomic data in Nelore cattle. For the first study, a total of 4,479 animals with phenotypic information for hot carcass weight (HCW), longissimus muscle area (LMA), backfat thickness (BF), Warner-Bratzler shear force (WBSF), and marbling score (MB) traits were used. Animals were genotyped using BovineHD BeadChip and GeneSeek Genomic Profiler Indicus HD - GGP75Ki. For causal inference using SEM a multistep procedure methodology was used as follow: a) a standard multi-trait model for studied traits was fitted to access the posterior residual (co)variances, b) the Inductive Causation (IC) algorithm was used to infer causal structures between traits using the posterior residual (co)variances, and c) from the selected causal structure retrieved by the IC algorithm the SEM was fitted. Applying 95 %, 90 % and 85 % highest posterior density (HPD) the same graph was detected by the IC algorithm with undirected links between BF with HCW and MB. Extra link between WBSF and HCW and the direction between BF and HWC were identified using narrow HPD interval (80 %), whereas the link between BF and MB remained undirected. Two different SEM were fitted based on the causal network retrieved by the IC algorithm with either arrow BF → MB or BF ← MB. The most feasible SEM comprise the following links between traits: WBSF → LMA, WBSF → HCW, HCW → LMA, BF → HCW, and BF → MB, with structural coefficients posterior means equal -0.29, 0.43, 0.10, 1.92, and 0.03, respectively. The final SEM revealed some interesting relationships among the traits, and the causal effects suggest that interventions on WBSF and BF would direct affect HCW and LMA. For the second study, a total of 4,599 animals with phenotypic (LMA, BF, and WBSF) and genotypic (as previously described) information were used. RNA sequencing (RNA-Seq) for 80 Nelore cattle muscle tissue samples was carried out by Illumina HiSeq 2500 System to produce 2x100 base pairs paired-end reads using muscle tissue sample. Gene-phenotype networks and causal network analysis were performed using a three-step approach as follow: a) genome scan analyses to identify the association between genotypic and phenotypic data (pQTL – phenotype quantitative trait loci mapping), and between genotypic and gene expression data (eQTL – expression quantitative trait loci mapping). The markers effects estimated in every single pQTL mapping for the phenotypes studied (LMA, BF, and WBSF) were used to perform a multi-trait analysis. b) significant regions from both QTL mapping (multi-trait and eQTL) were co-localized, and c) network reconstruction using causal structural learning algorithm incorporating LMA, BF, WBSF eQTL and gene expression traits was performed. From the multi-trait analysis, 14 genome regions were significant across LMA, BF, and WBSF and 19 cis-eQTL were overlapping five of the genome regions. Based on the cis-eQTL position (the most significant in each genome region), thirty-two nearby genes were identified. Integrating phenotypes, genotypes and gene expression data the inferred network indicated that the rs137704711, located in chromosome 20, affected the three phenotypes (LMA, BF, and WBSF), and the rs133894950, located in chromosome 16, affected BF through the expression of several genes located in different chromosomes. The causal inferences performed using different methodologies were able to identify important causal relationships among the variables under study.
Descrição
Idioma
Inglês