Desenvolvimento de funções para formatação de arquivos para análises genéticas no R
Carregando...
Data
Orientador
Fonseca, Ricardo da 

Coorientador
Pós-graduação
Ciência e Tecnologia Animal - FCAT/FEIS
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A avaliação genética animal depende da análise de grandes volumes de dados fenotípicos, de pedigree e genômicos. Nos últimos 20 anos, diversos softwares foram desenvolvidos para esse fim, sendo os mais utilizados: ASReml, VCE, DMU, Wombat e BLUPF90. O ASReml manteve-se como o software mais citado nas publicações científicas, mas sua exigência de licenciamento pago restringe o acesso para pesquisadores em ambientes acadêmicos e institucionais com recursos limitados. Por essa razão, este trabalho concentrou-se no desenvolvimento de funções voltadas aos softwares BLUPF90 e Wombat, que são gratuitos, amplamente utilizados e frequentemente atualizados. Existe um problema de falta de padronização na maneira de como os dados devem ser organizados para imputar dentro de cada software, sendo que cada software tem sua própria especificidade, ou seja, os dados devem ser organizados de maneira diferente dependendo do software que será usado nas análises genéticas, afetando a reprodutibilidade e abrindo espaço para erros. Para enfrentar esse desafio, este trabalho apresenta o desenvolvimento do pacote LZFF, que automatiza a preparação e formatação de arquivos para análises genéticas, minimizando erros e promovendo padronização. Os dados percorrem um fluxo estruturado: do formato livre (L) ao padrão (P) e, por fim, ao formato final (F), compatível com os softwares de destino. Foram desenvolvidas quatro funções principais: rrcData, que realiza a leitura, recodificação e verificação dos dados; rrcPed, voltada à estruturação de arquivos de pedigree com recodificação apropriada; formatA, que prepara os dados no formato exigido pelo BLUPF90; e formatB, que ajusta os dados para uso com o Wombat. Para validar o pacote, foram implementados testes automatizados com o uso do pacote testthat, garantindo a robustez do processo de leitura, recodificação e integridade estrutural dos dados processados. O pacote LZFF oferece uma solução eficiente e acessível para a preparação de dados em análises genéticas, reduzindo o tempo de formatação manual e potencializando a reprodutibilidade dos resultados.
Resumo (inglês)
Animal genetic evaluation relies on the analysis of large volumes of phenotypic, pedigree, and genomic data. Over the past 20 years, several software packages have been developed for this purpose, with the most widely used being ASReml, VCE, DMU, Wombat, and BLUPF90. ASReml has remained the most frequently cited software in scientific publications; however, its paid licensing requirement restricts access for researchers in academic and institutional environments with limited resources. For this reason, the present work focused on developing functions tailored for BLUPF90 and Wombat, which are free, widely used, and frequently updated. A major challenge lies in the lack of standardization regarding how data must be organized for each software, as each program has its own specific requirements. Consequently, data must be formatted differently depending on the chosen software for genetic analyses, which undermines reproducibility and increases the risk of errors. To address this issue, this work introduces the development of the LZFF package, which automates the preparation and formatting of files for genetic analyses, minimizing errors and promoting standardization. The data follow a structured workflow: from free format (L) to standardized format (P), and finally to the final format (F), compatible with the target software. Four main functions were developed: rrcData, which performs data reading, recoding, and verification; rrcPed, designed for structuring pedigree files with appropriate recoding; formatA, which prepares the data in the format required by BLUPF90; and formatB, which adjusts the data for use with Wombat. To validate the package, automated tests were implemented using the testthat package, ensuring robustness in the processes of data reading, recoding, and structural integrity of the processed datasets. The LZFF package thus provides an efficient and accessible solution for data preparation in genetic analyses, reducing the time required for manual formatting and enhancing the reproducibility of results.
Descrição
Palavras-chave
Genética animal, Estatística matemática Programas de computador, Animais Melhoramento genético
Idioma
Português
Citação
ANTÔNIO, Miriam Aparecida Carvalho Basilio. Desenvolvimento de funções para formatação de arquivos para análises genéticas no R. 2025. 78 f. Dissertação (Mestrado em Ciência e Tecnologia Animal) - Universidade Estadual Paulista (UNESP), Dracena, 2025.

