Atenção!


O atendimento às questões referentes ao Repositório Institucional será interrompido entre os dias 20 de dezembro de 2025 a 4 de janeiro de 2026.

Pedimos a sua compreensão e aproveitamos para desejar boas festas!

Logo do repositório

Desenvolvimento de funções para formatação de arquivos para análises genéticas no R

Carregando...
Imagem de Miniatura

Orientador

Fonseca, Ricardo da

Coorientador

Pós-graduação

Ciência e Tecnologia Animal - FCAT/FEIS

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

A avaliação genética animal depende da análise de grandes volumes de dados fenotípicos, de pedigree e genômicos. Nos últimos 20 anos, diversos softwares foram desenvolvidos para esse fim, sendo os mais utilizados: ASReml, VCE, DMU, Wombat e BLUPF90. O ASReml manteve-se como o software mais citado nas publicações científicas, mas sua exigência de licenciamento pago restringe o acesso para pesquisadores em ambientes acadêmicos e institucionais com recursos limitados. Por essa razão, este trabalho concentrou-se no desenvolvimento de funções voltadas aos softwares BLUPF90 e Wombat, que são gratuitos, amplamente utilizados e frequentemente atualizados. Existe um problema de falta de padronização na maneira de como os dados devem ser organizados para imputar dentro de cada software, sendo que cada software tem sua própria especificidade, ou seja, os dados devem ser organizados de maneira diferente dependendo do software que será usado nas análises genéticas, afetando a reprodutibilidade e abrindo espaço para erros. Para enfrentar esse desafio, este trabalho apresenta o desenvolvimento do pacote LZFF, que automatiza a preparação e formatação de arquivos para análises genéticas, minimizando erros e promovendo padronização. Os dados percorrem um fluxo estruturado: do formato livre (L) ao padrão (P) e, por fim, ao formato final (F), compatível com os softwares de destino. Foram desenvolvidas quatro funções principais: rrcData, que realiza a leitura, recodificação e verificação dos dados; rrcPed, voltada à estruturação de arquivos de pedigree com recodificação apropriada; formatA, que prepara os dados no formato exigido pelo BLUPF90; e formatB, que ajusta os dados para uso com o Wombat. Para validar o pacote, foram implementados testes automatizados com o uso do pacote testthat, garantindo a robustez do processo de leitura, recodificação e integridade estrutural dos dados processados. O pacote LZFF oferece uma solução eficiente e acessível para a preparação de dados em análises genéticas, reduzindo o tempo de formatação manual e potencializando a reprodutibilidade dos resultados.

Resumo (inglês)

Animal genetic evaluation relies on the analysis of large volumes of phenotypic, pedigree, and genomic data. Over the past 20 years, several software packages have been developed for this purpose, with the most widely used being ASReml, VCE, DMU, Wombat, and BLUPF90. ASReml has remained the most frequently cited software in scientific publications; however, its paid licensing requirement restricts access for researchers in academic and institutional environments with limited resources. For this reason, the present work focused on developing functions tailored for BLUPF90 and Wombat, which are free, widely used, and frequently updated. A major challenge lies in the lack of standardization regarding how data must be organized for each software, as each program has its own specific requirements. Consequently, data must be formatted differently depending on the chosen software for genetic analyses, which undermines reproducibility and increases the risk of errors. To address this issue, this work introduces the development of the LZFF package, which automates the preparation and formatting of files for genetic analyses, minimizing errors and promoting standardization. The data follow a structured workflow: from free format (L) to standardized format (P), and finally to the final format (F), compatible with the target software. Four main functions were developed: rrcData, which performs data reading, recoding, and verification; rrcPed, designed for structuring pedigree files with appropriate recoding; formatA, which prepares the data in the format required by BLUPF90; and formatB, which adjusts the data for use with Wombat. To validate the package, automated tests were implemented using the testthat package, ensuring robustness in the processes of data reading, recoding, and structural integrity of the processed datasets. The LZFF package thus provides an efficient and accessible solution for data preparation in genetic analyses, reducing the time required for manual formatting and enhancing the reproducibility of results.

Descrição

Palavras-chave

Genética animal, Estatística matemática Programas de computador, Animais Melhoramento genético

Idioma

Português

Citação

ANTÔNIO, Miriam Aparecida Carvalho Basilio. Desenvolvimento de funções para formatação de arquivos para análises genéticas no R. 2025. 78 f. Dissertação (Mestrado em Ciência e Tecnologia Animal) - Universidade Estadual Paulista (UNESP), Dracena, 2025.

Itens relacionados

Unidades

Item type:Unidade,
Faculdade de Ciências Agrárias e Tecnológicas
FCAT
Campus: Dracena


Departamentos

Cursos de graduação

Programas de pós-graduação