Logo do repositório

Melhoria na predição de defeitos usando modelos ensemble: um estudo com aplicação de técnicas de pré-processamento

dc.contributor.advisorGarcia, Rogério Eduardo [UNESP]
dc.contributor.authorVieira, Bianca Puerta Rocha [UNESP]
dc.contributor.committeeMemberEler, Marcelo Medeiros
dc.contributor.committeeMemberPereira, Danilo Roberto [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)pt
dc.date.accessioned2026-02-06T12:56:53Z
dc.date.issued2025-12-11
dc.description.abstractA detecção de defeitos em software é uma prática para melhorar a qualidade do software. Porém, a detecção eficiente de defeitos possui desafios como a alta dimensionalidade dos conjuntos de dados e o desbalanceamento dos dados nos repositórios de software. Desse modo, existe a necessidade de lidar com cenários de dados desbalanceados e conjuntos de atributos extensos para melhorar modelos de classificação. O objetivo é utilizar técnicas de pré-processamento para melhorar a construção de modelos de ensemble para detecção de defeitos, utilizando dados extraídos de repositórios reais e atualizados. Foram extraídos dados de três repositórios de software de código Java da companhia Apache, visto que são repositórios atualizados de uma comunidade já bem estruturada e que usa o registro de issues no GitHub. Em seguida, foi utilizando a o algoritmo SZZ para vincular issues às modificações introdutoras de defeitos. Depois, a seleção de atributos e o tratamento de dados desbalanceados. Em conseguinte, utilizando os dados obtidos e tratados, foram desenvolvidos modelos de classificação utilizando técnicas ensemble para a construção de modelos. Os resultados indicam que, dos modelos ensemble, o Random Forest apresentou desempenho mais consistente na detecção de defeitos. O SMOTE performou melhor como técnica de tratamento de dados desbalanceados. O Fisher Score obteve melhor resultado como método de seleção de atributos, levando o tempo de tunagem dos hiperparâmetros em consideração, mas uma avaliação aprofundada da qualidade dos atributos escolhidos ainda é válida para estudos futuros. Por fim, os tempos de execução observados demonstraram viabilidade de aplicação em pipelines reais de integração contínua.pt
dc.description.abstractSoftware defect detection is a practice to improve software quality. However, efficient defect detection faces challenges such as the high dimensionality of datasets and data imbalance in software repositories. Thus, there is a need to handle scenarios with imbalanced data and large attribute sets to improve predictive models. The objective is to use preprocessing techniques to enhance the construction of ensemble models for defect detection, leveraging data extracted from real, up-to-date repositories. The data were extracted from three Java repositories from the Apache Foundation, as they are updated and maintained by a well-structured community that uses GitHub issue tracking. Then, the SZZ algorithm was used to link issues to defect introducing modifications. Afterwards, attribute selection and treatment of imbalanced data were performed. Subsequently, using the processed data, classification models were developed using ensemble techniques. The results indicate that, among the ensemble models, Random Forest showed the most consistent performance in defect detection. SMOTE showed better results than the other techniques for handling imbalanced data. The Fisher Score method yielded superior outcomes in feature selection, but a more in-depth evaluation of the quality of the selected attributes would be valuable for future work. Finally, the observed execution times demonstrated the application’s feasibility in real continuous integration pipelines.en
dc.description.sponsorshipIdNão recebi financiamento
dc.identifier.capes33004153073P2
dc.identifier.citationVIEIRA, Bianca Puerta Rocha. Melhoria na predição de defeitos usando modelos ensemble: um estudo com aplicação de técnicas de pré-processamento. Orientador: Rogério Eduardo Garcia. 2026. 176 f. Dissertação (Mestrado em Ciência da Computação) – Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2025.pt
dc.identifier.lattes2426222764875788
dc.identifier.orcid0000-0001-6006-6093
dc.identifier.urihttps://hdl.handle.net/11449/319345
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectDetecção de defeitos de softwarept
dc.subjectQualidade de softwarept
dc.subjectDados desbalanceadospt
dc.subjectSeleção de atributospt
dc.subjectSoftware defect detectionen
dc.subjectSoftware qualityen
dc.subjectImbalanced dataen
dc.subjectFeature selectionen
dc.titleMelhoria na predição de defeitos usando modelos ensemble: um estudo com aplicação de técnicas de pré-processamentopt
dc.title.alternativeImproving defect prediction using ensemble models: a study on the application of preprocessing techniquesen
dc.typeDissertação de mestradopt
dcterms.impactEsta pesquisa contribui para a Engenharia de Software ao analisar o impacto de diferentes combinações de técnicas de pré-processamento na construção de modelos ensemble para predição de defeitos. Os resultados podem auxiliar na definição de metodologias aplicáveis a pipelines industriais, reduzindo a incidência de falhas críticas em sistemas de software.pt
dcterms.impactThis research contributes to Software Engineering by analyzing the impact of different preprocessing technique combinations on building ensemble models for defect prediction. The results may support the development of methodologies applicable to industrial pipelines, reducing the incidence of critical failures in software systems.en
dspace.entity.typePublication
relation.isAuthorOfPublicationaf62ae41-44f5-44da-89cd-43296b8fcb37
relation.isAuthorOfPublication.latestForDiscoveryaf62ae41-44f5-44da-89cd-43296b8fcb37
relation.isOrgUnitOfPublicationbbcf06b3-c5f9-4a27-ac03-b690202a3b4e
relation.isOrgUnitOfPublication.latestForDiscoverybbcf06b3-c5f9-4a27-ac03-b690202a3b4e
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências e Tecnologia, Presidente Prudentept
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCEpt
unesp.knowledgeAreaComputação científicapt
unesp.researchAreaEngenharia de Softwarept

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
vieira_bpc_me_prud.pdf
Tamanho:
5.24 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição: