Melhoria na predição de defeitos usando modelos ensemble: um estudo com aplicação de técnicas de pré-processamento
| dc.contributor.advisor | Garcia, Rogério Eduardo [UNESP] | |
| dc.contributor.author | Vieira, Bianca Puerta Rocha [UNESP] | |
| dc.contributor.committeeMember | Eler, Marcelo Medeiros | |
| dc.contributor.committeeMember | Pereira, Danilo Roberto [UNESP] | |
| dc.contributor.institution | Universidade Estadual Paulista (Unesp) | pt |
| dc.date.accessioned | 2026-02-06T12:56:53Z | |
| dc.date.issued | 2025-12-11 | |
| dc.description.abstract | A detecção de defeitos em software é uma prática para melhorar a qualidade do software. Porém, a detecção eficiente de defeitos possui desafios como a alta dimensionalidade dos conjuntos de dados e o desbalanceamento dos dados nos repositórios de software. Desse modo, existe a necessidade de lidar com cenários de dados desbalanceados e conjuntos de atributos extensos para melhorar modelos de classificação. O objetivo é utilizar técnicas de pré-processamento para melhorar a construção de modelos de ensemble para detecção de defeitos, utilizando dados extraídos de repositórios reais e atualizados. Foram extraídos dados de três repositórios de software de código Java da companhia Apache, visto que são repositórios atualizados de uma comunidade já bem estruturada e que usa o registro de issues no GitHub. Em seguida, foi utilizando a o algoritmo SZZ para vincular issues às modificações introdutoras de defeitos. Depois, a seleção de atributos e o tratamento de dados desbalanceados. Em conseguinte, utilizando os dados obtidos e tratados, foram desenvolvidos modelos de classificação utilizando técnicas ensemble para a construção de modelos. Os resultados indicam que, dos modelos ensemble, o Random Forest apresentou desempenho mais consistente na detecção de defeitos. O SMOTE performou melhor como técnica de tratamento de dados desbalanceados. O Fisher Score obteve melhor resultado como método de seleção de atributos, levando o tempo de tunagem dos hiperparâmetros em consideração, mas uma avaliação aprofundada da qualidade dos atributos escolhidos ainda é válida para estudos futuros. Por fim, os tempos de execução observados demonstraram viabilidade de aplicação em pipelines reais de integração contínua. | pt |
| dc.description.abstract | Software defect detection is a practice to improve software quality. However, efficient defect detection faces challenges such as the high dimensionality of datasets and data imbalance in software repositories. Thus, there is a need to handle scenarios with imbalanced data and large attribute sets to improve predictive models. The objective is to use preprocessing techniques to enhance the construction of ensemble models for defect detection, leveraging data extracted from real, up-to-date repositories. The data were extracted from three Java repositories from the Apache Foundation, as they are updated and maintained by a well-structured community that uses GitHub issue tracking. Then, the SZZ algorithm was used to link issues to defect introducing modifications. Afterwards, attribute selection and treatment of imbalanced data were performed. Subsequently, using the processed data, classification models were developed using ensemble techniques. The results indicate that, among the ensemble models, Random Forest showed the most consistent performance in defect detection. SMOTE showed better results than the other techniques for handling imbalanced data. The Fisher Score method yielded superior outcomes in feature selection, but a more in-depth evaluation of the quality of the selected attributes would be valuable for future work. Finally, the observed execution times demonstrated the application’s feasibility in real continuous integration pipelines. | en |
| dc.description.sponsorshipId | Não recebi financiamento | |
| dc.identifier.capes | 33004153073P2 | |
| dc.identifier.citation | VIEIRA, Bianca Puerta Rocha. Melhoria na predição de defeitos usando modelos ensemble: um estudo com aplicação de técnicas de pré-processamento. Orientador: Rogério Eduardo Garcia. 2026. 176 f. Dissertação (Mestrado em Ciência da Computação) – Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2025. | pt |
| dc.identifier.lattes | 2426222764875788 | |
| dc.identifier.orcid | 0000-0001-6006-6093 | |
| dc.identifier.uri | https://hdl.handle.net/11449/319345 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Estadual Paulista (Unesp) | |
| dc.rights.accessRights | Acesso aberto | pt |
| dc.subject | Detecção de defeitos de software | pt |
| dc.subject | Qualidade de software | pt |
| dc.subject | Dados desbalanceados | pt |
| dc.subject | Seleção de atributos | pt |
| dc.subject | Software defect detection | en |
| dc.subject | Software quality | en |
| dc.subject | Imbalanced data | en |
| dc.subject | Feature selection | en |
| dc.title | Melhoria na predição de defeitos usando modelos ensemble: um estudo com aplicação de técnicas de pré-processamento | pt |
| dc.title.alternative | Improving defect prediction using ensemble models: a study on the application of preprocessing techniques | en |
| dc.type | Dissertação de mestrado | pt |
| dcterms.impact | Esta pesquisa contribui para a Engenharia de Software ao analisar o impacto de diferentes combinações de técnicas de pré-processamento na construção de modelos ensemble para predição de defeitos. Os resultados podem auxiliar na definição de metodologias aplicáveis a pipelines industriais, reduzindo a incidência de falhas críticas em sistemas de software. | pt |
| dcterms.impact | This research contributes to Software Engineering by analyzing the impact of different preprocessing technique combinations on building ensemble models for defect prediction. The results may support the development of methodologies applicable to industrial pipelines, reducing the incidence of critical failures in software systems. | en |
| dspace.entity.type | Publication | |
| relation.isAuthorOfPublication | af62ae41-44f5-44da-89cd-43296b8fcb37 | |
| relation.isAuthorOfPublication.latestForDiscovery | af62ae41-44f5-44da-89cd-43296b8fcb37 | |
| relation.isOrgUnitOfPublication | bbcf06b3-c5f9-4a27-ac03-b690202a3b4e | |
| relation.isOrgUnitOfPublication.latestForDiscovery | bbcf06b3-c5f9-4a27-ac03-b690202a3b4e | |
| unesp.campus | Universidade Estadual Paulista (UNESP), Faculdade de Ciências e Tecnologia, Presidente Prudente | pt |
| unesp.embargo | Online | pt |
| unesp.examinationboard.type | Banca pública | pt |
| unesp.graduateProgram | Ciência da Computação - FC/FCT/IBILCE/IGCE | pt |
| unesp.knowledgeArea | Computação científica | pt |
| unesp.researchArea | Engenharia de Software | pt |
Arquivos
Pacote original
1 - 1 de 1
Carregando...
- Nome:
- vieira_bpc_me_prud.pdf
- Tamanho:
- 5.24 MB
- Formato:
- Adobe Portable Document Format
Licença do pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.14 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição:

