Logo do repositório

Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados

dc.contributor.advisorSampaio, Daniel Julien Barros da Silva [UNESP]
dc.contributor.authorRenoldi, Guilherme Luis da Silva Fagundes [UNESP]
dc.contributor.committeeMemberSantos, Carlos Augusto Marcondes dos [UNESP]
dc.contributor.committeeMemberGouvêa, Evaldo Chagas [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-12-12T20:37:06Z
dc.date.issued2025-12-12
dc.description.abstractO presente trabalho investiga a aplicação de modelos de linguagem pré-treinados para a rotulação automática de textos acadêmicos não anotados, buscando oferecer uma alternativa viável aos métodos supervisionados tradicionais. O estudo foi desenvolvido em um ambiente corporativo que dispunha de uma base com mais de 500 mil textos não rotulados, o que inviabiliza a criação de um modelo próprio de classificação. Para contornar essa limitação, elaboraram-se descrições textuais representativas de diferentes categorias temáticas que foram comparadas com os textos da base por meio do produto escalar entre embeddings gerados por um modelo de linguagem pré-treinado. A eficácia do método foi avaliada com base em uma faixa de valores de limiar, utilizando as métricas de acurácia, precisão e revocação. Os resultados indicaram que o uso de similaridade semântica permite identificar, com boa confiabilidade, a afinidade temática entre textos e descrições, demonstrando o potencial da abordagem para classificação automática em larga escala. Conclui-se que a utilização de modelos de similaridade pré-treinados representa uma solução eficiente, escalável e de baixo custo para a organização de grandes acervos de textos científicospt
dc.description.abstractThis work investigates the application of pre-trained language models for the automatic labeling of unannotated academic texts, aiming to provide a feasible alternative to traditional supervised methods. The study was conducted in a corporate environment that held a database containing over 500,000 unlabeled texts, which made it impractical to train a proprietary classification model. To address this limitation, textual descriptions were created to represent specific thematic categories. These descriptions were compared with the database texts through the dot product between embeddings generated by a pre-trained language model. The effectiveness of the method was evaluated using a range of threshold values and the metrics accuracy, precision, and recall. The results showed that semantic similarity is capable of reliably identifying thematic relationships between texts and their respective definitions, demonstrating the potential of this approach for large-scale automatic classification. It is concluded that the use of pre-trained similarity models provides an efficient, scalable, and low-cost solution for organizing extensive collections of scientific textsen
dc.description.sponsorshipIdNão recebi financiamento
dc.identifier.citationRENOLDI, Guilherme Luis da Silva Fagundes. Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados. Orientador: Daniel Julien Barros da Silva Sampaio. 2025. 40f. Trabalho de Conclusão de Curso (Graduação em Engenharia Elétrica) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.
dc.identifier.urihttps://hdl.handle.net/11449/317045
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectProcessamento de linguagem natural (Computação)pt
dc.subjectSimilaridade Semânticapt
dc.subjectEmbeddingsen
dc.subjectClassificação Automáticapt
dc.subjectInteligência artificialpt
dc.subjectAprendizado do computadorpt
dc.titleDesenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcadospt
dc.title.alternativeDevelopment of a solution using machine learning and natural language processing for the classification of unmarked texten
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
relation.isOrgUnitOfPublicationa4071986-4355-47c3-a5a3-bd4d1a966e4f
relation.isOrgUnitOfPublication.latestForDiscoverya4071986-4355-47c3-a5a3-bd4d1a966e4f
relation.isUndergradCourseOfPublication5aa2ba9f-6bf8-4615-8e79-1f3cc7933eb9
relation.isUndergradCourseOfPublication.latestForDiscovery5aa2ba9f-6bf8-4615-8e79-1f3cc7933eb9
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Engenharia e Ciências, Guaratinguetápt
unesp.examinationboard.typeBanca públicapt
unesp.undergraduateGuaratinguetá - FEG - Engenharia Elétricapt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
renoldi_glsf_tcc_guara.pdf
Tamanho:
1.43 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
renoldi_glsf_autorizacao_guara.pdf
Tamanho:
98.8 KB
Formato:
Adobe Portable Document Format
Descrição: