Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados

Renoldi, Guilherme Luis da Silva Fagundes [UNESP]

Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados

dc.contributor.advisor	Sampaio, Daniel Julien Barros da Silva [UNESP]
dc.contributor.author	Renoldi, Guilherme Luis da Silva Fagundes [UNESP]
dc.contributor.committeeMember	Santos, Carlos Augusto Marcondes dos [UNESP]
dc.contributor.committeeMember	Gouvêa, Evaldo Chagas [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2025-12-12T20:37:06Z
dc.date.issued	2025-12-12
dc.description.abstract	O presente trabalho investiga a aplicação de modelos de linguagem pré-treinados para a rotulação automática de textos acadêmicos não anotados, buscando oferecer uma alternativa viável aos métodos supervisionados tradicionais. O estudo foi desenvolvido em um ambiente corporativo que dispunha de uma base com mais de 500 mil textos não rotulados, o que inviabiliza a criação de um modelo próprio de classificação. Para contornar essa limitação, elaboraram-se descrições textuais representativas de diferentes categorias temáticas que foram comparadas com os textos da base por meio do produto escalar entre embeddings gerados por um modelo de linguagem pré-treinado. A eficácia do método foi avaliada com base em uma faixa de valores de limiar, utilizando as métricas de acurácia, precisão e revocação. Os resultados indicaram que o uso de similaridade semântica permite identificar, com boa confiabilidade, a afinidade temática entre textos e descrições, demonstrando o potencial da abordagem para classificação automática em larga escala. Conclui-se que a utilização de modelos de similaridade pré-treinados representa uma solução eficiente, escalável e de baixo custo para a organização de grandes acervos de textos científicos	pt
dc.description.abstract	This work investigates the application of pre-trained language models for the automatic labeling of unannotated academic texts, aiming to provide a feasible alternative to traditional supervised methods. The study was conducted in a corporate environment that held a database containing over 500,000 unlabeled texts, which made it impractical to train a proprietary classification model. To address this limitation, textual descriptions were created to represent specific thematic categories. These descriptions were compared with the database texts through the dot product between embeddings generated by a pre-trained language model. The effectiveness of the method was evaluated using a range of threshold values and the metrics accuracy, precision, and recall. The results showed that semantic similarity is capable of reliably identifying thematic relationships between texts and their respective definitions, demonstrating the potential of this approach for large-scale automatic classification. It is concluded that the use of pre-trained similarity models provides an efficient, scalable, and low-cost solution for organizing extensive collections of scientific texts	en
dc.description.sponsorshipId	Não recebi financiamento
dc.identifier.citation	RENOLDI, Guilherme Luis da Silva Fagundes. Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados. Orientador: Daniel Julien Barros da Silva Sampaio. 2025. 40f. Trabalho de Conclusão de Curso (Graduação em Engenharia Elétrica) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.
dc.identifier.uri	https://hdl.handle.net/11449/317045
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Processamento de linguagem natural (Computação)	pt
dc.subject	Similaridade Semântica	pt
dc.subject	Embeddings	en
dc.subject	Classificação Automática	pt
dc.subject	Inteligência artificial	pt
dc.subject	Aprendizado do computador	pt
dc.title	Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados	pt
dc.title.alternative	Development of a solution using machine learning and natural language processing for the classification of unmarked text	en
dc.type	Trabalho de conclusão de curso	pt
dspace.entity.type	Publication
relation.isOrgUnitOfPublication	a4071986-4355-47c3-a5a3-bd4d1a966e4f
relation.isOrgUnitOfPublication.latestForDiscovery	a4071986-4355-47c3-a5a3-bd4d1a966e4f
relation.isUndergradCourseOfPublication	5aa2ba9f-6bf8-4615-8e79-1f3cc7933eb9
relation.isUndergradCourseOfPublication.latestForDiscovery	5aa2ba9f-6bf8-4615-8e79-1f3cc7933eb9
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Engenharia e Ciências, Guaratinguetá	pt
unesp.examinationboard.type	Banca pública	pt
unesp.undergraduate	Guaratinguetá - FEG - Engenharia Elétrica	pt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: renoldi_glsf_tcc_guara.pdf
Tamanho:: 1.43 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 2 de 2

Nome:: license.txt
Tamanho:: 2.14 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Nome:: renoldi_glsf_autorizacao_guara.pdf
Tamanho:: 98.8 KB
Formato:: Adobe Portable Document Format
Descrição:

Coleções

Guaratinguetá - FEG - Faculdade de Engenharia e Ciências