Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados
Carregando...
Data
Orientador
Sampaio, Daniel Julien Barros da Silva 

Coorientador
Pós-graduação
Curso de graduação
Guaratinguetá - FEG - Engenharia Elétrica
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
O presente trabalho investiga a aplicação de modelos de linguagem pré-treinados para a rotulação automática de textos acadêmicos não anotados, buscando oferecer uma alternativa viável aos métodos supervisionados tradicionais. O estudo foi desenvolvido em um ambiente corporativo que dispunha de uma base com mais de 500 mil textos não rotulados, o que inviabiliza a criação de um modelo próprio de classificação. Para contornar essa limitação, elaboraram-se descrições textuais representativas de diferentes categorias temáticas que foram comparadas com os textos da base por meio do produto escalar entre embeddings gerados por um modelo de linguagem pré-treinado. A eficácia do método foi avaliada com base em uma faixa de valores de limiar, utilizando as métricas de acurácia, precisão e revocação. Os resultados indicaram que o uso de similaridade semântica permite identificar, com boa confiabilidade, a afinidade temática entre textos e descrições, demonstrando o potencial da abordagem para classificação automática em larga escala. Conclui-se que a utilização de modelos de similaridade pré-treinados representa uma solução eficiente, escalável e de baixo custo para a organização de grandes acervos de textos científicos
Resumo (inglês)
This work investigates the application of pre-trained language models for the automatic labeling of unannotated academic texts, aiming to provide a feasible alternative to traditional supervised methods. The study was conducted in a corporate environment that held a database containing over 500,000 unlabeled texts, which made it impractical to train a proprietary classification model. To address this limitation, textual descriptions were created to represent specific thematic categories. These descriptions were compared with the database texts through the dot product between embeddings generated by a pre-trained language model. The effectiveness of the method was evaluated using a range of threshold values and the metrics accuracy, precision, and recall. The results showed that semantic similarity is capable of reliably identifying thematic relationships between texts and their respective definitions, demonstrating the potential of this approach for large-scale automatic classification. It is concluded that the use of pre-trained similarity models provides an efficient, scalable, and low-cost solution for organizing extensive collections of scientific texts
Descrição
Palavras-chave
Processamento de linguagem natural (Computação), Similaridade Semântica, Embeddings, Classificação Automática, Inteligência artificial, Aprendizado do computador
Idioma
Português
Citação
RENOLDI, Guilherme Luis da Silva Fagundes. Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados. Orientador: Daniel Julien Barros da Silva Sampaio. 2025. 40f. Trabalho de Conclusão de Curso (Graduação em Engenharia Elétrica) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.

