Atenção!


O atendimento às questões referentes ao Repositório Institucional será interrompido entre os dias 20 de dezembro de 2025 a 4 de janeiro de 2026.

Pedimos a sua compreensão e aproveitamos para desejar boas festas!

Logo do repositório

Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados

Carregando...
Imagem de Miniatura

Orientador

Sampaio, Daniel Julien Barros da Silva

Coorientador

Pós-graduação

Curso de graduação

Guaratinguetá - FEG - Engenharia Elétrica

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

O presente trabalho investiga a aplicação de modelos de linguagem pré-treinados para a rotulação automática de textos acadêmicos não anotados, buscando oferecer uma alternativa viável aos métodos supervisionados tradicionais. O estudo foi desenvolvido em um ambiente corporativo que dispunha de uma base com mais de 500 mil textos não rotulados, o que inviabiliza a criação de um modelo próprio de classificação. Para contornar essa limitação, elaboraram-se descrições textuais representativas de diferentes categorias temáticas que foram comparadas com os textos da base por meio do produto escalar entre embeddings gerados por um modelo de linguagem pré-treinado. A eficácia do método foi avaliada com base em uma faixa de valores de limiar, utilizando as métricas de acurácia, precisão e revocação. Os resultados indicaram que o uso de similaridade semântica permite identificar, com boa confiabilidade, a afinidade temática entre textos e descrições, demonstrando o potencial da abordagem para classificação automática em larga escala. Conclui-se que a utilização de modelos de similaridade pré-treinados representa uma solução eficiente, escalável e de baixo custo para a organização de grandes acervos de textos científicos

Resumo (inglês)

This work investigates the application of pre-trained language models for the automatic labeling of unannotated academic texts, aiming to provide a feasible alternative to traditional supervised methods. The study was conducted in a corporate environment that held a database containing over 500,000 unlabeled texts, which made it impractical to train a proprietary classification model. To address this limitation, textual descriptions were created to represent specific thematic categories. These descriptions were compared with the database texts through the dot product between embeddings generated by a pre-trained language model. The effectiveness of the method was evaluated using a range of threshold values and the metrics accuracy, precision, and recall. The results showed that semantic similarity is capable of reliably identifying thematic relationships between texts and their respective definitions, demonstrating the potential of this approach for large-scale automatic classification. It is concluded that the use of pre-trained similarity models provides an efficient, scalable, and low-cost solution for organizing extensive collections of scientific texts

Descrição

Palavras-chave

Processamento de linguagem natural (Computação), Similaridade Semântica, Embeddings, Classificação Automática, Inteligência artificial, Aprendizado do computador

Idioma

Português

Citação

RENOLDI, Guilherme Luis da Silva Fagundes. Desenvolvimento de uma solução usando aprendizado de máquinas e processamento de linguagem natural para classificação de textos não marcados. Orientador: Daniel Julien Barros da Silva Sampaio. 2025. 40f. Trabalho de Conclusão de Curso (Graduação em Engenharia Elétrica) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.

Itens relacionados

Financiadores

Unidades

Item type:Unidade,
Faculdade de Engenharia e Ciências
FEG
Campus: Guaratinguetá


Departamentos

Cursos de graduação

Item type:Curso de graduação,
Engenharia Elétrica
GEE


Programas de pós-graduação