Métodos de aprendizado de máquina fracamente supervisionados baseados em ranqueamento

Carregando...
Imagem de Miniatura

Data

2021-08-27

Autores

Presotto, João Gabriel Camacho

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Apesar dos impressionantes avanços recentes nas técnicas de aprendizado de máquina, principalmente na compreensão de dados multimídia, desafios significativos ainda persistem. Um dos principais desafios em cenários reais apresenta-se na escassa disponibilidade de dados rotulados. Nesse contexto, desenvolver métodos capazes de explorar as informações presentes em dados não rotulados de modo a mitigar os problemas associados à insuficiência de dados rotulados é um desafio de suma importância. Métodos de aprendizado fracamente supervisionado conseguem lidar com tais restrições ao trabalhar com rótulos estimados ou aproximados como maneira de potencializar informações úteis de treinamento. Nessa linha de pesquisa, apresentaremos dois métodos de aprendizado fracamente supervisionado capazes de analisar as relações entre os dados rotulados e não rotulados, de modo a expandir pequenos conjuntos de treinamento rotulados. Ambos recorrem a um modelo de ranqueamento e utilizam diferentes estratégias para analisar as informações de similaridade codificadas nos dados não rotulados e identificar fortes relações de similaridade com os dados rotulados. Tais relações são consideradas durante a etapa de expansão do conjunto de treinamento. Os métodos foram avaliados em conjunto com diferentes classificadores supervisionados e semi-supervisionados, incluindo uma recente rede convolucional baseada em grafos. Foram considerados cinco diferentes coleções de imagens públicas e os vetores de características de cada imagem foram obtidos através de diferentes descritores visuais. Ganhos positivos de acurácia foram obtidos por ambos os métodos nos mais diferentes cenários quando comparados aos classificadores treinados sem o auxílio de nossos métodos e a técnicas de expansão similares, evidenciando a robustez das abordagens propostas.
Despite the impressive recent advances in machine learning techniques, especially in multimedia data understanding, significant challenges remain. One of the main challenges in real-world scenarios is the limited availability of labeled data. In this context, developing methods capable of exploiting the information encoded in the unlabeled data to mitigate the problems associated with insufficient labeled data, and to overcome this issue is something of paramount importance. Weakly supervised learning methods are capable to handle such restrictions by working with estimated or approximate labels as a way to maximize useful training information. In this line of research, we will present two weakly supervised methods that can analyze the relationships between labeled and unlabeled data to expand small labeled training sets. Both use a ranking model and different strategies to examine similarity information encoded in the unlabeled data to identify strong similarity relationships with the labeled data. Such relations will be considered during the training set expansion step. The methods were evaluated in conjunction with different supervised and semi-supervised classifiers, including a recent graph convolutional network. Five different public image datasets were considered with different visual descriptors. Positive accuracy gains were achieved by both methods in the different scenarios when compared to classifiers trained without the aid of our methods and compared to similar expansion techniques, evidencing the strength of both.

Descrição

Palavras-chave

Aprendizado fracamente supervisionado, Aprendizado de máquina, Aprendizado semi-supervisionado, Modelo de ranqueamento, Métricas de correlação de listas ranqueadas, Recuperação de imagens baseada em conteúdo, Weakly supervised learning, Rank correlation measures, Content-based image retrieval, Machine learning, Semi-supervised learning, Ranking

Como citar