Ranqueamento de informações por Floresta de Caminhos Ótimos
Carregando...
Arquivos
Data
2020-02-20
Autores
Orientador
Papa, João Paulo
Coorientador
Pós-graduação
Ciência da Computação - IBILCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto
Resumo
Resumo (português)
A tarefa de aprender a ranquear tem sido amplamente estudada pela comunidade científica de aprendizado de máquina principalmente devido a sua utilização na área de recuperação de informações, mineração de dados e processamento de linguagem natural. O ranqueamento de informações pode ser dividido em criação de ranqueamento e agregação desse. O presente trabalho aborda o ranqueamento de informações sob à ótica da criação desse, na qual tem-se inicialmente uma necessidade, comumente denominada query, e deseja-se gerar uma lista ranqueada dos itens oferecidos como resposta para dada query, estando os itens relevantes a essa localizados nas primeiras posições da lista. Até o presente momento, classificadores baseados em Floresta de Caminhos Ótimos não foram aplicados à tarefa de aprender a ranquear e este projeto de mestrado tem como principal contribuição a aplicação desses, na versão supervisionada com grafo completo e k-nn, ao ranqueamento de informações. Para aplicá-los a esse contexto a informação de custo das amostras do conjunto de treinamento foi utilizada para ranquear as r amostras mais relevantes para dada entrada na fase de teste dos classificadores. Experimentos foram realizados tendo como cenário a recuperação e ranqueamento de imagens utilizando características referentes ao conteúdo visual dessas. Os resultados experimentais obtidos com as abordagens baseadas em OPF foram comparados aos da técnica Ranking SVM e ao obtido ao ranquear as imagens utilizando a distância entre os vetores de características que representam a imagem de query e cada uma das candidatas a serem relevantes para tal. O classificador OPF com grafo completo forneceu resultados similares aos obtidos com a técnica Ranking SVM e ao lado do OPF k-nn apresentou os menores tempos de execução durante a criação do ranqueamento. Assim, ambas as abordagens propostas demonstraram ser uma solução promissora para problemas em que o ranqueamento de informações se faz necessário.
Resumo (inglês)
The learning to rank task has been widely studied by the machine learning scientific community mainly due to its use in information retrieval, data mining and natural language processing. Information ranking can be divided into ranking creation and aggregation. This work addresses the information ranking from the perspective of its creation, where there is initially a need, commonly called query, and we aim to generate a ranked list of items offered in response to given query, with the relevant items to query located in the first positions from the list. To date, classifiers based on Optimum-Path Forest have not been applied to the learning to rank task and this master’s project has as its main contribution to apply these, in the supervised version with full graph and k-nn, to the information ranking. To apply them to this context, the cost information from training set samples was used to rank the r most relevant samples for input sample from the testing phase of the classifiers. Experiments were performed considering the image retrieval and ranking scenario using visual content features. The experimental results obtained with the OPF-based approaches were compared to those of the Ranking SVM technique and to those obtained by ranking the images using the distance between the feature vector representing the query image and those representing the candidates, that is, that may be relevant to it. The complete graph OPF classifier provided similar results to those obtained with the Ranking SVM technique and beside the k-nn OPF presented the shortest execution time during the ranking creation. Thus, both proposed approaches have proved to be a promising solution to problems where information ranking is required.
Descrição
Idioma
Português