Publicação: A semantic rank-based graph embedding
Carregando...
Data
2020-09-29
Autores
Orientador
Pedronette, Daniel Carlos Guimarães 

Guilherme, Ivan Rizzo 

Coorientador
Pós-graduação
Ciência da Computação - IGCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Grafos são ferramentas poderosas, capazes de capturar relações complexas existentes entre objetos. Em decorrência de sua robustez e flexibilidade, diversas aplicações podem beneficiar-se de modelagens baseadas em grafos. No entanto, o processamento de grafos, principalmente em cenários de larga escala, é computacionalmente custoso e muitas vezes inviável. Métodos de Graph Embedding são usados para encontrar representações vetoriais de baixa dimensionalidade para grafos, preservando suas características principais como topologia, afinidade e vizinhança compartilhada entre nós, possibilitando que tarefas analíticas como classificação, agrupamento, recuperação de informações, predição de conexões e outras possam ser executadas. Com isso em mente, este trabalho, propõe RaDE (Rank Diffusion Embedding), um método eficiente e eficaz para aprender representações vetoriais de baixa dimensionalidade de nós de grafos. O método proposto identifica representantes altamente eficazes em grafos baseados em modelagens de ranqueamento, além de ser totalmente não supervisionado e independente do domínio de dados. Uma vantagem do RaDE sobre os métodos concorrentes é que cada dimensão das representações vetoriais geradas possui um significado semântico. Além do RaDE, este trabalho também propõe o RaDE+, que é uma variante do RaDE. O RaDE+ considera múltiplos representantes ao invés de um único por dimensão. A abordagem proposta foi avaliada em 8 conjuntos de dados tais como redes sociais, redes de co-referências, documentos textuais e conjuntos de imagem. Destacando que um dos conjuntos de dados avaliados é um conjunto de images de raio-x de pulmões de pessoas com Covid-19, pneumonia e saudáveis. O RaDE/RaDE+ foram aplicados neste conjunto de dados para ambas as tarefas: visualização e recuperação de informação e as representações vetoriais geradas por ambos os métodos alcançaram resultados de alta eficácia, superando os resultados do métodos concorrentes na maioria dos conjuntos de dados.
Resumo (inglês)
Graphs are powerful tools, capable of capture complex relationships existing among objects. Due to its robustness and flexibility, many application can benefit from gaph-based modeling. However, performance issues can be observed specially on large scale networks, making it computationally unfeasible to process information in various scenarios. Graph Embedding methods are usually used for finding low-dimensional vector representations for graphs, preserving its main properties such as topological characteristics, affinity and shared neighborhood between nodes, making it possible that analytical tasks such as classification, clustering, information retrieval and link prediction to be performed. To address theses problems, this work, proposes RaDE (Rank Diffusion Embedding), an efficient and effective approach to learn low-dimensional vector representations for nodes in graphs. The proposed method identifies high-effective representatives nodes in rank-based modeled graphs besides being completely unsupervised and independent of the data domain. A benefit of RaDE over the competitor methods is that each dimension of the vector representations generated by RaDE has a semantic meaning. In addition, this work also proposes RaDE+, which is a variant of RaDE, that considers multiple high-effective representative nodes for each dimension instead of single representatives as RaDE. The proposed approach was evaluated on 8 datasets such as a social networks, co-reference networks, textual documents and image datasets. Emphasizing that one of the evaluated datasets is an image dataset of lung x-ray from people with Covid-19, pneumonia or healthy. RaDE and RaDE+ were evaluated for both: visualization and retrieval tasks in this dataset and vector representations generated by both methods achieved better results than the competitor methods in most datasets.
Descrição
Idioma
Inglês