How optimizing perplexity can affect the dimensionality reduction on word embeddings visualization?

Rosa, Gustavo H. de [UNESP]; Brega, Jose R. F. [UNESP]; Papa, Joao P. [UNESP]

How optimizing perplexity can affect the dimensionality reduction on word embeddings visualization?

dc.contributor.author	Rosa, Gustavo H. de [UNESP]
dc.contributor.author	Brega, Jose R. F. [UNESP]
dc.contributor.author	Papa, Joao P. [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2020-12-10T19:50:10Z
dc.date.available	2020-12-10T19:50:10Z
dc.date.issued	2019-12-01
dc.description.abstract	Traditional word embeddings approaches, such as bag-of-words models, tackles the problem of text data representation by linking words in a document to a binary vector, marking their occurrence or not. Additionally, a term frequency-inverse document frequency encoding provides a numerical statistic reflecting how important a particular word is in a document. Nevertheless, the major vulnerability of such models concerns with the loss of contextual meaning, which inhibits them from learning proper pieces of information. A new neural-based embedding approach, known as Word2Vec, tries to mitigate that issue by minimizing the loss of predicting a vector from a particular word considering its surrounding words. Furthermore, as these embedding-based methods produce low-dimensional data, it is impossible to visualize them accurately. With that in mind, dimensionality reduction techniques, such as t-SNE, presents a method to generate bi-dimensional data, allowing its visualization. One common problem of such reductions concerns with the setting of their hyperparameters, such as the perplexity parameter. Therefore, this paper addresses the problem of selecting a suitable perplexity through a meta-heuristic optimization process. Meta-heuristic-driven techniques, such as Artificial Bee Colony, Bat Algorithm, Genetic Programming, and Particle Swarm Optimization, are employed to find proper values for the perplexity parameter. The results revealed that optimizing t-SNE's perplexity is suitable for improving data visualization and thus, an exciting field to be fostered.	en
dc.description.affiliation	Sao Paulo State Univ, Dept Comp, Av Eng Luiz Edmundo Carrijo Coube 14-01, Bauru, SP, Brazil
dc.description.affiliationUnesp	Sao Paulo State Univ, Dept Comp, Av Eng Luiz Edmundo Carrijo Coube 14-01, Bauru, SP, Brazil
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipId	FAPESP: 2019/02205-5
dc.format.extent	17
dc.identifier	http://dx.doi.org/10.1007/s42452-019-1689-4
dc.identifier.citation	Sn Applied Sciences. Cham: Springer International Publishing Ag, v. 1, n. 12, 17 p., 2019.
dc.identifier.doi	10.1007/s42452-019-1689-4
dc.identifier.issn	2523-3963
dc.identifier.uri	http://hdl.handle.net/11449/196603
dc.identifier.wos	WOS:000515158800026
dc.language.iso	eng
dc.publisher	Springer
dc.relation.ispartof	Sn Applied Sciences
dc.source	Web of Science
dc.subject	Word embeddings
dc.subject	Dimensionality reduction
dc.subject	Meta-heuristic optimization
dc.title	How optimizing perplexity can affect the dimensionality reduction on word embeddings visualization?	en
dc.type	Artigo
dcterms.license	http://www.springer.com/open+access/authors+rights?SGWID=0-176704-12-683201-0
dcterms.rightsHolder	Springer
unesp.campus	Universidade Estadual Paulista (Unesp), Faculdade de Ciências, Bauru	pt
unesp.department	Computação - FC	pt

Coleções

Bauru - FC - Faculdade de Ciências

How optimizing perplexity can affect the dimensionality reduction on word embeddings visualization?

Arquivos

Coleções