Algoritmo paralelo para análise comportamental de usuários de mídias sociais na detecção de distúrbios mentais

Carregando...
Imagem de Miniatura

Data

2020-02-28

Autores

Martins, Victor Hugo Penhalves

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

A quantidade de dados tem crescido significativamente nos últimos anos, principalmente em formatos de textos e não estruturados, com a colaboração efetiva das mídias sociais. Tais plataformas podem ser definidas como aplicativos de internet que podem ser web ou mobile e permitem a criação, acesso e a troca de conteúdos criados por usuários. Com isso, o conjunto de dados produzidos por essas mídias podem ser chamados de Big Data e são especialmente importantes para pesquisas computacionais de extração de conhecimento. O termo Big Data pode ser definido como um grande volume de dados complexos provenientes de múltiplas fontes que desafiam a capacidade de armazenamento e processamento dos computadores com as tecnologias atuais. Com isso, as técnicas de programação distribuída e paralela têm sido amplamente utilizadas a fim de retornar em tempo hábil os resultados dos algoritmos de extração de conhecimento em dados de mídias sociais. Tendo em vista as características dos dados criados nas mídias sociais e o aumento de pessoas no mundo com problemas relacionados a transtornos de saúde, ferramentas que analisam esses dados para encontrar correlações podem contribuir para o cenário atual. Dessa forma, a contribuição científica deste trabalho está no desenvolvimento de algoritmos paralelos para prospecção de conhecimento em dados textuais, com foco em mídias sociais, que permita a classificação dos indivíduos em classes comuns e que considera o contexto inserido. Os resultados de desempenho indicam que a ferramenta com abordagem paralela desenvolvida foi capaz de reduzir em cerca de 11 vezes o tempo de préprocessamento, extração de características e classificação.
The amount of data has grown significantly in recent years with the effective collaboration of social media. Such platforms can be defined as internet applications that can be web or mobile and allow the creation, access and exchange of user-created content. With this, the data set produced by these media can be called Big Data and are especially important for computational searches of knowledge extraction. The term Big Data can be defined as a large volume of complex data from multiple sources that challenge the storage and processing capacity of computers with today's technologies. In this sense, the techniques of framework Apache Spark and its parallelized implementation have been widely used to return in a timely manner the results of the algorithms of knowledge extraction in social media data. Given the large amount of data generated is social media and the increase of people in the world with problems related to health disorders, tools that analyze these data to find correlations can contribute to the current scenario. Thus, the scientific contribution of this work is in the development of parallel algorithms for prospecting knowledge in textual data, with a focus on social media, which allows the classification of individuals in common classes and considering the inserted context. The performance results indicate that the tool with a parallel approach developed was able to reduce the pre-processing time, extraction of characteristics and classification by approximately 11 times.

Descrição

Palavras-chave

Ciência da computação, Processamento de textos (Computação), Processamento paralelo (Computadores), Big data, Computer science, Text mining, Parallel processing

Como citar