Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores

Carregando...
Imagem de Miniatura

Data

2020-01-28

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Com o grande crescimento da área de informática e inovação tecnológica (era digital), cresce cada vez mais a necessidade de dispositivos e algoritmos capazes de aprender e reconhecer padrões. A segurança computacional se torna cada vez mais essencial com toda essa evolução, pois os incidentes de segurança estão se tornando cada vez mais comum. Um exemplo são as mensagens de spam, podendo trazer conteúdos impróprios ou indesejados e causando diversos problemas ou até mesmo roubo de informação. Baseado nisso se torna cada vez mais necessário o estudo dessas duas áreas em conjunto. Aprendizado de máquina e segurança computacional, o que possibilita a criação de novos dispositivos e ferramentas capazes de reconhecer padrões de incidentes de segurança através da inteligência computacional. Assim, é proposto neste trabalho efetuar a extração de características (vetorização de texto), que tem a finalidade de efetuar a extração dos termos mais relevantes, e posteriormente combiná-los com algoritmos de aprendizado de máquina semi-supervisionados, como o objetivo de estudar qual combinação é mais viável para a detecção de spam.
The boom of technological innovation (digital era) has imposed the need for devices and algorithms that learn and recognize patterns. Driven by such evolution, computer security has become an essential, once incidents regarding computer security have been increasing even faster than technology itself. An example are spam messages, which may display inappropriate content, or even cause damage or data theft. Therefore, it is important to integrate both machine learning and computer security to create new devices and tools that are able to recognize patters of computer security incidents by using computer intelligence. To do so, this study aims to carry out a feature extraction process (text vectorization) of features that extract relevant terms and combine them as semi-supervised machine learning algorithms, analyzing which combination is the most viable to detect spam.

Descrição

Palavras-chave

Segurança computacional, Reconhecimento de padrão, Extração de características, Computer security, Pattern recognition, Feature extraction

Como citar