People Analytics: uso de árvores de decisão na retenção de talentos

Carregando...
Imagem de Miniatura

Data

2022-03-07

Orientador

Schlunzen Junior, Klaus

Coorientador

Pós-graduação

Curso de graduação

Estatística - FCT

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Este trabalho foi desenvolvido com uma base de dados disponível pelo Kaggle e tem como objetivo identificar, traçar o perfil e prever, por meio do uso de árvores de decisão, quais pessoas têm tendência a se desligar de uma empresa a partir de suas características pessoais e profissionais. A ideia do projeto consiste em mostrar que o uso de ferramentas estatísticas na área de Gestão de Pessoas pode agregar muito valor de forma prática e simples, ainda mais nessa área que a análise de dados não é muito frequente. Embora a base de dados seja desbalanceada e possui muitos valores faltantes, para fins práticos desconsiderou-se as observações que possuíam pelo menos um dado faltante e não foi usado nenhuma técnica para equilibrar as classes de interesse. Para lidar com as variáveis categóricas foram criadas variáveis dummy pois o sckit-learn, biblioteca usada para modelagem no Python, não suporta dados categóricos. Foram feitos dois modelos, o primeiro cresceu exaustivamente, ficando muito específico com problemas de sobreajuste, enquanto o segundo foi podado usando o critério de custo de complexidade. Através de métricas estatísticas, tais como Recall, Precisão e F1-Score, checou-se a performance dos modelos avaliando se possuem boa capacidade discriminante. Embora alguns dados sobre os colaboradores possam ser difíceis de serem obtidos, as árvores de decisão demonstram serem bem interessantes para auxiliar na retenção de talentos.

Resumo (inglês)

This work was developed with a database available by Kaggle and aims to identify, profile and predict, through the use of decision trees, which people tend to leave a company based on their personal characteristics and professionals. The idea of the project is to show that the use of statistical tools in the area of People Management can add a lot of value in a practical and simple way, especially in this area where data analysis is not very frequent. Although the database is unbalanced and has many missing values, for practical purposes, observations that had at least one missing data were disregarded and no technique was used to balance the classes of interest. To deal with category variables, dummy variables were created because sckit-learn, the library used for modeling in Python, does not support categorical data. Two models were made, the first grew exhaustively, becoming very specific with overfitting problems, while the second was pruned using the complexity cost criterion. Through statistical metrics, such as Recall, Precision and F1-Score, the performance of the models was checked, evaluating whether they have good discriminating capacity. Although some data about employees can be difficult to obtain, decision trees prove to be very interesting to help retain talent.

Descrição

Idioma

Português

Como citar