Publicação: People Analytics: uso de árvores de decisão na retenção de talentos
Carregando...
Arquivos
Data
Autores
Orientador
Schlunzen Junior, Klaus 

Coorientador
Pós-graduação
Curso de graduação
Estatística - FCT
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Este trabalho foi desenvolvido com uma base de dados disponível pelo Kaggle e tem como objetivo identificar, traçar o perfil e prever, por meio do uso de árvores de decisão, quais pessoas têm tendência a se desligar de uma empresa a partir de suas características pessoais e profissionais. A ideia do projeto consiste em mostrar que o uso de ferramentas estatísticas na área de Gestão de Pessoas pode agregar muito valor de forma prática e simples, ainda mais nessa área que a análise de dados não é muito frequente. Embora a base de dados seja desbalanceada e possui muitos valores faltantes, para fins práticos desconsiderou-se as observações que possuíam pelo menos um dado faltante e não foi usado nenhuma técnica para equilibrar as classes de interesse. Para lidar com as variáveis categóricas foram criadas variáveis dummy pois o sckit-learn, biblioteca usada para modelagem no Python, não suporta dados categóricos. Foram feitos dois modelos, o primeiro cresceu exaustivamente, ficando muito específico com problemas de sobreajuste, enquanto o segundo foi podado usando o critério de custo de complexidade. Através de métricas estatísticas, tais como Recall, Precisão e F1-Score, checou-se a performance dos modelos avaliando se possuem boa capacidade discriminante. Embora alguns dados sobre os colaboradores possam ser difíceis de serem obtidos, as árvores de decisão demonstram serem bem interessantes para auxiliar na retenção de talentos.
Resumo (inglês)
This work was developed with a database available by Kaggle and aims to identify, profile and predict, through the use of decision trees, which people tend to leave a company based on their personal characteristics and professionals. The idea of the project is to show that the use of statistical tools in the area of People Management can add a lot of value in a practical and simple way, especially in this area where data analysis is not very frequent. Although the database is unbalanced and has many missing values, for practical purposes, observations that had at least one missing data were disregarded and no technique was used to balance the classes of interest. To deal with category variables, dummy variables were created because sckit-learn, the library used for modeling in Python, does not support categorical data. Two models were made, the first grew exhaustively, becoming very specific with overfitting problems, while the second was pruned using the complexity cost criterion. Through statistical metrics, such as Recall, Precision and F1-Score, the performance of the models was checked, evaluating whether they have good discriminating capacity. Although some data about employees can be difficult to obtain, decision trees prove to be very interesting to help retain talent.
Descrição
Palavras-chave
Árvores de decisão, Retenção de talentos, Recursos humanos, Gestão de pessoas, People analytics, Decision trees, Retaining talent, Human resources, People management
Idioma
Português