Risco de crédito e a aplicação da modelagem regressão logística Lourival Vieira - SP 2023 Universidade Estadual Paulista “Júlio de Mesquita Filho” Instituto de Geociências e Ciências Exatas Câmpus de Rio Claro LOURIVAL VIEIRA RISCO DE CRÉDITO E A APLICAÇÃO DA MODELAGEM REGRESSÃO LOGÍSTICA Dissertação de Mestrado apresentada ao Instituto de Ge- ociências e Ciências Exatas do Câmpus de Rio Claro, da Universidade Estadual Paulista “Júlio de Mesquita Fi- lho”, como parte dos requisitos para obtenção do título de Mestre em Matemática. Orientador Prof. Dr. Wladimir Seixas Rio Claro - SP 2023 V658r Vieira, Lourival Risco de crédito e a aplicação da modelagem regressão logística / Lourival Vieira. -- Rio Claro, 2023 71 p. : il., tabs. Dissertação (mestrado profissional) - Universidade Estadual Paulista (Unesp), Instituto de Geociências e Ciências Exatas, Rio Claro Orientador: Wladimir Seixas 1. Análise de Risco. 2. Regressão Logística. 3. Métodos Matemáticos. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca do Instituto de Geociências e Ciências Exatas, Rio Claro. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. Impacto potencial desta pesquisa A dissertação tem como objeto de estudo a promoção do entendimento de uma meto- dologia que pode ser aplicada para calcular os riscos de crédito de um grupo específico de tomadores. Como base central dessa discussão, tomou-se como parâmetro a implantação da Lei do Cadastro Positivo para abordar a mensuração do score de crédito. Como obje- tivo secundário busca-se compreender o impacto desses estudos na orientação das práticas de crédito atualmente adotadas no cenário financeiro e creditício brasileiro. A aplicação de dados reais em modelagens estatísticas e econométricas mostra a importância de relacio- nar a matemática com estatística e economia para compreender as aplicações matemáticas na vida real. Ao avaliar o alcance e a eficácia dessas análises, pode-se compreender como elas contribuem significativamente no aprimoramento das diretrizes utilizadas no processo de concessão de crédito. Potential impact of this research The dissertation aims to promote the understanding of a methodology that can be applied to calculate the credit risks of a specific group of borrowers. As a central basis for this discussion, the implementation of the Positive Credit Registry Law was taken as a parameter to address the measurement of the credit score. As a secondary objective, the study seeks to comprehend the impact of these analyses on guiding the credit practices currently adopted in the Brazilian financial and credit scenario. The application of real- world data in statistical and econometric modeling shows the importance of integrating mathematics with statistics and economics to comprehend mathematical applications in real life. By assessing the scope and effectiveness of these analyses, one can understand how they significantly contribute to improving the guidelines used in the credit granting process. LOURIVAL VIEIRA RISCO DE CRÉDITO E A APLICAÇÃO DA MODELAGEM REGRESSÃO LOGÍSTICA Dissertação de Mestrado apresentada ao Instituto de Geociências e Ciências Exatas do Câmpus de Rio Claro, da Universidade Estadual Paulista “Júlio de Mesquita Filho”, como parte dos requisitos para ob- tenção do título de Mestre em Matemática. Comissão Examinadora Prof. Dr. WLADIMIR SEIXAS DM/UFSCar (SP) Prof. Dr. LUIS ANTONIO DA SILVA VASCONCELLOS FC/UNESP/Bauru (SP) Profa. Dra. SELENE MARIA COELHO LOIBEL IGCE/UNESP/Rio Claro (SP) Conceito: Aprovado Rio Claro/SP, 30 de outubro de 2023 Dedico, aos meus filhos Laura Sousa Vieira e Henrique Sousa Vieira Agradecimentos Agradeço, Ao meu pai (in memoriam) e à minha mãe pelo apoio com suas palavras amigas, conselhos e orações que me deram na vida e especificamente durante o desenvolvimento desta dissertação. Agradeço do fundo do meu coração, pois com certeza, sem eles, não teria chegado onde cheguei. À minha esposa, pela compreensão e paciência. Aos colegas de trabalho, especialmente à Professora Juliana Portella Furini, pela pa- ciência, sabedoria, profissionalismo e compreensão, fatores que contribuíram para o ama- durecimento das propostas e avanço da pesquisa. Ao Professor Mário Sérgio Rodrigues Balbino de Oliveira Paschoal, colega do pro- grama e do ambiente de trabalho, por ter proporcionado as amplas discussões sobre o direcionamento das leituras e a organização das ideias. Sem dúvida, as discussões e as trocas de conhecimento foram muito produtivas. À minha eterna e amada diretora de escola, Alteia Garagnani Turpin (in memoriam), que com suas palavras de incentivos e conselhos proporcionou a minha entrada neste programa. Aos demais colegas de trabalho que, com suas palavras amigas, proporcionaram in- centivos para continuar estudando. Aos demais colegas discentes do programa, especialmente aos colegas Jefferson David Alves e Alan Gualberto, que com suas sabedorias, humildade e paciência, conduziram as discussões de forma serena e didática nos grupos de estudos. Ao Professor Dr. Wladimir Seixas, do fundo do meu coração, pela paciência e profis- sionalismo que guiaram esta orientação com amizade e serenidade. À Professora Dra. Selene Maria Coelho Loibel, à Professora Dra. Marta Cilene Gadotti e a todos os professores do Departamento de Matemática por terem contribuído para a formação e realização desta dissertação. Resumo O presente estudo tem como objetivo principal a realização de um estudo da técnica es- tatística conhecida como Regressão Logística, também referida como análise logit. Nesse sentido, busca entender a metodologia utilizada e sua aplicação na avaliação e determina- ção dos fatores de maior relevância que influenciam na pontuação do risco de crédito para indivíduos. Como objetivo secundário busca-se compreender o impacto desses estudos na orientação das práticas de crédito atualmente adotadas no cenário financeiro e creditício brasileiro, considerando especialmente a introdução do sistema de cadastro positivo. Ao avaliar o alcance e a eficácia dessas análises, pretende-se compreender se elas contribuem significativamente para aprimorar as diretrizes utilizadas no processo de concessão de crédito. Palavras-chave: Análise de Risco. Regressão Logística. Métodos Matemáticos. Abstract The main objective of the present study is to conduct an investigation into the statistical technique known as Logistic Regression, also referred to as logit analysis. In this context, it aims to comprehend the methodology employed and its application in assessing and de- termining the most relevant factors that influence the credit risk scoring for individuals. As a secondary objective, the study seeks to understand the impact of these analyses on guiding the credit practices currently adopted in the Brazilian financial and credit lands- cape, with special consideration given to the introduction of the positive credit registry system. By evaluating the scope and effectiveness of these analyses, the intention is to ascertain whether they significantly contribute to enhancing the guidelines employed in the credit approval process. Keywords: Risk Analysis. Logistic Regression. Mathematical Methods. Lista de Figuras 3.1 Curva da regressão logística. . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2 Área sob a Curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3 Pontos de dispersão desejada da função Logística Binária inversa das pro- babilidades de Adimplência ou inadimplência. . . . . . . . . . . . . . . . . 45 3.4 Pontos de dispersão obtida da função Logística Binária inversa das proba- bilidades de Adimplência ou Inadimplência. . . . . . . . . . . . . . . . . . 46 3.5 Curva ROC das probabilidades preditivas para análise de risco de crédito. . 62 Lista de Tabelas 2.1 Escala global de avaliações de risco das principais agências internacionais de Ratings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Classificação conforme os níveis e faixas de severidade em relação a conces- são de crédito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1 Tabela de classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 Descrição das variáveis explicativas de categoria bancária e pessoal dos tomadores de crédito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Descrição das variáveis explicativas de categoria bancária e pessoal dos tomadores de crédito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.4 Análise da Curva de Regressão Logística - Software MedCalc (Método Enter) 44 3.5 Estimadores das probabilidades de adimplência ou inadimplência . . . . . . 49 3.6 Teste de Hosmer & Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.7 Possíveis pseudos R2, considerados para explicar as variações da variável dependente em relação aos dados amostrais. . . . . . . . . . . . . . . . . . 50 3.8 Estimativa das probabilidades dos parâmetros e das variáveis independen- tes, do modelo logístico e avaliação dos riscos de crédito. . . . . . . . . . . 53 3.9 Classificação Geral ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.10 Tabela de Confusão do Padrão Ouro – Classificação geral do modelo . . . . 59 3.11 Intervalo de Confiança para área da curva ROC 95% . . . . . . . . . . . . 60 3.12 Escala de avaliações de risco de crédito adapta do modelo da agência Stan- dard & Poor’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 A.1 Organização dos resultados na planilha eletrônica - parte 1 . . . . . . . . . 71 A.2 Organização dos resultados na planilha eletrônica - parte 2 . . . . . . . . . 72 Sumário 1 Introdução 14 2 Teoria dos riscos 16 2.1 Conceitos teóricos sobre modelos de Riscos de Crédito . . . . . . . . . . . . 17 2.2 Modelagem e análise de Risco de Crédito . . . . . . . . . . . . . . . . . . . 19 3 Regressão Logística Binária 23 3.1 Função matemática da Regressão Logística Binária . . . . . . . . . . . . . 24 3.2 Estimação do modelo de Regressão Logística Binária . . . . . . . . . . . . 27 3.3 Teste da máxima verossimilhança na Regressão Logística Binária . . . . . . 30 3.4 Níveis de significância estatística geral do modelo e dos parâmetros . . . . 30 3.5 Teste de Wald na modelagem da Regressão Logística Binária . . . . . . . . 31 3.6 Construção dos Intervalos de confiança dos parâmetros do modelo de Re- gressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.7 Avaliação da Modelagem de Regressão Logística Binária . . . . . . . . . . 34 3.8 Função da curva ROC na modelagem da Regressão Logística Binária . . . 36 3.9 Análises da área sob a curva ROC . . . . . . . . . . . . . . . . . . . . . . . 38 3.9.1 Análise do Score para crédito à pessoa física através da análise da Regressão Logística binária . . . . . . . . . . . . . . . . . . . . . . 39 3.10 Aplicação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.11 Descrição dos dados para apuração dos resultados . . . . . . . . . . . . . . 41 3.12 Análises dos resultados da Regressão Logística Binária . . . . . . . . . . . 44 3.13 Estimação do modelo de regressão logística binária por máxima verossimi- lhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.14 Aplicando o Teste Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.15 Aplicação da modelagem como base exploratória da aprendizagem . . . . . 55 3.16 Análise e interpretação da Tabela ROC e da Curva ROC . . . . . . . . . . 56 3.17 Análise da curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4 Considerações finais 65 SUMÁRIO 13 Referências 67 A Tabelas obtidas para uma dada amostra 70 1 Introdução A concessão de crédito à pessoa física no Brasil vem sendo modificada desde a im- plantação do processo de cadastro positivo pela Lei n. 12.414/2011, alterada pela Lei Complementar nº 166 (de 8 de abril de 2019)1, que prevê a inclusão automática de todos os dados das pessoas físicas e jurídicas que demandam empréstimos, financiamentos, com- pras a prazo ou contas de consumo junto ao mercado. Esta lei proporciona às instituições financeiras acesso aos dados cadastrais da pessoa física no contexto nacional, disponíveis nos registros do Banco Central do Brasil. A Lei do Cadastro Positivo busca ampliar a concessão de crédito ao mercado consumidor, reduzindo o risco de inadimplência que possa ocorrer junto ao sistema financeiro creditício. A determinação da taxa de risco de crédito é obtida através da utilização de meto- dologias qualitativas e quantitativas, que, em conjunto, proporcionam um composto de técnicas aplicadas nas tomadas de decisões relacionadas ao crédito pelos credores. Dentre essas técnicas, destacam-se: 1. Técnicas de Redes Neurais, que são regidas por sistemas computacionais empregados para imitar o funcionamento do cérebro humano por meio de emulações de uma rede de neurônios interligados. Essas técnicas modelam otimizações que integram técnicas de programação matemática para descobrir os pesos ideais de atributos do credor e tomador de crédito, visando minimizar os erros do credor e maximizar seus lucros. 2. Técnicas do Sistema Especialista, baseadas em regras, que utilizam sistemas movidos por clonagem de processos empregados para proporcionar análises bem-sucedidas na decisão de crédito. 3. Técnicas dos Sistemas Híbridos, que utilizam comutação, estimativa e simulações diretas, cujos parâmetros são determinados em partes por técnicas de estimativas. Um exemplo dessa aplicação é o modelo KMV, que usa formulação teórica de opções para explicar a inadimplência por meio do relacionamento das estimativas. 1Disponível em . Acesso em 29 mai. 2023. 14 http://www.planalto.gov.br/ccivil_03/leis/lcp/Lcp166.htm Introdução 15 4. Técnicas dos modelos Econométricos, que são as mais eficientes para mensurar os modelos de risco de crédito. Na prática, as análises discriminatórias lineares e múlti- plas, como análise logit e análise probit, são utilizadas para modelar a probabilidade de adimplência ou inadimplência. Devido à praticidade e transparência, são as mais utilizadas na determinação do risco de crédito pelo mercado. Dentre as várias técnicas abordadas, este trabalho tem como proposta realizar uma abordagem detalhada da Regressão Logística (análise logit), priorizando sua metodologia e aplicação na determinação dos fatores preponderantes da pontuação do risco de crédito à pessoa física. A proposta inicial é identificar se essas análises contribuem com as ori- entações nas práticas de crédito vigentes no mercado financeiro e creditício no Brasil, a partir da implantação do cadastro positivo. Dessa forma, a estrutura deste trabalho está dividida em três partes: a primeira parte realizará uma abordagem introdutória sobre a teoria dos riscos. A segunda abordará a teoria dos riscos de crédito, através da aplicação do modelo de regressão logística, das técnicas do risco relativo e a mensuração do spread de crédito. A terceira parte será destinada a realizar as aplicações da regressão logística na apuração dos resultados obtidos pelos modelos de risco de crédito do cadastro positivo, bem como a classificação dos riscos de crédito no Brasil destinadas à pessoa física. 2 Teoria dos riscos O que se entende por crédito é que, na prática, há uma relação entre a disposição de demanda por crédito por parte da pessoa física, denominado Valor Presente, e a disposição de oferta de crédito, denominado Montante, por parte do agente financeiro creditício. O prêmio auferido nas transações por meio da concessão de crédito é composto pela taxa de juros e pela variável tempo incorridos na operação pela qual a oferta de crédito será concedida. A disposição do credor em ofertar crédito está diretamente relacionada com as avaliações do perfil de crédito do tomador, pois acreditam que as análises do risco de crédito garantem o retorno esperado na operação, isto é, os cuidados com as análises de risco de crédito para determinar a taxa de juros se tornam uma base primordial para sustentar a harmonia entre credor e tomador. Por ser uma das práticas mais antigas da história do mercado financeiro, as análises de risco de crédito se aperfeiçoam na medida em que as instituições financeiras e creditícias se fortalecem. Desse modo, em mercados cuja conjuntura econômica e financeira pode apresentar alto grau de volatilidade em função das incertezas no contexto mercadológico, financeiro e produtivo, os tomadores e credores de créditos estão expostos aos diferentes tipos de riscos, dentre os quais os mais comuns são: riscos de liquidez, risco legal, risco operacional, risco trabalhista, risco de mercado, risco político, risco econômico e risco de crédito. No entanto, os agentes credores baseiam suas análises nos estudos sobre os riscos de crédito para identificar os graus de incerteza da incapacidade do tomador de crédito de cumprir suas obrigações contratuais frente aos credores. O não cumprimento do contrato por parte do tomador promove um estado de perdas financeiras para a instituição fornecedora de crédito. Portanto, por medidas cautelares, observam também as possíveis perdas da capacidade de pagamentos e a percepção de inadimplência no mercado, situações que também influenciam nas análises dos riscos de crédito à pessoa física. Em economias de mercado cuja maior parte da renda circulante é oriunda da massa trabalhadora assalariada, o crédito passa a ser uma das práticas mais importantes para proporcionar o desenvolvimento econômico e financeiro do país. Logo, a prática de crédito se torna preponderante na questão do financiamento para aquisições de bens de consumo duráveis, não duráveis e bens de serviços às famílias que, por hora, as receitas mensais 16 Conceitos teóricos sobre modelos de Riscos de Crédito 17 não permitiriam adquiri-los. Com o avanço produtivo e comercial em conjunto com os incrementos tecnológicos da informação, tem havido implementações de novos modelos, procedimentos e práticas na gestão de análise de risco de crédito, o que visa proporcionar relações mais amistosas e transparentes entre credores e tomadores, situações que se tornam tarefas primordiais na questão financeira e creditícia. 2.1 Conceitos teóricos sobre modelos de Riscos de Crédito As discussões em relação aos modelos ideais de risco de crédito são fundamentais para orientar as instituições financeiras e creditícias nas decisões políticas sobre as concessões de crédito. Vale (2010) defende que a modelagem, como algoritmos, fórmulas, sistemas ou regras, é fundamental para representar a compreensão de um fenômeno e também contribui para o fortalecimento das decisões em relação às medidas precaucionais em relação ao risco de crédito. Da mesma forma, Caouette, Altman e Narayanan (1999) salientam que, para construir um modelo de risco de crédito, é necessário estabelecer primeiramente estratégias que visem identificar as variáveis que influenciam na ocorrência do não cumprimento de um acordo contratual de crédito. Dessa forma, eles ponderam que é importante basear-se em um conjunto de ferramentas que permita a construção de um modelo formal com base em um conjunto de dados reais que representam a carteira de crédito. A partir da mensuração e apuração das informações pertinentes, estas devem ser sub- metidas a testes estatísticos para identificar se o modelo proporciona ou não o desempenho esperado. Por outro lado, Saunders (2000) divide os modelos de risco de crédito em sis- temas especialistas, modelos de Credit Scoring, modelos de Credit Rating e modelos de portfólio. Para ele, os três primeiros modelos caracterizam as abordagens tradicionais de classificação de risco, enquanto o baseado em portfólio considera os retornos e riscos esperados em uma análise da carteira de crédito. Silva (2014) também pondera que os modelos de classificação de risco têm como objetivo analisar o crédito de forma a auxiliar o credor na tomada de decisão a partir da avaliação de várias informações sobre o tomador de crédito. Para ela, as instituições financeiras devem praticar uma gestão de riscos bem definida para garantir que a saúde financeira institucional seja perenemente saudável, uma vez que uma de suas principais atividades é conceder crédito aos tomadores. Da mesma forma, Silva (2014) salienta que a análise quantitativa fundamenta suas informações em modelos estatísticos e econométricos, permitindo, assim, uma mensuração mais precisa do risco do tomador de crédito, proporcionando de forma transparente a modelagem de Scoring ou Rating. Essa modelagem permite identificar o quão próximo o tomador de Conceitos teóricos sobre modelos de Riscos de Crédito 18 crédito está de dois grupos: o adimplente, que provavelmente cumprirá suas obrigações financeiras, o inadimplente, que apresenta a probabilidade mais alta de não cumprir seus compromissos com as instituições financeiras. Já a análise qualitativa, que tem como parâmetro a análise subjetiva do analista de crédito, mede a capacidade de pagamento do tomador de crédito a partir das práticas da análise fundamentalista. A classificação como modelo especialista parte do pressuposto de que envolve as de- cisões individuais em relação à concessão ou não de crédito. Esse modelo permite tomar decisões que são expressas nas experiências subjetivas, nas informações disponíveis e nas sensibilidades que cada analista possui em relação ao risco de seus negócios. Caouette, Altman e Narayanan (1999, p. 181) propõem que existem dois modelos de classificação de risco de crédito: o modelo de aprovação e o modelo de escoragem (pontuação) comporta- mental. Tanto no modelo de aprovação quanto no modelo de escoragem comportamental, as variáveis de escoragem são fundamentais para a tomada de decisões na concessão de novas linhas de crédito, pois a previsão de solvência ou insolvência depende dos resulta- dos apresentados pelas variáveis descritivas das atividades implementadas no modelo de aprovação e no modelo de escoragem comportamental. O que se pode observar é que o modelo de escoragem comportamental baseia-se na mensuração dos registros históricos, levando em consideração os hábitos de pagamento, o volume de transações, a utilização média das linhas de crédito e as variáveis descritivas das atividades passadas na conta do tomador de crédito. Já as análises subjetivas da capacidade financeira dos tomadores de crédito são tradicionalmente conhecidas como os 5C’s do crédito, que analisam os riscos de crédito tanto para pessoas físicas quanto para pessoas jurídicas. Securato (2002) também analisa o modelo de pontuação de crédito, como estratégias, os parâmetros dos 5C’s do crédito que orientam tanto os tomadores quanto os credores em relação aos riscos de crédito que serão utilizados nas análises quantitativas e qualitativas para obter a pontuação de risco de crédito. No entanto, os 5C’s recebem as seguintes denominações: Caráter, Capacidade, Capital, Colateral e Condições, sendo consideradas variáveis fundamentais na análise de risco de crédito por uma instituição. A utilização da metodologia dos 5C’s torna-se muito importante para medir o grau de risco incorrido e identificar o valor financeiro que um credor pode emprestar em relação à renda média estabelecida na operação. Para ser mais preciso, é importante levar em consideração a análise do risco total de uma operação de crédito, abrangendo o Risco Conjuntural e o Risco Próprio. Risco Total = Risco Conjuntural + Risco Próprio. Securato (2002) define o Risco Conjuntural (ou Risco Sistemático) como um conjunto de variáveis observadas na conjuntura econômica, estruturas políticas, sociais e ambientais nas quais o tomador de crédito está inserido a curto, médio e longo prazo. Por outro Modelagem e análise de Risco de Crédito 19 lado, o Risco Próprio (ou não sistemático) depende exclusivamente das características específicas dos grupos de informações definidos como 5C’s do Crédito. Nesse contexto, ele apresenta o modelo matricial de crédito, no qual cada variável está relacionada com suas características, conforme explicado a seguir: Caráter: está relacionado ao comportamento ético e responsável de honrar os compro- missos de acordo com as cláusulas contratuais; Capacidade: está relacionada à garantia de liquidez monetária, ou seja, à renda do tomador e sua capacidade de cumprir suas obrigações; Capital: refere-se à formação patrimonial do tomador, correspondente à capacidade de formação de ativos pessoais do tomador de crédito; Colateral: são os instrumentos de garantia apresentados pelo tomador no momento da concessão de crédito. Isso envolve processos como avalistas ou fiadores, nos quais garantias adicionais podem ser solicitadas, dependendo do grau de risco do tomador, para facilitar a liberação do crédito; Condições: são as análises dos impactos dos fatores micro e macroeconômicos que influ- enciam a concessão de crédito ao tomador, levando em consideração as variabilidades da conjuntura econômica do período. A organização matricial das variáveis de Risco de Crédito é fundamentada na cons- trução de uma matriz de crédito, na qual as linhas representam os parâmetros de Risco Próprio (5 C’s) e as colunas representam os possíveis Riscos Conjunturais, indicados por cenários: C1, C2, ... Cn. Securato (2002) também considera que a etapa final da concessão de crédito está relacionada à conclusão criteriosa das análises da ficha cadastral, que é estabelecida a partir de um sistema de pontuação que visa quantificar os parâmetros analisados em cada caso. Isso, de fato, contribui para a atribuição de pesos correspondentes à relevância de cada informação, culminando na determinação de uma escala classificatória discriminante para cada perfil. A partir da obtenção da pontuação ponderada e das assinaturas do contrato, a concessão de crédito será encaminhada para análise pelo Comitê de Crédito, conforme definido pela política da instituição financeira. 2.2 Modelagem e análise de Risco de Crédito Quando se pensa em desenvolver uma metodologia para análise de risco de crédito, a primeira coisa que vem à mente é o manejo e uso das variáveis exógenas e endógenas do tomador de crédito. Para apoiar essa prática, a metodologia da Regressão Logística Modelagem e análise de Risco de Crédito 20 (análise logit) se torna uma das mais eficazes para distinguir bons pagadores de maus pagadores. O objetivo dessa abordagem é identificar que quanto menor for a sobreposição entre as distribuições de escores, melhor será a distinção entre um bom pagador e um mau pagador. Essa distinção é representada por meio de um processo de pontuação chamado Credit Scoring ou Credit Rating, geralmente divulgado por agências consolidadas de classificação de riscos, como Moody’s e Standard and Poor’s internacionalmente, e no Brasil, a principal fornecedora de ratings de crédito é a instituição Serviços de Assessoria S.A. ou SERASA. Do ponto de vista metodológico, as instituições financeiras e de crédito também utilizam práticas semelhantes para analisar os riscos de crédito de seus tomadores, a fim de estabelecer seus critérios de avaliação de forma independente. Devido ao fato de o sistema de avaliação não ser rígido nem fixo, as avaliações de risco são revistas regularmente, acompanhando as variações das variáveis quantitativas e qualitativas no mercado. Duarte (2014) pondera que o Credit Scoring e o Credit Rating emergiram devido à crescente dificuldade de obter informações sobre o risco financeiro de devedores. Atualmente, o Credit Rating é abordado como um instrumento de informação para os investidores, pois pode ser definido como o cálculo da credibilidade de um tomador de crédito. O principal objetivo do Credit Rating é fornecer subsídios para a eficiência do mercado financeiro e de crédito. Os Credit Ratings são expressos por meio de letras que variam, por exemplo, de AAA a D, para comunicar a opinião da agência sobre o nível relativo de risco de crédito que foi mensurado. Para Anderson (2007), as agências de classificação de risco, como a Moody’s, S&P e Fitch, são as mais importantes quando se trata da determinação do rating de crédito (Credit Ratings) de um país e das grandes instituições financeiras e de crédito. Segundo ele, os ratings de crédito são fornecidos por meio de notas conceituais em forma de letras, que classificam o grau de investimento ou especulativo, separando o grau de inadimplên- cia e o grau de notas rebaixadas com base nas probabilidades de cumprimento ou não cumprimento dos contratos firmados pelas instituições analisadas perante o mercado em uma escala global. A Tabela 2.1 representa um exemplo de rating das agências internacionais de clas- sificação de risco Moody’s, Fitch e Standard & Poor’s. Essa classificação é obtida por meio das metodologias indicadas pelos agentes financeiros internacionais e é destinada a fornecer informações ao mercado financeiro e de crédito sobre os graus de solvência dos agentes econômicos na oferta de crédito. As agências mencionadas na Tabela 2.1 utilizam metodologias próprias, mas convergem para a classificação de curto e longo prazo, consi- derando tanto a solvência nacional quanto a soberana. Assim, o score para a pontuação de risco apresentado por Securato (2002) forma a base de informações suficiente para analisar os riscos qualitativos e quantitativos, que, agrupados, constituem um padrão de classificação de inadimplência, sendo o grau de severidade para o crédito crescente em Modelagem e análise de Risco de Crédito 21 intervalos de [0 a 100%]. Com base na classificação de risco de crédito apresentada na Tabela 2.1, as instituições financeiras e de crédito estabelecem uma pontuação de risco para cada tomador de crédito, chamada de score de classificação de risco. Tabela 2.1: Escala global de avaliações de risco das principais agências internacionais de Ratings MOODY‘S FITCH S&P Interpretação Aaa AAA AAA Mais alta qualidade; extremamente elevada. Aa1 AA+ AA+ Capacidade do devedor de honrar os compromissos com crédito é elevado.Aa2 AA AA Aa3 AA- AA- A1 A+ A+ Qualidade Média Superior com forte capacidade de pagamento.A2 A A A3 A- A- Baa1 BBB+ BBB+ Qualidade Média Inferior Capacidade de pagamento adequada.Baa2 BBB BBB Baa3 BBB- BBB- Ba1 BB+ BB+ Provável cumprimento de obrigações; incertezas correntes com operações arriscadas ou Especulativas. Ba2 BB BB Ba3 BB- BB- B1 B+ B+ Operações de alto risco e altamente especulativa.B2 B B B3 B- B- Caa1 CCC CCC+ Vulnerabilidade presente à inadimplência Extremamente Especulativa. Caa2 CCC CCC Caa3 CCC CCC- Ca CCC CC Estágio extremamente de inadimplência, onde acusa problemas de endividamento com falência e incumprimento de suas obrigações com terceiros. – DDD D – DD D – D D Fonte: Caouette, Altman e Narayanan (1999, p. 79) e . Acesso em 30 jul. 2022. Na Tabela 2.2, é possível observar essa classificação de acordo com os níveis e faixas de severidade em relação à concessão de crédito. https://www.moneyland.ch/en/rating-agencies Modelagem e análise de Risco de Crédito 22 Tabela 2.2: Classificação conforme os níveis e faixas de severidade em relação a concessão de crédito. Faixa Nível Provisão de severidade (%) I AA 0,0 II A 0,5 III B 1,0 IV C 3,0 V D 10,0 VI E 30,0 VII F 50,0 VIII G 70,0 IX H 100,0 Fonte: (SECURATO, 2002, p. 195-196) Para tanto, é necessário estabelecer uma demonstração da modelagem estatística que descreve a metodologia utilizada para determinar os graus de risco utilizados pelas agên- cias mencionadas acima, a fim de fornecer ao mercado informações sobre o comportamento de crédito dos agentes econômicos. Securato (2002) destaca que o Banco Central do Brasil indica que a responsabilidade de estabelecer o grau de severidade na questão dos níveis deve ser assumida pelas ins- tituições detentoras das carteiras de crédito. Dessa forma, serão elas as responsáveis por efetuar a classificação com base em critérios consistentes e verificáveis, de acordo com as informações internas e externas de cada tomador de crédito. Sendo assim, essas instituições estão autorizadas e têm a responsabilidade de estabelecer demonstrações de modelagens estatísticas que descrevam a metodologia utilizada para determinar os graus de risco, os quais são utilizados como forma de fornecer ao mercado informações sobre o comportamento creditício dos agentes econômicos. 3 Regressão Logística Binária A regressão logística (logistic regression ou análise logit) é um dos modelos estatísticos mais utilizados para prever e explicar a probabilidade de ocorrência de uma variável dependente categórica e binária. Sua utilidade é evidente na determinação da dinâmica das operações de credit scoring. Rosa (2000) destaca que o uso de técnicas de regressão logística permite identificar o perfil de cada tomador de crédito, e através da regressão dos parâmetros, é possível localizar e identificar o grupo ao qual o tomador de crédito pertence. De acordo com ela, os parâmetros estudados em um contexto binário permitem identificar a probabilidade de ocorrência encontrada no comportamento das variáveis explicativas de um evento adimplente definido por Y , que se apresenta na forma qualitativa dicotômica Y = 1 e a ocorrência de um evento inadimplente quando Y = 0. Da mesma forma, Fávero e Belfiore (2017) propõem que essas duas categorias, por definição metodológica, possam ser consideradas como um evento de interesse quando a categoria Dummy Y = 1 e de não interesse quando a categoria é Dummy Y = 0. Para eles, caso o estudo apresente mais de duas categorias como possibilidades de ocorrência, com Y > 1 e Y > 0, será necessário definir a categoria de referência desejada e, a partir daí, desenvolver a técnica de regressão logística multinomial. Devido ao critério de demonstração e interesse metodológico, esta pesquisa não abordará a modelagem logística multinomial. Para obter mais detalhes sobre seu desenvolvimento, consulte Capítulo 13 de (FÁVERO; BELFIORE, 2017). Devido à importância do modelo de regressão logística binária na aplicação dos estudos das probabilidades de ocorrência de um evento dicotômico de interesse, torna-se necessário focar no desenvolvimento deste estudo para alcançar os objetivos elencados na proposta desta pesquisa. Ao observarmos um modelo de análise de risco de crédito por meio da aplicação da função matemática da regressão logística binária, com um olhar mais categórico sobre os comportamentos das variáveis explicativas pelas quais os tomadores de crédito estão expostos, será possível identificar e compreender as interpretações que corroboram com a determinação classificatória dos perfis em adimplente ou inadimplente de cada agente econômico atuante no mercado de crédito. 23 Função matemática da Regressão Logística Binária 24 3.1 Função matemática da Regressão Logística Biná- ria Para uma demonstração genérica da função matemática da regressão logística binária, será possível utilizar como base a adequação comportamental das variáveis explicativas à modelagem matemática de probabilidade linear múltipla, conforme demonstrada em (SARTORIS, 2003, p. 252), que possui a seguinte expressão: Yi = β0 + β1X1i + β2X2i + · · · + βkXki + ϵi (3.1) Em que ϵi é a variável aleatória distribuída independentemente com média 0 e o conjunto de variáveis Xi = {X1i, X2i, X3i, . . . , Xki}, sendo as variáveis explicativas in- dependentes discriminantes (métricas ou dummies), estão associadas à i-ésima variável dependente Yi, quando i = 1, . . . , n, βj = (β0, β1, β2, . . . , βk) e j = 1, 2, 3, . . . , k, com um conjunto de vetores de parâmetros desconhecidos associados a cada variável independente Xi. A variável dependente Yi é uma variável observável composta por valores 0 e 1. Ao supor que a variável resposta tem uma distribuição de Bernoulli para Yi = 1 ou Yi = 0, a definição da função probabilidade para cada valor individual Yi pode ser representada da seguinte forma: • Yi = 1 −→ Probabilidade P (Y1 = 1) = Pi. • Yi = 0 −→ Probabilidade P (Y1 = 1) = 1 − Pi. Como Pi é a probabilidade de ocorrência gerada por uma combinação linear Pi = f(Yi) dos pesos das entradas de Xki na análise discriminante linear, a análise dos valores médios ou resultados esperados de E(ϵi), torna-se fundamental para alcançar a média ponderada dos possíveis resultados dos erros ϵi. Por sua vez, para alcançar a média da variável dependente Yi, é necessário encontrar E(Yi). Sartoris (2003) e Fávero e Belfiore (2017) salientam que o valor esperado da variável resposta E(ϵi) = 0, para E(Yi) = Pi. Assim, E(εi) = (1 − β0 − β1X1i + β2X2i + . . . + βkXki) Pi + (−β0 − β1X1i + β2X2i + . . . + βkXki) (1 − Pi) = 0 (3.2) e E(ϵ) = 0 (erros têm média zero), E(Yi) = 1 ((Pi) + 0 (1 − P )) = Pi. (3.3) Tanto a expressão (3.3) quanto a expressão (3.2) implicam que, nesta representação, o resultado esperado dado pela função resposta representa a probabilidade da variável resposta assumir o valor 1. Em outras palavras, a regressão logística segue o modelo Função matemática da Regressão Logística Binária 25 de regressão linear, estabelecendo restrições na função resposta para que os valores da função Yi se restrinjam entre 0 e 1 quando tendem ao infinito. Como exemplo ilustrativo, podemos observar que: • Quando Xki → +∞, Pi(Yi = 1) → 1, • Quando Xki → −∞, Pi(Yi = 1) → 0. Ou seja, 0 ⩽ E(Yi) = Pi ⩽ 1. Tanto Pi quanto E(Yi) estão entre zero e 1. Ao consi- derarmos os valores esperados de cada observação da variável dependente Yi observamos que: Pi =  β0 + β1X1i + · · · + βkXki, quando 0 < β0 + β1X1i + β2X2i + · · · + βkXki < 1 1 quando β0 + β1X1i + β2X2i + · · · + βkXki ⩾ 1 0 quando β0 + β1X1i + β2X2i + · · · + βkXki ⩽ 0 desde que a covariância Cov(ϵi) = 0 e que cada variável independente Xki não esteja correlacionada com a combinação linear das demais variáveis. Assim, Yi = 1 se Prob(Yi = 1) = P1, adimplente 0 se Prob(Yi = 0) = 1 − P1, inadimplente Para o caso da regressão logística binária acumulada, considera-se que a variável Yi assume valores no intervalo de −∞ a +∞, pois é a partir desse intervalo que se torna possível encontrar a probabilidade de ocorrência de um evento Pi em função do logito Yi. Isso permite concluir que a função f(Yi) é uma função logística com probabilidade esti- mada da ocorrência de um evento, apresentada na forma dicotômica para uma observação i dada por Pi = f(Yi). De acordo com Pyndick e Rubinfeld (2004), usualmente, o modelo logit se baseia na função de probabilidade logística acumulada com a aplicação do logaritmo natural (Logit) da chance na expressão da probabilidade do evento estudado Pi = f(Yi) = 1 1 + e−Yi . Para estimar o modelo da equação (3.1) segue que: (1 + e−Yi)Pi = 1. Dividindo por Pi e subtraindo 1 temos e−Yi = 1 Pi − 1 Função matemática da Regressão Logística Binária 26 ou seja, eYi = Pi 1 − Pi (3.4) Aplicando o logaritmo em ambos os membros da equação segue que Yi = ln Pi 1 − Pi E assim, ln Pi 1 − Pi = β0 + β1X1i + β2X2i + · · · + βkXki Resolvendo agora a equação (3.4) em termos de Pi temos que Pi = (1 − Pi)eYi = eYi − Pie Yi Assim, Pi + Pie Yi = eYi Pi(1 + eYi) = eYi Pi = eYi 1 + eYi = 1 1 + eYi eYi Ou seja, Pi = 1 1 + e−Yi . Para Pyndick e Rubinfeld (2004), a função Logística (Logit) segue a equação: Pi = f(Yi) = f(β0 + β1X1i + β2X2i + · · · + βkXki) = eYi 1 + eYi . E assim, Pi = 1 1 + e−(β0+β1X1i+β2X2i+···+βkXki) . Ao aplicar o logaritmo natural de ambos os lados obtemos: Pi = f(+∞) = 1 1 + e−(+∞) = 1 e Pi = f(−∞) = 1 1 + e−(−∞) = 0, uma vez que, Pi’s são probabilidades da função de transferência convertida em Yi. Assim, lim Yi→−∞ f(Yi) = lim Yi→−∞ 1 1 + e−Yi = 0 e lim Yi→∞ f(Yi) = lim Yi→∞ 1 1 + e−Yi = 1. Desse modo, a função geradora da regressão logística binária, ou função sigmoide assume Estimação do modelo de Regressão Logística Binária 27 uma representação igual a representada na Figura 3.1. Figura 3.1: Curva da regressão logística. Fonte: Elaborada pelo autor. De acordo com Fávero e Belfiore (2017) o que a regressão logística binária estima não são os valores previstos da variável dependente, mas a probabilidade de ocorrência do evento em estudo para cada observação. 3.2 Estimação do modelo de Regressão Logística Bi- nária Para Pyndick e Rubinfeld (2004, p. 379), no estudo da regressão logística para obser- vações individuais de variáveis dicotômicas e binárias, que aborda preferências de escolhas, a técnica de estimação mais adequada é a de máxima verossimilhança, pois, além de sua composição, também possui propriedades estatísticas desejáveis. Segundo eles, todos os estimadores de parâmetros são consistentes e eficientes assintoticamente, o que permite aplicar a regressão quanto o teste de estimação por máxima verossimilhança. Nesse caso, para estimar os parâmetros do modelo de regressão logística, será neces- sário utilizar o seguinte modelo: Pi = f(Yi) = 1 1 + e−(β0+β1X1i+β2X2i+···+βkXki) . Pyndick e Rubinfeld (2004, p. 379) salientam que, como Pi é a probabilidade de um indivíduo fazer uma certa escolha, dado Xki e f(Yi) é a função de probabilidade logística acumulada. Se o teste da razão da verossimilhança permite observar Pi a fim de obter informações para estabelecer escolhas, então esta técnica é considerada a mais importante para o modelo ajustado dos dados, uma vez que mede a qualidade do ajuste do modelo Estimação do modelo de Regressão Logística Binária 28 de Regressão Logística Binária. No entanto, ela é utilizada para avaliar a qualidade da variável resposta. Brocco (2006) avalia que, após ajustar o modelo a um conjunto de dados, é natural questionar qual a diferença entre os valores ajustados da variável resposta Yi na razão dos modelos e os valores observados (saturados). Se a diferença entre as observações e os correspondentes valores ajustados for pequena, então o modelo é aceito. Caso contrário, a forma corrente do modelo não será aceita e este precisará ser revisado. Uma maneira de medir a discrepância entre a probabilidade de sucesso observada Yi e a probabilidade ajustada Ŷ pelo modelo assumido é através da função de verossimilhança, pois esta resume a informação que os dados fornecem sobre um parâmetro desconhecido em um dado modelo. Batista (2015) salienta que, para medir volumes grandes de amostras, será necessário considerar que a diferença entre as estatísticas de dois modelos de log-verossimilhança, designada como razão de verossimilhança, tende a revelar uma aproximação à distribuição assintótica do χ-quadrado, com n − k graus de liberdade, onde n representa o número de observações e k o número de parâmetros do modelo corrente. No caso dos dados binários, onde ni = 1, i = 1, . . . , n, o desvio denominado taxa de verossimilhança L depende apenas das probabilidades de sucesso ajustadas à variável resposta Yi. Para Batista (2015), a função de máxima verossimilhança na regressão logística será: L(β0, . . . , βk) = n∏ i=1 [ P Yi i (1 − Pi)1−Yi ] = n∏ i=1 ( eYi 1 + eYi )Yi ( 1 1 + e−Yi )1−Yi  . De acordo com Brocco (2006), o logaritmo da função de verossimilhança maximizado considerando o modelo corrente é dado por: ln L0 = n∏ i=1 [Yi ln Pi + (1 − Yi) ln(1 − Pi)] . Para o modelo completo, Pi − Yi. Como Yi ln Yi e (1 − Yi) ln(1 − Pi) são ambos nulos para os únicos dois possíveis valores de Yi, situados no intervalo [0, 1]. Logo, ln Linicial = 0. Dessa forma, a taxa de verossimilhança (L) para dados binários será: L = −2 n∑ i=1 (Pi ln Yi + ln(1 − Yi)) . Segue que, ln L = n∑ i=1 ln Pi + n∑ i=ni+1 ln (1 − Pi) Pyndick e Rubinfeld (2004, p. 380) apontam que para obter as estimações dos parâme- tros de inclinação β̂0, . . . , β̂k, serão necessários diferenciar ln L em relação a β0, . . . , βk Estimação do modelo de Regressão Logística Binária 29 igualando os resultados a zero, ou seja, ∂(ln L) ∂β0 = n∑ i=1 1 Pi ∂Pi ∂β0 − ni∑ i=ni+1 ( 1 1 − Pi ) ∂Pi ∂β0 = 0 ... ∂(ln L) ∂βk = n∑ i=1 1 Pi ∂Pi ∂βk − ni∑ i=ni+1 ( 1 1 − Pi ) ∂Pi ∂βk = 0 L é a função da verossimilhança ou da probabilidade, e ln é o logito dos parâmetros que fazem com que os valores da expressão de verossimilhança sejam maximizados. L(0) é o valor da verossimilhança do modelo ajustado, ou seja, é o valor inicial da função de verossimilhança. L(máx) é o valor da verossimilhança do modelo saturado, ou o valor mais alto da função de máxima verossimilhança. A estimação da função de verossimilhança L para n variáveis binárias como função dos parâmetros (β) será determinada de acordo com: ln L = [ −2 ln L(0) ln L(máx) ] = −2 [ ln L(0) − ln L(máx) ] De acordo com Pyndick e Rubinfeld (2004, p. 380), a técnica de estimação por má- xima verossimilhança possui uma série de propriedades estatísticas desejáveis. Segundo eles, todos os estimadores de parâmetros são consistentes e eficientes assintoticamente. Além disso, como se sabe que todos os estimadores de parâmetros são normais (assinto- ticamente), eles podem ser aplicados a testes análogos aos testes t de regressão utilizados para determinar o nível de significância para a precisão de classificação (HAIR JR et al., 2009). Caso desejemos testar a significância de todos os coeficientes ou de um conjunto deles nos modelos logit e probit quando a estimação por máxima verossimilhança é usada, podemos aplicar o teste da razão de verossimilhança. Assim, obtemos a função log-verossimilhança: ln L = {[ (Yi). ln ( eYi 1 + eYi )] + [ (1 − Yi). ln ( 1 1 + e−Yi )]} gerando a função de máxima verossimilhança: L = n∏ i=1 {[ (Yi). ln ( eYi 1 + eYi )] + [ (1 − Yi). ln ( 1 1 + e−Yi )]} . Pyndick e Rubinfeld (2004) ponderam também que o número de graus de liberdade considerados no teste da razão máxima de verossimilhança (ou teste da razão de verossi- Teste da máxima verossimilhança na Regressão Logística Binária 30 milhança) é dado por: ln L = −2 ln L(0) L(máx) 3.3 Teste da máxima verossimilhança na Regressão Logística Binária O teste da máxima verossimilhança (ln L) é obtido pela somatória de ln da função Yi onde Yi = ( eYi 1 + eYi ) = expβ0+β1X1i+β2X2i+···+βkXki 1 + expβ0+β1X1i+β2X2i+···+βkXki , e ao mesmo tempo, com a aplicação do logaritmo natural da função verossimilhança em ambos os membros da equação, chega-se à seguinte equação: ln L = (β0, β1, β2, . . . , βk) = n∏ i=1 [[ (Yi) · ln ( eYi 1 + eYi )] + [ (1 − Yi) · ln ( 1 1 + e−Yi )]] . Neste caso, a função de verossimilhança será máxima quando os parâmetros (β0, β1, β2, . . . , βk) forem estimados com base na função-objetivo. Isto é aplicado quando se deseja maximizar a equação da verossimilhança. 3.4 Níveis de significância estatística geral do modelo e dos parâmetros De acordo com Fávero e Belfiore (2017), em modelos de regressão logística não há um coeficiente de ajuste R2 como nos modelos tradicionais de regressão estimados pelo método de mínimos quadrados ordinários. Muitos pesquisadores apresentam em seus trabalhos um coeficiente conhecido como pseudo R2 de McFadden, cuja expressão é dada por: pseudo R2 = [ ln L(0) − (−2ln L(max)) −2 ln L(0) ] Sua utilidade é bastante limitada e restringe-se a casos em que o pesquisador tem interesse em comparar dois ou mais modelos distintos. Um dos critérios existentes para a escolha do modelo é o critério de maior pseudo R2 de McFadden, frequentemente utilizado para medir a qualidade do ajuste dos modelos estimados. Batista (2015) demonstra que a função de verossimilhança é igual à razão entre o mo- delo ajustado L(0), que representa o máximo da verossimilhança ajustada, e o modelo de máxima verossimilhança saturado L(max). Essa relação deve conter tanto os parâmetros βj quanto observações com grau de liberdade gl para o teste χ-quadrado (χ2). O modelo maior, representado por L(max), é designado como modelo completo, enquanto o modelo Teste de Wald na modelagem da Regressão Logística Binária 31 menor ou reduzido, L(0), é obtido igualando a zero os parâmetros βj do modelo completo. Assim, na hipótese nula H0 a ser testada, os parâmetros βj do modelo completo serão iguais a zero, e o modelo completo, que mantém os valores dos seus coeficientes, represen- tará a hipótese alternativa H1. Para representar as taxas de variação da verossimilhança, será utilizado o teste de aderência χ-quadrado sob a hipótese nula de que todos os coefi- cientes são iguais a zero, o que leva à rejeição da hipótese nula e à interpretação de que ao menos um dos coeficientes seja estatisticamente diferente de zero. { H0 : β1, β2, ..., βj = 0 H1 : Existe pelo menos um βj ̸= 0 } Para βj = (β0, β1, β2, ..., βk) e j = 1, 2, 3, ..., k Ao ajustar os parâmetros da verossimilhança na forma dicotômica e não observar o termo de erro para cada observação, Fávero e Belfiore (2017) salientam que é necessário adotar o uso da função de verossimilhança. A partir desse ponto, elabora-se a estimação da máxima verossimilhança. 3.5 Teste de Wald na modelagem da Regressão Lo- gística Binária De acordo com Brocco (2006), o erro padrão (denotado por s.e.) depende das observa- ções binárias Yi obtidas através das probabilidades ajustadas Pi, as quais, por sua vez, não refletem a discrepância entre as probabilidades observadas e suas correspondentes proba- bilidades ajustadas. Como o erro padrão não deve ser usado como medida de qualidade de ajuste para modelos ajustados a respostas binárias, utiliza-se apenas a diferença dos desvios para comparar os modelos. Essa diferença é utilizada, por exemplo, pelo método de seleção de modelos na escolha do melhor modelo. Costa (1997) argumenta que outra maneira de realizar inferência sobre os parâmetros é por meio do teste estatístico Wald, o qual normalmente é realizado quando há apenas um parâmetro inicialmente testado. De acordo com Fávero e Belfiore (2017), para uma análise mais precisa do modelo, será necessário avaliar cada um dos parâmetros do modelo de regressão logística binária. Neste sentido, a estatística Z de Wald tem a função de fornecer significância estatística para cada parâmetro a ser considerado no modelo. A denominação Z se refere ao fato de que a distribuição desta estatística é a distribuição normal padrão. Batista (2015) e Costa (1997), observam que o teste estatístico Wald é determinado pela razão entre os coeficien- tes estimados de interesse β̂i e seu erro padrão se(β̂i). Para grandes amostras, esse teste estatístico apresenta aproximadamente uma distribuição normal padrão N(0, 1). Ŷi = 1 se P (Ŷi = 1) = Pi 0 se P (Ŷi = 0) = 1 − Pi. Teste de Wald na modelagem da Regressão Logística Binária 32 O valor esperado da variável aleatória de Bernoulli X, pela distribuição binomial com n = 1, possui a seguinte característica: E(Yi) = Pi V ar(Yi) = P (1 − Pi) Yi = 1 se P (Yi = 1) = Pi → adimplente 0 se P (Yi = 0) = 1 − Pi → inadimplente. Wj = β̂j s.e.(β̂j) O teste de Wald possui uma distribuição χ-quadrado e é calculado pela relação entre a estimativa de máxima verossimilhança do parâmetro (β̂j) e a estimativa do seu erro padrão. Portanto, testa a hipótese de que um determinado coeficiente é nulo, seguindo uma distribuição χ-quadrado. Quando a variável dependente possui um único grau de liberdade, a razão entre o coeficiente que está sendo testado e o seu erro padrão pode ser elevada ao quadrado, uma vez que esse teste possui uma distribuição normal padrão N(0, 1) em amostras grandes, conforme observado por (FÁVERO; BELFIORE, 2017). Segundo Batista (2015) é importante observar que a aplicação do teste de Wald se torna relevante nas operações da Regressão Logística, uma vez que fornece significância estatística para cada parâmetro da função no modelo observado. O autor também destaca que a estatística de Wald deve considerar a distribuição normal padrão. A estatística Yi de Wald será aplicada para testar as hipóteses de β0 e para cada βj (j = 1, 2, ..., k), comparando a estimativa de máxima verossimilhança do parâmetro βj com a estimativa do seu erro padrão. Sob a hipótese nula H0 : βj = 0, a razão resultante segue uma distribuição normal padrão. Como veremos a seguir, os testes de hipóteses para j = 1, 2, ..., k são os seguintes: H0 : β0 = 0 H0 : βj = 0 H1 : β0 ̸= 0 H1 : βj ̸= 0 Moura (2018) enfatiza que Wj = β̂j s.e. ( β̂j ) , onde os coeficientes (β̂j) estimados são divididos pelos seus respectivos erros padrões. Dessa forma, o teste de Wald (Wj) repre- senta a razão de cada parâmetro (β̂j) em relação ao seu erro padrão. Ao aplicar este teste, é possível verificar se cada variável independente apresenta uma relação estatisticamente significativa com a variável dependente. Sob a hipótese nula, (Wj) segue uma distribuição Teste de Wald na modelagem da Regressão Logística Binária 33 normal padrão. As notações utilizadas são as seguintes: • ŝ.e. é o erro padrão da estimativa de máxima verossimilhança; • β̂0 é o parâmetro estimado com intervalo de confiança dado por β̂0 ± Z1− α 2 ŝ.e. ( β̂0 ) . • β̂j, j = 1, . . . k são estimadores dos coeficientes da regressão com intervalo de confi- ança dado por β̂j ± Z1− α 2 ŝ.e. ( β̂j ) De acordo com Hosmer e Lemeshow (2004), os pontos finais do intervalo de confiança baseado em Wald quando Z1− α 2 for superior a 100 ( 1 − α 2 ) %, denota-se a cauda superior onde é o ponto superior da distribuição normal padrão e denota um estimador baseado em modelo do erro padrão do respectivo estimador de parâmetro e os pontos finais de um intervalo de confiança de 95 são obtidos a partir dos respectivos pontos finais do intervalo de confiança para o logit. Para os valores Ŷi (Y estimado), temos: Ŷ =  e Yi±Z1− α 2 (ŝe)Yi 1 + e Yi±Z1− α 2 (ŝe)Yi  Costa (1997) analisa que a estatística do teste Wald para regressão logística proporci- ona a capacidade de identificar se uma determinada variável independente apresenta uma relação estatisticamente significativa com a variável dependente. Por possuir uma funci- onalidade aceitável, torna-se fundamentalmente importante na avaliação abrangente da regressão logística, uma vez que permite medir o grau de significância de cada coeficiente em uma equação binária. Assim, o respectivo erro padrão é composto pela distribuição normal padrão e pelas estimativas do seu erro padrão. Fávero e Belfiore (2017) ressaltam que após a obtenção das estatísticas z de Wald, é possível recorrer à tabela de distribuição da curva normal padrão para obter os valores críticos de um determinado nível de significância, o que permite verificar se os testes rejeitam ou não a hipótese nula. No presente caso, considera- se um nível de significância de 5%, onde zc = −1, 96 para a cauda inferior (probabilidade de cauda inferior a 0,025 em uma distribuição bicaudal) e zc = 1, 96 para a cauda superior (probabilidade de cauda superior também de 0,025 em uma distribuição bicaudal). Field (2009) destaca que esses testes são empregados para comparar os escores de uma amostra com uma distribuição normal, considerando um modelo com a mesma média e as variâncias dos valores encontrados na amostra. Caso o Teste de Hipótese não seja significativo, ou seja, H0 : βj = 0, e o valor de p seja maior que 0, 05, pode-se concluir que os dados da amostra não diferem significativamente de uma distribuição normal. Em contrapartida, se o Teste de Hipótese for significativo com H1 : βj ̸= 0 e p-valor menor Construção dos Intervalos de confiança dos parâmetros do modelo de Regressão . . . 34 que 0, 05, conclui-se que a distribuição encontrada é significativamente diferente de uma distribuição normal, ou seja, os dados são normalmente distribuídos. 3.6 Construção dos Intervalos de confiança dos parâ- metros do modelo de Regressão Logística Binária De acordo com Fávero e Belfiore (2017), assim como Hosmer e Lemeshow (2004), os intervalos de confiança para os coeficientes da expressão Pi = 1 1 + e−(β0+β1X1+β2X2i+···+βkXki) , para os parâmetros β0 e para cada βj, j = 1, 2, ..., k, ao nível de confiança de 95%, podem ser expressos da seguinte forma: β0 ± 1, 96[s.e.(β0)], e βj ± 1, 96[s.e.(βj)]. O valor 1,96 é correspondente ao zc para um nível de confiança de 95%, com um nível de confiança de 5%. Com isso, é possível calcular os coeficientes estimados dos parâmetros na expressão de probabilidade de ocorrência do evento de interesse, juntamente com os seus respectivos erros padrão, estatísticas z de Wald e intervalos de confiança com um nível de significância de 5%. 3.7 Avaliação da Modelagem de Regressão Logística Binária Segundo Batista (2015), a avaliação do modelo logístico permite identificar a qualidade de aderência dos valores produzidos pelo modelo (valores estimados). Essa avaliação é realizada por meio de diversas estatísticas, cuja escolha dependerá daquela que melhor ajuste os valores estimados aos valores observados. Portanto, ele estabelece a comparação entre os valores estimados e os valores observados obtidos através da variância total entre os valores observados e o valor médio das observações. Assim: Variância total = n∑ i=1 (Yi − Y )2, onde: Yi são os valores observados e Y é o valor médio das observações. Avaliação da Modelagem de Regressão Logística Binária 35 De acordo com Batista (2015), o coeficiente de determinação R2 é determinado pela razão da variância explicada em relação à variância total nas análises da regressão logística. Portanto, essa determinação requer cuidados especiais em suas apurações. Para ele, uma vez que a avaliação do modelo logístico consiste em verificar a qualidade de aderência dos valores produzidos pelo modelo (valores estimados) através da sua similaridade com os valores observados, nem todos os dados da regressão logística tendem a explicar sua totalidade. Assim, essa relação deve ser calculada pelas diferenças ao quadrado entre os valores observados Yi e os valores estimados Ŷi. Por outro lado, para se obter a variância explicada, é necessário realizar a diferença entre a variância estimada Yi pela média das variâncias observadas Y ao quadrado. Isso ocorre porque no modelo estatístico não é possível explicar a totalidade dos valores ob- servados, devido ao surgimento de erros ou resíduos, que são inerentes a uma estimativa. Como demonstrado por Batista (2015), pode-se verificar que a variância não explicada é dada por n∑ i=1 ( Yi − Ŷi )2 , e de maneira similar, a variância explicada é calculada como n∑ i=1 ( Ŷ − Y )2 . Assim, é possível concluir que a variância total é igual à variância expli- cada somada à variância não explicada, e consequentemente, o coeficiente de determinação R2 é determinado pela razão da variância explicada em relação à variância total, como observado a seguir. Para obter uma medida de qualidade de ajustamento análoga ao R2, existem várias opções. Uma delas é calcular 1 − L(0) L(máx) , onde é considerado que L(0) é o valor inicial da função de verossimilhança e L(máx) é seu valor máximo. Uma segunda opção é calcular os resíduos ε̂i = Yi − P̂i. Esses resíduos serão todos positivos para aqueles que escolhem a primeira opção e negativos em caso contrário. Além disso, eles diminuirão em valor absoluto à medida que o modelo melhor explicar as escolhas feitas. Para tais resíduos, é fácil calcular um teste análogo ao R2, ou seja, a Soma dos Qua- drados dos Resíduos (SQR) e a Soma dos Quadrados Total (SQT), calculando a relação entre a variância explicada e a variância total, conforme veremos a seguir: SQR = n∑ i=1 (ε̂i)2 = Variância não explicada, SQT = n∑ i=1 (Yi − Y )2 = Variância Total. Assim, o coeficiente de determinação R̂2 da regressão é definido como: R̂2 = SQE SQT = 1 − SQR SQT Uma vez que R2 é a razão entre a variação explicada e a variação total, ele é interpre- tado como a fração da variação amostral em Yi que é explicada pela variável aleatória Xi. Função da curva ROC na modelagem da Regressão Logística Binária 36 O coeficiente R2 mede quão bem a reta de regressão do método dos mínimos quadrados se ajusta aos dados. O valor de R2 sempre está entre zero e um. Um valor de R2 igual a 0 indica um ajuste inadequado da reta de regressão dos mínimos quadrados. 3.8 Função da curva ROC na modelagem da Regres- são Logística Binária Uma das ferramentas utilizadas para representar o comportamento dos tomadores de crédito é a curva ROC, pois é por meio dela que a representação da classificação da Regressão Logística Binária proporciona uma análise mais criteriosa da classificação de risco de crédito. Isso ocorre porque indica a área que o nível de adimplência ou inadimplência ocupa no espaço do plano cartesiano. De acordo com Batista (2015), a curva ROC é uma forma de representação gráfica composta por pontos cujas abscissas são as especificidades, e as ordenadas as sensibilidades, que neste caso representam as medidas de probabilidades variando entre 0 e 1. Batista (2015) e Brocco (2006) reforçam a importância da existência das duas métricas para avaliar a capacidade preditiva de um modelo de Regressão Logística Binária nas análises de risco de crédito. No entanto, eles consideram que a análise de seus comportamentos tende a indicar as porcentagens de acerto ou erro em relação ao que o modelo previu e ao que foi observado. Na análise de risco de crédito, é possível identificar o ponto de corte “cut-off” que permite separar os adimplentes dos inadimplentes. Esse ponto de corte é denominado de ponto de equilíbrio entre os dois comportamentos, pois em sua representação gráfica estabelece a área em torno do ponto 0,5. Crespi Jr, Perera e Kerr (2017) destacam que ao considerar Yi como o score discriminante para cada candidato a crédito no intervalo de [0, 1], e ao identificar que a pontuação do candidato a crédito está acima de 0,5 na curva ROC, o candidato a crédito será aceito. Do mesmo modo, se a pontuação estiver abaixo de 0,5 pontos, o candidato a crédito será recusado. Para eles, a escolha do ponto de corte na concessão de crédito ao consumidor é influenciada pelas medições dos resultados de um sistema classificador binário para diferentes pontos de corte, que por sua vez é muito utilizado para medir a sensibilidade de um modelo ou técnica para avaliação de análise de risco de crédito. Moura (2018) destaca ainda que a curva ROC é uma das técnicas mais utilizadas para identificar o desempenho da Regressão Logística. Da mesma forma, Hosmer e Lemeshow (2004, p. 162) destacam que a regra geral para avaliar os resultados da área ocupada no plano cartesiano sob a curva ROC de modelos de risco de crédito é determinada pelas seguintes métricas: Se a área AROC = 0,5: cut-off denominado área AROC ou ponto de equilíbrio da curva ROC. Se 0,5 < área AROC < 0,7: baixa discriminação. Função da curva ROC na modelagem da Regressão Logística Binária 37 Se 0, 7 ⩽ área AROC < 0,8: discriminação aceitável. Se 0, 8 ⩽ área AROC < 0,9: discriminação excelente. Se área AROC ⩾ 0, 9: discriminação excepcional. Hosmer e Lemeshow (2004, p. 162) salientam que ... na prática, é extremamente incomum observar a área sob a curva ROC com indicadores de área acima de 0,9, ou seja, acima de 90%, pois quando há separação completa, é impossível estimar os coeficientes de um modelo de regressão logística. No entanto, para viabilizar as análises das amostras, seria necessária uma separação quase completa para que a área sob a curva ROC fosse maior do que 90%. A área sob a curva AROC é denominada de medida de qualidade do classificador, pois a partir daí, quanto maior for a área, melhor será o desempenho do classificador Oliveira (2015). Figura 3.2: Área sob a Curva ROC. Fonte: (RAMIREZ; PETTERINI, 2017). Ao analisar a curva ROC, observa-se que o ponto de corte moderado (cut-off) indica o equilíbrio entre sensibilidade e especificidade na área representada pelo par ordenado (0,5;0,5). Nesse caso, a concessão de crédito levará em consideração o estágio comporta- mental do grau de risco que o tomador de crédito apresentará. Ao analisar os indicadores, os fornecedores de crédito verificam a situação posicional gráfica dos indicadores apre- sentados. As decisões de conceder crédito ou não serão tomadas ao propor os seguintes dilemas: quanto mais distante a área na representação gráfica estiver do ponto de equi- líbrio, maior será a propensão a conceder crédito a todos os tomadores. Isso leva em consideração a classificação dos pontos na curva ROC até o limite da área no ponto (1;1). Da mesma forma, qualquer ponto abaixo do ponto de equilíbrio da área na curva ROC Análises da área sob a curva ROC 38 resultará em uma restrição de crédito regressiva, até o limite de não conceder crédito a nenhum tomador no ponto da área (0;0). 3.9 Análises da área sob a curva ROC De acordo com Moura (2018), a representação gráfica na curva ROC da especificidade e sensibilidade tem como característica indicar a taxa de adimplência que cada tomador de crédito apresenta na avaliação do modelo, levando em consideração os diferentes pontos de cortes. Para ela, a sensibilidade mede a capacidade que o modelo tem de classificar quando um tomador de crédito adimplente é realmente adimplente. Por outro lado, a especificidade tem a capacidade de classificar se o tomador de crédito é adimplente quando realmente for adimplente. Para Vaz (2009), os estudos de tese importantes que proporcionam obter medidas de desempenho sob o teste de investigação, considerando os valores preditos de sensibilidade e especificidade, serão necessários usar os resultados de testes de diagnóstico das variáveis aleatórias, supondo somente valores (0 ou 1). Neste caso, e adaptando para o nosso modelo, a probabilidade (Pi) de um tomador de crédito ser inadimplente é definida pela proporção de tomadores de crédito inadimplentes observados no modelo. Na Tabela 3.1 serão demonstrados os possíveis resultados de um teste diagnóstico proposto por (VAZ, 2009), denominado como classificação teste padrão ouro. Para ela, este teste também é chamado de teste de referência, justamente porque engloba todos os procedimentos auferidos no modelo. No caso da pesquisa em questão, será adaptado para identificar se um tomador de crédito é adimplente ou se é inadimplente. Tabela 3.1: Tabela de classificação. Padrão ouro Adimplente Inadimplente Total Teste Adimplente VA FA VA+FA Teste Inadimplente FI VI FI+VI Total VA+FI FA+VI VA+FA+FA+VI Fonte: Adaptado pelo autor a partir da Figura 2.1 de Vaz (2009, p. 8). sendo: VA = Verdadeiro Adimplente. FA = Falso Adimplente. FI = Falso Inadimplente. VI = Verdadeiro Inadimplente. Para determinar o valor das FPR (false positive rate) e TPR (true positive rate) Análises da área sob a curva ROC 39 TPR = Sensibilidade (Taxa de Verdadeiro Adimplente) = 1 FPR = 1- Especificidade (Taxa de Falso Adimplente) Para encontrar a sensibilidade para avaliar a capacidade de detectar inadimplentes, é necessário supor que Sensibilidade = V A V A + FI ou 1 − V A V A + FI e a Especificidade = FA FA + V I e seu complemento é dado por: 1 − FA FA + V I , ou 1 − Especificidade para ocaso individualizado na amostra. A partir de então é que se determina a acurácia para adimplente, para inadimplente e para o total da amostra. 3.9.1 Análise do Score para crédito à pessoa física através da análise da Regressão Logística binária O Boletim do Banco Central (BRASIL, 2021) apresenta detalhes da regulamentação da Lei nº 12.414/2011, que estabelece a implantação do projeto de lei do cadastro po- sitivo. Esta lei tem como propósito reduzir o spread de crédito, baratear os custos dos empréstimos e alavancar o crescimento da indústria de crédito no mercado financeiro e creditício. Observa-se que esta lei leva em consideração a importância da regulamenta- ção da disponibilidade de dados dos credores para auferir as classificações dos riscos de adimplência e/ou inadimplência por parte de cada tomador de crédito. Por isso, o desafio das instituições credoras está diretamente relacionado com a utilização de metodologias eficientes e transparentes para promover as apurações dos indicadores de risco de crédito de forma equitativa. O que se pode dizer é que, através da Lei do Cadastro Positivo, surge a expectativa de uma evolução nas análises das notas de crédito de cada tomador, para atender a uma parcela da população (classificada como demanda reprimida corres- pondente a 60% dos brasileiros que pertencem às classes C, D e E), como identificado no período da implantação dessa lei. Ainda de acordo com o Boletim do Banco Central (BRASIL, 2021), o cadastro positivo é um banco de dados que reúne o histórico de pagamentos e obrigações de pagamento em andamento, tanto de pessoas físicas quanto de jurídicas, registrados no Sistema Financeiro Nacional. Essas informações são utilizadas para disponibilização do histórico de crédito, mediante a autorização do tomador, motivando a formação da nota de crédito (score) para permitir que a análise de concessão ou extensão de crédito, ou outras transações Análises da área sob a curva ROC 40 com risco financeiro, sejam feitas de forma mais precisa e segura. Essa exposição tende a gerar expectativas de redução das taxas do spread de crédito, culminando na queda das taxas de juros cobradas nos empréstimos e financiamentos para consumidores e empresas. Com a evolução das tecnologias da informação, a estabilidade econômica e financeira e o alto grau de competitividade do mercado financeiro e de crédito, surge a necessidade de proporcionar uma dinâmica equitativa no mercado de crédito brasileiro. Neste caso, a saída foi proporcionar o surgimento da proposta do Cadastro Positivo para modernizar e democratizar o fornecimento de crédito, como forma de aumentar a concorrência no Sis- tema Financeiro Nacional. A base primordial dessa lei é fornecer benefícios que permitem às empresas creditícias proporcionar mais segurança às pessoas físicas ou jurídicas que concedem e tomam créditos ou realizam operações comerciais a prazo ou não. O Banco Central do Brasil, por ser um órgão que regulamenta as operações financeiras e creditícias no Brasil, atribuiu a responsabilidade pela gestão do Cadastro Positivo às Gestoras de Banco de Dados, classificadas como (GBDs), denominadas agências como: Boa Vista Serviços S.A, Confederação Nacional de Dirigentes Lojistas (CNDL - SPC Bra- sil), Gestora de Inteligência de Crédito S.A. (Quod), Serasa S.A e Trans Union Brasil Sistemas em Informática Ltda. Essas agências têm como função administrar as cartei- ras de tomadores de créditos com o objetivo de promover a inclusão de informações no Cadastro Positivo, tanto oriundas de pessoas físicas quanto de pessoas jurídicas. No Brasil, as informações obtidas em relação aos contratos de crédito são fornecidas pelo processamento de dados do Banco Central e disponibilizadas mensalmente ao Sistema de Informações de Créditos (SCR), e em seguida transferidas aos (GBDs). Estas agências apuram e divulgam mensalmente os scores de adimplência e/ou inadimplência de cada tomador de crédito, a partir da modelagem matemática, estatística e econométrica das seguintes variáveis qualitativas e quantitativas: pagamentos de serviços como contas de água, luz, gás e telefone dentro do prazo de vencimento, histórico de dados cadastrais, histórico de compras a prazo, financiamento e empréstimos, portador de cartão de crédito e correntista de instituições bancárias. A nota de grau de risco (score de crédito) de cada tomador de crédito apurada deverá proporcionar as tomadas de decisões por parte dos credores na questão de oferta e demanda por crédito no mercado financeiro e creditício. Para GONÇALVES, GOUVÊA e MANTOVANI (2013), além do desenvolvimento do mo- delo de credit scoring, que permite classificar os tomadores de crédito em adimplente e inadimplentes, as instituições financeiras também fundamentam suas decisões nas defi- nições de performances, com análises subjetivas diretamente ligadas às decisões políticas de crédito da própria instituição. O tomador de crédito que honrar em dia seus compro- missos financeiros e creditícios terá facilidade para acessar linhas de crédito em melhores condições. Seguindo a lógica conceitual das propostas da Lei do Cadastro Positivo, surgiu a necessidade de apresentar uma prática como exemplo de pesquisa que, em conformi- dade com as diretrizes das variáveis elencadas no corpo da lei, será de suma importância Aplicação do modelo 41 para entender a viabilidade da aplicação da metodologia matemática e econométrica da modelagem de Regressão Logística Binária. 3.10 Aplicação do modelo Será apresentado a seguir um exemplo de aplicação envolvendo 49 pessoas tomadores de crédito acima de 18 anos, com perfis mercadológicos, financeiros e sociais diferentes, com o objetivo de compreender a viabilidade da aplicação da modelagem da Regressão Logística Binária. A fundamentação desta análise baseia se na ideia de identificar o perfil de risco de crédito de cada tomador por intermédio das regras e normas da lei do cadastro positivo com aplicação da modelagem de Regressão Logística Binária. Dentro desta lógica, pretendemos identificar as metodologias que permitem classificar em adimplentes e/ou inadimplentes cada análise observada, para proporcionar uma viabilidade de aplicação nas tomadas de decisões quanto ao fornecimento de crédito a pessoa física. Dessa forma, esta pesquisa foi realizada sob as orientações propostas e contidas na Lei do Cadastro Positivo regulamentada pela Lei nº 12.414/2011, e alterada pela Lei Complementar nº 166 (de 8 de abril de 2019). 3.11 Descrição dos dados para apuração dos resulta- dos A amostra consistirá em um conjunto de dados financeiros, bancários e pessoais de uma amostra composta por 49 tomadores de crédito. Eles foram categorizados em ris- cos de adimplência, como uma variável dependente binária, e riscos de inadimplência, também como uma variável dependente binária. As variáveis explicativas independentes contidas na base de pesquisa foram classificadas como qualitativas, categóricas e numéri- cas, totalizando onze variáveis independentes, além de uma variável dependente de saída que informa se o tomador de crédito é adimplente ou inadimplente. Para a aplicação experimental do modelo proposto, foi necessário utilizar o software Solver do Excel, empregando exclusivamente o método de Newton. Além disso, como estratégia comparativa para testar a veracidade dos resultados, utilizamos o Software MedCalc, no qual aplicamos a metodologia "enter"como orientação para o formato de entrada e saída proposto. Também usamos as descrições das variáveis descritivas conforme definidas na Tabela 3.2. Descrição dos dados para apuração dos resultados 42 Tabela 3.2: Descrição das variáveis explicativas de categoria bancária e pessoal dos toma- dores de crédito. Variável Ex- plicativa Descrição da Variável Tipo de Variável Categorias Conta corrente Possui conta corrente Binária 0: não e 1: sim Cartão de cré- dito Possui cartão de crédito Binária 0: não e 1: sim CDC Possui Crédito Direto ao consumidor (CDC) Binária 0: não e 1: sim Empréstimo consignado Possui Crédito Consig- nado em folha de paga- mento Binária 0: não e 1: sim Fonte: Elaborada pelo autor. Descrição dos dados para apuração dos resultados 43 Tabela 3.3: Descrição das variáveis explicativas de categoria bancária e pessoal dos toma- dores de crédito. Variável Ex- plicativa Descrição da Variá- vel Tipo de Variável Número de Ca- tegorias Categorias Renda mensal Remuneração mensal individual Categórica 3 1 : 1≤x < 5 salários-mínimos; 2 : 5≤x < 10 salários-mínimos; 3 : 10≤x < 15 salários-mínimos Emprego fixo Registro com carteira de trabalho ou contrato com vínculo empregatí- cio há mais de um ano Binária 2 1: com re- gistro funcio- nal/funcionário público com comprovante de renda; 0: se autônomo sem registro funcional ou sem contrato tempo- rário, nenhuma comprovação de renda Imóvel resi- dencial Casa própria ou alugada Binária 2 0: aluguel; 1: casa própria. Dependentes quantidade Dependentes (números de filhos menores de 18 anos) Categórica 4 0: nenhum de- pendente; 1 : 1≤x < 3 depen- dentes; 2 : 3≤x < 5 dependentes; 3 : x ≥ 5 depen- dentes. Luz Paga em dia conta de luz residencial Binária 2 0: Não e 1: Sim Água Paga em dia conta de água residencial Binária 2 0: Não e 1: Sim Telefone fixo Paga em dia conta de te- lefone residencial Binária 2 0: Não e 1: Sim Fonte: Elaborada pelo autor. Para a apuração e organização dos dados da pesquisa foi necessário estabelecer parâ- Análises dos resultados da Regressão Logística Binária 44 metros das variáveis qualitativas (categóricas) binárias e nominais. Neste caso, utilizamos para as variáveis na coluna correspondente como sim igual a 1 e na coluna correspondente como não, consideramos igual a 0. Para as variáveis numéricas discretas que identificam o número de dependentes e as quantidades de salários (renda mensal), utilizamos variá- veis numéricas. Para a análise comparativa na questão da renda, utilizamos como base o salário-mínimo nacional vigente desde 1º de maio de 2023, no valor de R$1320,00. 3.12 Análises dos resultados da Regressão Logística Binária Para a comparação entre duas aplicações, foi necessário tabular e organizar inicial- mente os dados em uma planilha eletrônica, considerando as regras estabelecidas para classificar de forma ordenada e por ordem de interesse, em ordem crescente e por grau de importância de cada variável independente (dummy). Após a organização, foi necessário alimentar o software Solver e o software MedCalc para determinar a relevância dos resul- tados das variáveis observadas no modelo. As tabelas geradas encontram-se no Apêndice A (Tabelas A.1 e A.2). A aplicação pelo método solver foi importante pois mostrou de forma clara e objetiva as classificações em tabela das variações desejadas. O mesmo foi gerado de forma sintetizada no método MedCalc, como pode ser observado na Tabela 3.4. Tabela 3.4: Análise da Curva de Regressão Logística - Software MedCalc (Método Enter) Tamanho da amostra 49 100% Scores positivos, tomadores de crédito com probabilidade de adimplentes (Suc-Pred) 33 67,35% Scores negativos, tomadores de crédito com probabilidade de inadimplentes (Fail-Pred ) 16 32,65% Variável dependente Dummy ( Yi) - Adimplente = 1 Inadimplente = 0 Fonte: Elaborada pelo autor a partir da aplicação no software Solver Excel e MedCalc. Na Tabela 3.4 observamos que a aplicação da amostra gerou uma saída tanto pelo método de Newton pelo solver Excel, quanto pelo método enter do software MedCalc, observou-se que os resultados gerados pelos dois modelos das probabilidades de adim- plentes e de inadimplentes foram os mesmos nos dois casos da amostra. Rosa (2000) salienta que a identificação do perfil de cada tomador de crédito pode ser obtida através da realização de regressões dos parâmetros com variáveis categóricas e Análises dos resultados da Regressão Logística Binária 45 binárias, permitindo a localização e identificação do grupo ao qual o tomador de crédito pertence. No caso em questão, ao aplicar a modelagem de regressão logística binária, é possível estabelecer a distinção entre a probabilidade de adimplência, que corresponde a 67,35%, e a probabilidade de inadimplência, que é de 32,65%, apresentada pelo total de tomadores de crédito observados na amostra. A classificação dos resultados pode ser explicada com base em Fávero e Belfiore (2017), que propõem que as duas categorias, por definições metodológicas, podem ser consideradas como eventos de interesse. Ou seja, “adimplente” quando a categoria (DummyY = 1) e não de interesse “inadimplente” quando a categoria (DummyY = 0). A representação da curva de regressão logística binária na Figura 3.3, considerou-se a função inversa Pi = 1 1 + e−(β0+β1X1+β2X2i+...+βkXki) para P (Yi = 1) > 0, 5 e Yi = Pi, ou seja, Yi = 1 e se P (Yi = 1) < 0, 5, então Yi = 1 − Pi, ou seja, Yi = 0. Esta notação será válida para identificar o perfil de cada tomador de crédito. Pela representação obtida, o eixo das ordenadas mede o grau de probabilidade de adimplência e de inadimplência onde formou-se uma representação extrema (superior e inferior). Supondo que somente a variável dependente tem valores 0 e 1, permite esta- belecer uma representação indicando os pares relacionando as abscissa, quando Yi = 1 e Yi = 0. Figura 3.3: Pontos de dispersão desejada da função Logística Binária inversa das proba- bilidades de Adimplência ou inadimplência. Fonte: Elaborada pelo autor a partir da aplicação do sofware Solver-Excel. Esta representação separa os grupos de acordo com seu grau de risco, distinguindo entre inadimplentes e adimplentes. Isso permite que se tenha uma visão transparente dos indicadores de risco para cada tomador de crédito. Quanto ao gráfico de dispersão, pode-se dizer que o gráfico fornece uma visão clara das possíveis relações globais entre duas variáveis. Pela representação gráfica de dispersão, é possível observar que há uma concentração Análises dos resultados da Regressão Logística Binária 46 das probabilidades de adimplência próxima a Yi = 1, o que indica que a qualidade da probabilidade de adimplência oferece uma avaliação positiva do modelo. Por outro lado, pode-se observar que a probabilidade de inadimplência, quando Yi = 0, se dispersa ao longo do eixo vertical representado pela função Pi = f(Yi). Fávero e Belfiore (2017) salientam que quando Xki → ∞, Pi(Yi = 1) → 1 e quando Xki → −∞, Pi(Yi = 1) → 0. Assim, E(Yi) está localizada entre zero e um, conforme demonstrado em “0 ⩽ E(Yi) = Pi ⩽ 1”, com βj = (β0, β1, . . . , βk) e βj ̸= 0. Figura 3.4: Pontos de dispersão obtida da função Logística Binária inversa das probabi- lidades de Adimplência ou Inadimplência. Fonte: Elaborada pelo autor a partir da aplicação do sofware Solver-Excel. A representação gráfica da probabilidade de risco de crédito (score de crédito) permite identificar e classificar os potenciais credores ou devedores ao analisar o comportamento dos scores de crédito por meio de um gráfico de dispersão. Essa representação permite vi- sualizar os indicadores de risco de crédito com probabilidade acima de 50% para adimplen- tes e abaixo de 50% para inadimplentes, o que possibilita obter uma visualização rápida e detalhada do comportamento da variável dependente em relação aos dados amostrais Pi = f(Yi). De acordo com a lógica dessa representação gráfica, é possível mencionar que, se um tomador de crédito apresentar uma probabilidade de risco de adimplência ou inadim- plência, isso não afeta o resultado dos demais tomadores da amostra, pois são eventos independentes. Estimação do modelo de regressão logística binária por máxima verossimilhança 47 3.13 Estimação do modelo de regressão logística bi- nária por máxima verossimilhança Para Pyndick e Rubinfeld (2004, p. 379), todos os estimadores dos parâmetros são consistentes e eficientes assintoticamente, o que permite aplicar não apenas o teste t de regressão, mas também o teste de estimação por máxima verossimilhança. Neste caso, para estimar os parâmetros do modelo de regressão logística, será utilizado Pi = 1 1 + e−(β0+β1X1+β2X2i+...+βkXki) , sendo Pi a probabilidade de um indivíduo fazer uma escolha específica, dada a variável Xki. O teste da razão da verossimilhança permite observar que Pi mede a qualidade do ajuste do modelo de regressão logística binária, justamente porque ajusta a qualidade da variável resposta (Yi). De acordo com Brocco (2006), se a diferença entre as observações e os valores ajustados correspondentes for pequena, o modelo é aceito. Caso contrário, a forma atual do modelo não será aceita e precisará ser revisada. Uma maneira de medir a discrepância entre a probabilidade de adimplência observada (Yi = 1) e a probabilidade de inadimplência (Yi = 0) é utilizar a função de máxima verossimilhança na regressão logística, como demonstrado a seguir: ln L(β0, β1, . . . , βk) = n∏ i=1 [ P Yi i (1 − Pi)1−Yi ] ou ln L(β0, β1, . . . , βk) = n∏ i=1 ( eYi 1 + eYi )Yi ( 1 1 + e−Yi )1−Yi  Para tanto, em uma amostra com n observações, define-se a função de verossimilhança como Pi = eYi 1 + eYi e f(Yi) = 1 1 + e−Yi , Pi(Yi = 1) = Pi 1 − Pi . Para Yi temos, L = [ (Yi) ln ( eYi 1 + eYi )] e para Pi, L = [ (1 − Yi) ln ( 1 1 + e−Yi )] . Conforme Brocco (2006), o logaritmo da função de verossimilhança maximizado será Estimação do modelo de regressão logística binária por máxima verossimilhança 48 obtido pela seguinte expressão: ln L(0) = n∏ i=1 [Yi ln Pi + (1 − Yi) ln(1 − Yi)] , para determinar o modelo completo, Pi = Yi, utiliza-se [Yi ln Yi] e [(1 − Yi) ln(1 − Yi)] considerando zero para os únicos dois possíveis valores de Yi, situados no intervalo [0, 1]. Para realizar os testes de qualidade de ajustes calcula-se a taxa de verossimilhança (L) para dados binários obtidos pela equação L = −2 n∑ i=1 [Pi ln Yi + ln(1 − Yi)] . Na aplicação do modelo proposto para calcular a máxima verossimilhança e esti- mar a qualidade de ajuste do modelo, será necessário considerar os dois modelos de log-verossimilhança. Para ajustar o modelo, também será necessário considerar que a variável dependente Yi é igual a 0 quando os parâmetros (β0, β1, . . . , β11) = 0. A soma- tória do logaritmo da função de máxima verossimilhança ln L(0) = −30, 953, quando os parâmetros (β0, β1, . . . , β11) ̸= 0 geraram ln L(máx) = −19, 7078. Na aplicação do teste de significância por meio do teste do Qui-Quadrado, utilizaram-se as diferenças entre os dois modelos −2 ln L(0) e −2 ln L(máx). Ao analisar a Tabela 3.4, é possível observar que o modelo possui características acei- táveis para ser utilizado como base de informações de risco de crédito, uma vez que, durante a aplicação dos dados pelo Software Solver, gerou uma saída de (Yi) = 33 para os adimplentes e (1 − Yi) = 16 para os inadimplentes, resultados exatamente iguais aos obtidos pelo MedCal. Para Fávero e Belfiore (2017), determinar a função-objetiva que é a função que deverá ser maximizada, será necessário realizar a somatória do logaritmo da função de verossimilhança. No caso, ln L(máx) = −19, 7078. Os valores obtidos da função de log-verossimilhança são utilizados como base com- parativa entre dois modelos, ln L(0) e ln L(máx), para gerar os possíveis pseudos R2, os quais têm como característica a produção de valores que representam o ajuste geral do modelo na explicação da eficácia e da aderência significativa da amostra. A partir de sua determinação, será possível organizar os dados gerados para determinar os preditores que contribuem para a identificação das variações registradas na variável dependente. A partir desse ponto, será possível obter orientações sobre a acurácia correta das análises dos modelos propostos. Na Tabela 3.5, estão organizados os estimadores de probabilidade que serão utilizados para identificar o escore de crédito a partir dos conjuntos das variáveis independentes e da variável dependente, considerando os valores previstos e os valores observados. Estimação do modelo de regressão logística binária por máxima verossimilhança 49 Tabela 3.5: Estimadores das probabilidades de adimplência ou inadimplência ln L(0) Log-verossimilhança -30,953 ln Lmáx Log-verossimilhança -19,7078 n (tamanho da amostra (Yi) 49 Chi-Sq (Qui-Quadrado) 22,4905 GL (Grau de Liberdade) 11 Alpha (α) 0,05 p-valor <α 0,020837 s.e. (erro padrão) sim Intervalo de Confiança 95% 0,1952 a 0,4578 Fonte: Elaborada pelo autor a partir da aplicação no software Solver. Aplicando as funções de resultados da Tabela 3.5, nas equações dos modelos propostos, tem-se os seguintes preditos: • Teste do Qui-Quadrado: ln L = [−2 ln L (0) máx] = [−2 ln L(0) − (−2 ln Lmáx)] • Qui-Quadrado: (χ2) = 2(ln L(máx) − ln L(0)). De acordo com Fávero e Belfiore (2017), o teste do Qui-Quadrado fornece a signifi- cância do modelo, proporciona verificar a existência ou não do modelo. Neste caso, o modelo proposto com β0 ̸= 0 e βj ̸= 0, o comportamento de alteração não influencia a probabilidade de ocorrência do evento. Qui-Quadrado (χ2) = 2(−19, 7078 − (−30, 953)) = 22, 4905. Ainda em Fávero e Belfiore (2017), para 11 graus de liberdade, ou seja, variáveis expli- cativas consideradas na modelagem, temos o Qui-Quadrado significante igual a 22,4905. O valor crítico obtido na tabela do Qui-quadrado é igual a 19,675 para o nível de signifi- cância de 0,05, considerando que βj sejam iguais a zero. Tem-se ainda que: [McFadden R-Sq(L) do pseudo R2] = [ −2 ln L(0) − (−2 ln Lmáx) −2 ln L(0) ] = [ −2(−30, 953) − (−2(−19, 7078) −2(−30, 953) ] = 0, 3633. [Cox & Snell R2] R − Sq(CS) = 1 − e −2 n ( ln Lmáx−ln L(0) ) = 1 − e −2 49 (−19,7078−(−30,953) = 0, 368078. Estimação do modelo de regressão logística binária por máxima verossimilhança 50 [Nagelkerke R2] R − Sq(N) = R − Sq(CS) 1 − e 2 ( ln L(0) n ) = 0, 368078 1 − e2(−30,953 49 ) = 0, 51314. Tabela 3.6: Teste de Hosmer & Lemeshow Qui-Quadrado 7,0477 GL (Grau de liberdade) 8 p-valor 0,5315 Fonte: Elaborada pelo autor a partir da aplicação O teste Hosmer and Lemeshow (Tabela 3.6), que apresenta um Qui-Quadrado de 0,70477, indica a não significância do modelo, uma vez que o seu p-valor resultou ser maior do que 0,05 de nível de significância para um grau de liberdade de 8 variáveis observadas na amostra. A orientação segundo GONÇALVES, GOUVÊA e MANTOVANI (2013, p. 155) é a não rejeição da hipótese nula do teste, pois a não existência de diferenças significativas entre os valores preditivos e observados na amostra, permite afirmar que não há diferenças significativas entre os resultados observados. Conclui-se que os resultados apresentaram um estágio logístico não significativo e, portanto, deve-se considerar que os dados são adequados para realizar uma regressão logística. Tabela 3.7: Possíveis pseudos R2, considerados para explicar as variações da variável dependente em relação aos dados amostrais. Modelo nulo −2 log Verossimilhança −2 ln L(0) 61,906 Modelo completo −2 log Verossimilhança −2 ln L(1) 39,416 Qui-quadrado (χ2) Chi-Sq 22,4905 Graus de Liberdade (GL) 11 Nível de significância α 0,05 p-valor 0,020837 Cox & Snell R2 R-Sq(CS) 0,3681 Nagelkerk e R2 R-Sq(N) 0,51314 Mc Fadden R-Sq(L) R 0,3633 Fonte: Elaborada pelo autor a partir da aplicação Solver e MedCalc. Ao submeter os dados da amostragem no Software Solver, foi possível observar que o modelo em questão produziu valores de saída adequados para realizar uma interpretação dos estimadores de adimplência e inadimplência. Com a amostra com df = 11 graus de liberdade e as variações no valor −2 ln L(0) também para o modelo ajustado, com Qui-Quadrado = 22,4905 maior que Qui-Quadrado = 19,675 (obtido na tabela do Qui- Quadrado) para um nível de significância de 5% e um p-valor de 0,020837, ou seja, com p-valor < α, deve-se rejeitar H0 de que todos os parâmetros sejam estatisticamente iguais Estimação do modelo de regressão logística binária por máxima verossimilhança 51 a zero conforme mostra a Tabela 3.7. Uma vez que o p-valor é significativo, garante a informação de que o modelo está bem ajustado. No entanto, pelo menos uma variável X é estatisticamente significativa para explicar a probabilidade de ocorrência do evento em estudo. Teremos desta forma, um modelo de regressão logística binária estatisticamente significante para fins de previsão. Neste caso, as relações entre a classificação realizada e a observada não acusam diferenças. Para Field (2009), se o p-value < α, então há evidência de que pelo menos uma das variáveis independentes contribui para a aprovação do resultado. Essa análise é utilizada para obter o grau de acurácia do modelo logístico, situação que tem a finalidade de testar e verificar se existem diferenças significativas entre as duas classificações realizadas pelo modelo em comparação com a realidade observada. Como base complementar da análise, Hair Jr et al. (2009) salientam que os pseudos R2 de Nagelkerke e Cox & Snell têm a mesma finalidade para explicar a variável dependente, pois produzem um ajuste perfeito para a variável dependente, fornecendo resultados no intervalo entre 0 e 1. De acordo com eles, quanto mais próximo de 1 for o pseudo R2, melhor será o ajuste para o modelo. Neste caso, pode-se concluir que, nas condições a que foram submetidas, o pseudo R2 de Nagelkerke é o que melhor explica as variações registradas na variável dependente, pois é capaz de explicar em torno de 51,31% das variações registradas na variável dependente. Este mecanismo é utilizado para comparar o desempenho de modelos concorrentes entre duas equações logísticas igualmente válidas como ln L(0) e ln L(1), e seus resultados permitem identificar a validade da aplicação do modelo na regressão logística binária. Pelo que se observa nas técnicas utilizadas, conclui-se que o modelo utilizado para a base da pesquisa com relação aos riscos de crédito apresenta uma acurácia positivamente aceitável. Outra modelagem também utilizada para avaliar a acurácia do modelo é pela determi- nação dos indicadores de critérios de informação. Dentre os diversos modelos observados, Fávero e Belfiore (2017) salientam que os critérios de informações Akaike corrigido (AIC) e Bayesiano (Schwarz) Corrigido (BIC) são utilizados com muita frequência na aplicação de modelos com pequenas amostras. Para eles, quanto maior for a quantidade de variáveis no modelo, maior será o indicador, e, portanto, maiores serão também os desajustes dos dados. Emiliano (2009) também destaca que o critério de informação de AIC, assim como BIC, avaliam a verossimilhança do modelo e aplicam uma penalidade por adicionar variá- veis ao modelo. Quanto maior for o número de variáveis no modelo, maior tende a ser o valor de AIC. A redução de variáveis pode produzir um modelo com melhor desempenho geral. Assim, a expressão que define os critérios de informação de AIC será AIC = −2 × (a função suporte maximizada) + 2 × (número de parâmetros) ou AIC = −2 ln Lmáx + 2(θ), Estimação do modelo de regressão logística binária por máxima verossimilhança 52 sendo θ = DF + 1 AIC = −2 × (−19.7078) + 2 × (11 + 1) = 63, 4156. Para Emiliano (2009), o critério de informação AIC desejável é aquele que apresenta o menor valor possível. Como nem sempre o modelo com o menor valor para um conjunto de preditores necessariamente ajusta bem os dados, será necessário, além disso, usar os testes e os gráficos dos resíduos para avaliar se o modelo ajusta bem os dados ou não. A expressão para a determinação do Critério de Informação Bayesiano é definida pela expressão BIC = −2 ln Lmáx + (θ) × ln n = −2 × (−19, 7078) + (11 + 1) × ln(49) = 86, 1174436. Ao observar os testes de informações de BIC = 86, 117 e o critério de informação de AIC = 63, 4156, é possível afirmar que o teste de informação utilizado no modelo apresentou classificador corretamente aceitável. Estimação do modelo de regressão logística binária por máxima verossimilhança 53 Ta be la 3. 8: Es tim at iv a da s pr ob ab ili da de s do s pa râ m et ro s e da s va riá ve is in de pe nd en te s, do m od el o lo gí st ic o e av al ia çã o do s ris co s de cr éd ito . V ar iá ve is C oe fic ie nt e E rr o P ad rã o T es te de W al d p- va lo r ex po en te de β In te rv al o de C on fia nç a in fe ri or su pe ri or C on st an te (i nt er ce pt o ) β 0 -3 ,9 1 2, 54 2, 37 0, 12 0, 02 0, 00 0 R en da m en sa l (X 1i ) D um m y 1 β 1 2, 4 1, 43 2, 82 0, 09 11 ,0 5 0, 67 18 1, 49 E m pr eg o fix o (X 2i ) D um m y 2 β 2 -1 ,3 9 1, 22 1, 3 0, 25 0, 25 0, 02 2, 71 C as a P ró pr ia (X 3i ) D um m y 3 β 3 2, 46 1, 18 4, 32 0, 04 11 ,6 9 1, 15 11 8, 71 C on ta C or re nt e (X 4i ) D um m y 4 β 4 1, 85 1, 9 0, 95 0, 33 6, 38 0, 15 26 5, 21 C ar tã o de C ré di to (X 5i ) D um m y 5 β 5 -2 ,0 3 1, 06 3, 69 0, 05 0, 13 0, 02 1, 04 C D C (X 6i ) D um m y 6 β 6 1, 9 1, 23 2, 4 0, 12 6, 71 0, 6 74 ,5 2 E m pr és ti m o co ns ig na do (X 7i ) D um m y 7 β 7 1, 96 1, 25 2, 47 0, 12 7, 12 0, 61 82 ,5 D ep en de nt es (X 8i ) du m m y 8 β 8 0, 76 0, 56 1, 83 0, 18 2, 14 0, 71 6, 45 Lu z (X 9i ) D um m y 9 β 9 1, 04 1, 32 0, 62 0, 43 2, 82 0, 21 37 ,4 2 Á gu a (X 10 i) D um m y 10 β 10 -2 ,0 5 1, 32 2, 41 0, 12 0, 13 0, 01 1, 71 T el ef on e fix o (X 11 i) D um m y 11 β 11 -1 ,6 8 1, 33 1, 59 0, 21 0, 19 0, 01 2, 53 Fo nt e: El ab or ad a pe lo au to r a pa rt ir da ap lic aç ão do So lv er e M ed C al c. Aplicando o Teste Wald 54 O expoente β indica a quantidade de vezes que as chances de ser adimplente aumentam. A renda tem um fator expoente de β = 11, 05, o que significa que o tomador de crédito tem 11 vezes mais chances de se tornar adimplente a cada aumento na renda de 2,40 vezes. No caso da casa própria, o tomador de crédito tem 11,69 vezes mais chances de se tornar adimplente a cada aumento na quantidade de casas próprias em 21,46 vezes. Se expoente de β > 1 o indicador de inadimplência tende a diminuir. Por outro lado, se expoente de β < 1, o indicador de inadimplência tende a aumentar. Com relação ao expoente β, se seu valor for maior do que 1, um aumento no p-valor da variável eleva a probabilidade de adimplência. Por outro lado, se seu valor for menor do que 1, um aumento no p-valor da variável promove uma redução na probabilidade de adimplência. Quando seu valor for igual a 1, pode-se dizer que a probabilidade de sucesso permanece inalterada. β0, β2, β5, β9, β10 e β11 são parâmetros cujos expoentes apresentaram valores menores do que 1, e um aumento nos valores do intercepto e das variáveis correspondentes, como emprego fixo, cartão de crédito, luz, água e telefone, provoca uma redução nas probabilidades de adimplência dessas variáveis para o modelo. O expoente de β é um fator muito significativo para a análise comportamental do modelo. No caso observado, de todas as variáveis submetidas ao teste, a que está de- monstrando significância é a variável casa própria e a variável renda, pois ambas produ- zem p-valores próximos de 0,05, indicando um grau de significância adequado. Para o modelo observado, conclui-se que ter renda e casa própria contribui para a redução do risco de inadimplência do tomador de crédito. Para encontrar a chance real que permita identificar a quantidade de vezes que a variável analisada irá sofrer alterações, será ne- cessário realizar o cálculo 1 expoente de β1 , pois, fazendo 1 11, 05 para a variável renda e 1 expoente de β3 = 1 11, 69 para a variável casa própria, obtemos valores do expoente de β próximos de zero, que permitem dizer que ambas as variáveis analisadas são as mais significativas para a análise de risco de crédito para o modelo considerado. 3.14 Aplicando o Teste Wald A estatística z de Wald dos parâmetros β2, β4, β8, β9 e β11 apresentou valores dos in- tervalos de confiança entre -1,96 e 1,96, o que indica que ao nível de significância de 0,05 para esses casos, não houve rejeição da hipótese nula. Portanto, esses parâmetros não podem ser considerados estatisticamente diferentes de zero, uma vez que os p-valores analisados foram maiores do que 0,05. A não rejeição da hipótese nula para os parâme- tros β2, β4, β8, β9, β10 e β11ao nível de significância de 5%, significa que as correspondentes variáveis, emprego fixo, conta corrente, dependentes, luz e felefone fixo, não são esta- tisticamente s