POLINÔMIOS FRACIONÁRIOS EM MODELOS DE REGRESSÃO Vińıcius Alande Dissertação apresentada à Universidade Es- tadual Paulista “Júlio de Mesquita Filho” para a obtenção do t́ıtulo de Mestre em Bio- metria. BOTUCATU São Paulo - Brasil Março - 2012 POLINÔMIOS FRACIONÁRIOS EM MODELOS DE REGRESSÃO Vińıcius Alande Orientadora: Prof. Dr. Luzia A. Trinca Dissertação apresentada à Universidade Es- tadual Paulista “Júlio de Mesquita Filho” para a obtenção do t́ıtulo de Mestre em Bio- metria. BOTUCATU São Paulo - Brasil Março - 2012 iii Dedicatória À Deus pela saúde e força, à minha mãe por ser a base de tudo que sou hoje, aos mestres que passaram pela minha vida pregando o conhecimento e a melhora cont́ınua. Agradecimentos À Deus por me dar a vida, mostrar o caminho correto a seguir, e suprir todas as minhas necessidades. À minha famı́lia, Izabel, Aline e Gilberto pelo amor, educação, apoio, incentivo, compreensão nos momentos dif́ıceis, por estarem do meu lado em todos os momentos da minha vida. À minha orientadora, Profa Luzia Aparecida Trinca, por me mostrar o caminho da ciência, pela confiança depositada, pela forma e excelência que realiza seu trabalho e principalmente pela paciência. À UNESP, ao programa de Pós-Graduação em Biometria, e ao De- partamento de Bioestat́ıstica do Instituto de Biociências de Botucatu pela ótima estrutura f́ısica que me foi concebida, pelos apoios financeiros para eventos e con- gressos e pela oportunidade de realização do mestrado. Ao corpo docente do departamento e funcionários, pela amizade, aux́ılio, incentivo e pelas horas de descontração no café. Aos professores das bancas de qualificação e defesa por terem contri- buido com sugestões, dicas e correções para o enriquecimento deste trabalho. Aos amigos pós-graduandos e graduandos que fiz durante esse tempo que, sem dúvida, contribuiram e muito, para o desenvolvimento deste estudo, e para a minha estadia em Botucatu. À Coordenação de Aperfeiçoamento de Pessoal de Nı́vel Superior (CA- PES) pelo apoio financeiro durante esses anos. À todas as pessoas que direta ou indiretamente contribuiram para a realização deste trabalho. v “Bem-aventurado o homem que acha sabedoria, e o homem que adquire conhecimento. Porque é melhor a sua mercadoria do que artigos de prata, e maior o seu lucro que o ouro mais fino.” Provérbios 3:13-14 Sumário Página LISTA DE FIGURAS viii LISTA DE TABELAS x RESUMO xi SUMMARY xiii 1 INTRODUÇÃO 1 2 MODELOS DE REGRESSÃO 4 2.1 Regressão Linear com Erros Normais . . . . . . . . . . . . . . . . . . . . 4 2.2 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . 6 2.2.1 Regressão Loǵıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Modelo Binomial Misto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 Polinômios Fracionários . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4.1 Polinômios Fracionários para uma Variável Regressora . . . . . . . . . 21 2.4.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3 APLICAÇÕES 31 3.1 Exemplo 1: Estimação da densidade de Rot́ıferos . . . . . . . . . . . . . 31 3.2 Exemplo 2: Tolerância do Paracoccidioides brasiliensis a altas temperaturas 38 3.3 Exemplo 3: Relação Peso e Comprimento de Aranhas . . . . . . . . . . . 42 4 CONSIDERAÇÕES FINAIS 52 vii REFERÊNCIAS BIBLIOGRÁFICAS 54 Lista de Figuras Página 1 Modelos ajustados por PF1(2) e PF2(-2,-2). . . . . . . . . . . . . . . . . 29 2 Análise de reśıduos para o Modelo Original, Exemplo 1. . . . . . . . . . . 33 3 Análise de reśıduos para o Modelo PF, Exemplo 1. . . . . . . . . . . . . 34 4 Curvas das probabilidades ajustadas pelo Modelo Original e pelo Modelo PF, Exemplo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5 Análise de Reśıduos para o Modelo Binomial Misto com X linear, dado por (9), Exemplo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 6 Análise de reśıduos para o Modelo Binomial Misto transformado, dado por (10), Exemplo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 7 Análise de Reśıduos para o Modelo Binomial Misto com efeito linear de X, Exemplo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 8 Análise de reśıduos para o Modelo Binomial Misto transformado, Exem- plo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 9 Diagrama de dispersão do Comprimento (mm) e Peso (mg) de aranhas, Exemplo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 10 Análise de reśıduos para o modelo da equação (13), Exemplo 3. . . . . . 44 11 Análise de reśıduos para o modelo da equação (14), Exemplo 3. . . . . . 45 12 Análise de reśıduos para o modelo da equação (15), Exemplo 3. . . . . . 47 13 Análise de reśıduos para o modelo da equação (16) (sem a observação 4), Exemplo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 14 Curva ajustada para o modelo da equação (16) considerando os dados transformados e removida a observação 4, Exemplo 3. . . . . . . . . . . . 50 ix 15 Curvas ajustadas e intervalos de predição do peso (transformado) para os Modelos PF, com e sem a abservação 4, Exemplo 3. . . . . . . . . . . . . 50 Lista de Tabelas Página 1 Estimativas dos parâmetros do PF para os modelos tentativos e suas respectivas diferenças de deviances (D) . . . . . . . . . . . . . . . . . . . 27 2 Aplicação dos procedimentos de testes para selecionar o melhor modelo . 28 3 Estimativas dos coeficientes e matriz de variância e covariância para o modelo loǵıstico com preditor linear do tipo PF2 para pressão arterial sistólica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4 Estimativas dos parâmetros das transformações de Box-Cox e de PF, Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5 Estimativas dos parâmetros das transformações de Box-Cox e de PF sem a observação 4, Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 46 POLINÔMIOS FRACIONÁRIOS EM MODELOS DE REGRESSÃO Autor: VINÍCIUS ALANDE Orientadora: Prof. Dr. LUZIA A. TRINCA RESUMO Neste trabalho, a flexibilidade dos modelos de polinômios fracionários foi explorada como alternativa quando polinômios simples mostram falta de ajuste em modelos de regressão. Vários tipos de modelos de regressão foram considerados incluindo regressão loǵıstica, regressão loǵıstica com efeitos aleatórios, e regressão para resposta quantitativa cont́ınua com aumento de variância. Três aplicações para dados biológicos foram realizadas: o exemplo dos rot́ıferos apresentado em Collett (1991), o estudo da tolerância para temperaturas de células de fungos apresentado em Theodoro et al. (2008) e o estudo da relação entre peso e comprimento de uma espécie de aranhas considerado em Stropa & Trinca (2005). Nos dois primeiros exemplos o modelo de regressão loǵıstica foi considerado e o ajuste mostrou sobredispersão dos dados, bem como falta de ajuste dos modelos simples. O uso de polinômios fracionários e a inclusão de efeitos aleatórios nas funções dos preditores lineares mostraram benef́ıcios para ambos os problemas de modelagem. No terceiro exemplo, xii a relação entre a variável resposta e a regressora foi não-linear com variância do erro não constante. O uso simultâneo de polinômios fracionários e transformações do tipo Box-Cox resultaram em funções preditivas razoáveis para o problema. A influência de pontos particulares foi explorada e todos os exemplos ilustraram que o processo de modelagem, na prática, requer cuidados nas inspeções das violações do modelo, considerações do problema em particular, e na tomada de decisões. FRACTIONAL POLYNOMIALS IN REGRESSION MODELS Author: VINÍCIUS ALANDE Adviser: Prof. Dr. LUZIA A. TRINCA SUMMARY In this work the flexibility of fractional polynomial models were ex- plored as alternative when simple polynomials show lack of fit in regression models. Several types of regression models were considered including logistic regression, mi- xed logistic regression, and regression for a continuous quantitative response with increasing variance. Three applications to biological data were shown: the rotifers example of Collett (1991); the study of tolerance to temperature of fungus cells of Theodoro et al. (2008); and the study of the relationship between weight and size of a specie of spiders of Stropa & Trinca (2005). In the first two examples the logis- tic model was considered and overdispersion as well as lack of fit of simple models were detected. The use of fractional polynomials and the inclusion of random ef- fects in the linear predictor function showed benefits to both modeling problems. In the third example the relation was non-linear with nonconstant error variance. The simultaneous use of fractional polynomials and Box-Cox transformation resulted xiv in very reasonable prediction functions. Influence of particular points were explo- red. All examples illustrated that the modeling process in practice includes careful inspections of model violations, practical considerations and decisions. 1 INTRODUÇÃO Várias são as áreas da ciência que adquirem conhecimento por meio da coleta de dados, seja por amostragem em estudos observacionais ou por expe- rimentação. Em estudos observacionais é comum a coleta de dados de diversas variáveis para investigar a inter-relação entre elas e/ou identificar fatores que pos- sivelmente afetam algum evento de interesse. Os estudos experimentais, por serem controlados, permitem a investigação de relação do tipo causa e efeito. Os Modelos de Regressão são ferramentas de grande potencial de aplicação em ambos os tipos de estudos. Por exemplo, na área médica, a partir de um Modelo de Regressão pode-se investigar a relação entre o tempo de sobrevivência de pacientes após determinado tratamento para o câncer e caracteŕısticas como a idade, tamanho ou estágio do tumor, local do tumor, entre outros. Nesse contexto, tais variáveis são chamadas de fatores de prognóstico. Os Modelos de Regressão constituem uma classe ampla de modelos estat́ısticos, com origem no modelo mais simples posśıvel que é aquele que simplifica a relação entre uma variável resposta quantitativa y por uma expli- cativa x através de uma reta. Essa ideia simples se estendeu muito e hoje abrange modelos com múltiplas variáveis explicativas, termos polinomiais, relações não line- ares, respostas discretas, observações com censura, entre outras. Essa ampliação foi posśıvel principalmente pelo desenvolvimento tecnológico que permitiu a construção de computadores e programas computacionais capazes de ajustar quase que qualquer tipo de modelo. Mas é importante lembrar que cada modelo, embora possivelmente útil para explicar ou aproximar um fenômeno desconhecido, tem como base algumas suposições e faz parte da análise de dados a investigação sobre a sua coerência. É de consenso que um modelo “bom” é aquele que explica o problema e é simples, parci- 2 monioso, produz resultados interpretáveis do ponto de vista do objetivo do estudo, é robusto a pequenas variações dos dados e permite previsões com margem de erro razoável para novos casos. Ou seja, na prática, encontrar um “bom” modelo é um desafio. Um problema na construção de um modelo é a presença de não li- nearidade entre a variável resposta e a variável explicativa. Quando não há uma expressão não linear, originada do conhecimento f́ısico do problema, para a relação, as estratégias usuais têm sido a inclusão de termos polinomiais no modelo ou a categorização das variáveis explicativas. A primeira estratégia pode resultar em modelos mais complicados do que o necessário e de dif́ıcil interpretação biológica, por exemplo, a inclusão de termos polinomiais de ordem 3 ou 4 pode não ser jus- tificada na prática. A necessidade destes termos pode ser simplesmente devido a escolha “errada” da métrica para medir a variável explanatória (a escolha certa tal- vez um polinômio de primeira ordem resolvesse o problema). A categorização da(s) variável(ies) explicativa(s) envolve subjetivismo e perda de informação. O problema da escolha “certa” da métrica tem sido considerado e no caso de apenas uma variável explicativa tem-se as usuais transformações, conforme a forma do gráfico de y versus x, recomendadas nos livros clássicos de regressão linear. No caso mais geral, o problema foi explorado por Box & Tidwell (1962) com a sugestão de uma famı́lia de transformações em x análoga à familia de Box- Cox (Box & Cox, 1964) que é aplicada em y. No entanto, a metodologia proposta não ganhou muito espaço nas aplicações devido ao custo computacional. Com o avanço computacional, a ideia de transformações Box & Tidwell (1962) foi estendida e formalizada na forma de uma classe de modelos envolvendo Polinômios Fracionários (PF) por Royston & Altman (1994). Essa classe de modelos inclui termos do tipo xp em que p é escolhido a partir de um pequeno conjunto de valores inteiros e/ou não- inteiros pré-especificados. As funções polinomiais posśıveis, englobam como casos particulares, os polinômios convencionais. A metodologia é aplicável tanto para modelos com erros supostos normais quanto para a classe mais geral de Modelos 3 Lineares Generalizados e modelos para tempo de sobrevivência. Este trabalho foi desenvolvido com o objetivo de estudar a metodologia proposta por Royston & Altman (1994), conhecer ferramentas computacionais para o ajuste e explorar a flexibilidade de tais modelos aplicando-os a conjuntos de dados da área biológica. No Caṕıtulo 2 são apresentados alguns conceitos básicos ligados aos métodos de estimação dos parâmetros dos Modelos de Regressão, assim como a apresentação da famı́lia de Modelos de Polinômios Fracionários, a metodologia de ajuste e de comparações entre modelos proposta por Royston & Sauerbrei (2008). Um exemplo da literatura foi reproduzido com o objetivo de esclarecimento didático. O caṕıtulo 3 contempla três exemplos. O primeiro exemplo trata de um estudo sobre a densidade de uma espécie de microorganismos do zooplâncton, descrito por Collett (1991). O segundo se refere a um estudo da viabilidade de células do fungo Pa- racoccidioides brasiliensis sob diferentes temperaturas. Nestes dois exemplos foram utilizados um modelo loǵıstico para ajustar os dados. O terceiro exemplo trata do estudo da relação entre o peso e o tamanho de aranhas femêas do tipo Loxosceles gau- cho. Nesse caso, a relação observada foi não linear e heterogeneidade de variâncias. Explora-se então a aplicação de transformações, tanto na variável resposta como na explicativa a fim de obter um modelo final parcimonioso e coerente com as premissas usuais da modelagem. 2 MODELOS DE REGRESSÃO Os Polinômios Fracionários (PF) podem ser utilizados em qualquer tipo de Modelo de Regressão com variáveis regressoras quantitativas, cuja parte preditiva envolve preditores lineares. Antes de introduzir a metodologia de PF, uma breve introdução, principalmente visando o estabelecimento da notação a respeito dos Modelos de Regressão, a começar pelos Modelos Lineares com Erros Normais, Modelos Lineares Generalizados (MLG), e em particular, o Modelo de Regressão Loǵıstica e o Modelo Binomial Misto. 2.1 Regressão Linear com Erros Normais Dados n conjunto de valores de k variáveis regressoras (X1, . . . , Xk) e uma variável aleatória resposta Y , o modelo de regressão linear múltiplo é escrito como yi = β0 + k∑ j=1 βjxij + εi, ou ainda, na forma matricial, y = Xβ + ε, (1) em que y é o vetor (n×1) de respostas, β = (β0, β1, . . . , βk) ′ é o vetor (q = (k+1)×1) de parâmetros, X é a matriz (n× (k + 1)) cujas colunas são as variáveis regressoras e ε é o vetor (n × 1) de erros aleatórios com E(ε) = 0. O modelo usual assume que V (ε) = Iσ2. Para ajustar um modelo de regressão aos dados observados deve-se estimar o vetor de parâmetros β. Existem vários métodos de estimação como, por 5 exemplo, o de Máxima Verossimilhança (MV) e o de Mı́nimos Quadrados (MQ). O método MQ dos erros é bastante popular em modelos lineares devido a sua sim- plicidade mas também pelos estimadores serem equivalentes aos de MV no caso de normalidade e homocedasticidade dos erros. Se dispõe-se de apenas q observações, a determinação dos parâmetros se reduz a um problema matemático de resolução de um sistema de q equações com q incógnitas, não sendo posśıvel fazer qualquer análise estat́ıstica. Portanto, deve-se ter n > q. Além disso, para obter as estimativas de mińımos quadrados dos parâmetros, a matriz X′X deve ser não-singular, isto é, seu posto deve ser igual a q. Nessa condição, sua matriz inversa (X′X)−1 existe, e a solução de mińımos quadrados para β̂ é dada por β̂ = (X′X)−1X′y. Esse estimador é não viesado, pois E(β̂) = β, com V (β̂) = (X′X)−1σ2. Pode- se mostrar que este estimador é também de variância mı́nima entre todos os outros estimadores não viesados, que são funções lineares de y. Sob normalidade dos erros β̂ coincide com o estimador de MV que, assintoticamente, segue a distribuição normal, ou seja, β̂ ∼ N(β, (X′X)−1σ2). Testes de hipóteses sobre os parâmetros e intervalos de confiança po- dem ser constrúıdos utilizando-se as estat́ısticas clássicas do tipo F baseadas na análise de variância e do tipo t usuais (ver, por exemplo, Montgomery et al. (2006) Draper & Smith (2008)). Na prática, para inferência utilizando o modelo ajustado, é necessário a investigação sobre a validade (ao menos aproximada) sobre as pressuposições do modelo. Violações comuns são a não linearidade e heterogeneidade de variâncias dos erros. Caso a variável resposta não tenha distribuição normal uma das al- ternativas é buscar alguma transformação que amenize o problema. A longa ex- periência em análise de dados tem proporcionado recomendações sobre posśıveis transformações de acordo com o tipo de dado, porém Box & Cox (1964) propuseram uma famı́lia de transformações que se popularizou como transformação Box-Cox. A 6 aplicação da metodologia de Modelos Lineares Generalizados, assunto da próxima seção, é uma outra alternativa, porém, na prática nem sempre se adequa aos dados. Sejam y > 0 e X as variáveis resposta e regressoras, respectivamente. A base fun- damental da transformação Box-Cox é que existe uma potência yλ que se relaciona linearmente com uma função de X de forma que os erros satisfaçam a condição de normalidade e variância constante. O método de transformação consiste na busca do valor para λ que maximiza a função de verossimilhança e é definido por: y(λ) = ⎧⎪⎨⎪⎩ yλ−1 λ λ �= 0 log (y) λ = 0. (2) Encontrado λ̂ utiliza-se y(λ̂) = Xβ + ε como modelo e procede-se da mesma forma para estimação de β̂. 2.2 Modelos Lineares Generalizados Nelder & Wedderburn (1972) propuseram uma teoria unificadora da modelagem estat́ıstica a que deram o nome de Modelos Lineares Generalizados (MLG), como uma extensão dos modelos lineares clássicos. Na realidade, eles mos- traram que uma série de técnicas comumente estudadas separadamente podem ser reunidas sob o nome de Modelos Lineares Generalizados. Mostraram também que a maioria dos problemas estat́ısticos que surgem nas mais diversas áreas do conhe- cimento podem ser formulados, de uma maneira unificada, como nos Modelos de Regressão. Além de Nelder & Wedderburn (1972), na literatura, existem diversos livros clássicos que trata de MLGs, como exemplo, McCullagh & Nelder (1989), e em ĺıngua portuguesa pode-se encontrar Demétrio (2002) e Paula (2004). Esses modelos envolvem uma variável resposta e um conjunto de variáveis explicativas, sendo que a variável resposta, componente aleatório do modelo, tem uma distribuição perten- cente à famı́lia exponencial na forma canônica (distribuição normal, gama e normal inversa, para dados cont́ınuos; binomial para proporções; Poisson e binomial negativa para dados de contagens). As variáveis explicativas entram na forma de uma função 7 linear (componente sistemático) relacionada aos componentes aleatórios a partir de uma função de ligação, por exemplo, logaŕıtmica para os modelos log-lineares, logito para regressão loǵıstica, e outras. Seja Y uma variável aleatória e associado a ela um conjunto de q variáveis explicativas que como no modelo linear podem ser organizadas numa matriz X. Para uma amostra de n observações os três componentes envolvidos no MLG são descritos a seguir. 1. Componente Aleatório: representado por uma famı́lia de variáveis aleatórias independentes Y1, Y2, . . . , Yn, cada uma com função densidade ou função de probabilidades na forma dada por f(yi; θi, φ) = exp (φ[yiθi − b(θi)] + c(yi, φ)), (3) chamada de famı́lia exponencial. Pode-se mostrar sob as condições usuais de regularidade que E ( ∂ ln f(yi; θi, φ) ∂θi ) = 0 e E ( ∂2 ln f(yi; θi, φ) ∂θ2 i ) = −E ⎡⎣(∂ ln f(yi; θi, φ) ∂θi )2 ⎤⎦ , para ∀i, que E(Yi) = μi = b′(θi), V (Yi) = φ−1V (μi), em que Vi é uma função de μi dada por V (μi) = dμi dθi e φ−1 é o parâmetro de dispersão. Vi é chamada de função de variância, e como depende unicamente da média tem-se que o parâmetro natural θi pode ser expresso como θi = ∫ V −1 i dμi = q(μi) para q(μi) uma função conhecida de μi. A função de variância desempenha um papel importante na famı́lia exponencial, uma vez que a mesma caracteriza a distribuição. Isto é, dada a função de 8 variância, tem-se uma classe de distribuições correspondentes, e vice-versa. Essa propriedade permite a comparação de distribuições por meio de testes simples para a função de variância. Para ilustrar, a função de variância definida por V (μ) = μ(1−μ), 0 < μ < 1, caracteriza a classe de distribuições binomiais com probabilidades de sucesso μ ou 1 − μ. Exemplificando, para melhorar o entendimento, sejam dois casos particulares; o primeiro assumindo uma variável aleatória com distribuição normal, e o se- gundo, com distribuição binomial. Seja Y uma variável aleatória com distribuição normal com média μ e variância σ2, ou seja, Y ∼ N(μ, σ2). A função densidade de Y é expressa na forma f(y; μ, σ2) = 1 σ √ 2π exp ( − 1 2σ2 (y − μ)2 ) = exp ( 1 σ2 ( yμ − μ2 2 ) − 1 2 (ln 2πσ2 + y2 σ2 ) ) , em que −∞ < μ, y < ∞, e σ2 > 0. Logo, para θ = μ, b(θ) = θ2 2 , φ = σ−2 e c(y, φ) = 1 2 ln φ 2π − y2φ 2 , temos (3). Verifica-se facilmente que a função de variância é dada por V (μ) = 1. Seja Y a proporção de sucessos em n ensaios independentes, cada um com probabilidade de ocorrência μ. Supõe-se que nY ∼ B(n, μ). A função de probabilidade nY é expressa por⎛⎜⎝ n ny ⎞⎟⎠μny(1 − μ)n−ny = exp ⎛⎜⎝ln ⎛⎜⎝ n ny ⎞⎟⎠+ ny ln ( μ 1 − μ ) + n ln 1 − μ ⎞⎟⎠, em que 0 < μ, y < 1. Obtem-se (3) fazendo φ = n, θ = ln ( μ 1−μ ) , b(θ) = ln (1 + expθ) e c(y, φ) = ln ⎛⎜⎝ n ny ⎞⎟⎠. A função de variância aqui é dada por V (μ) = μ(1 − μ). 2. Componente Sistemático ou Preditor Linear: como no modelo (1) as variáveis 9 explicativas entram na forma de uma combinação linear de seus efeitos ηi = k∑ j=0 xijβj = x′ iβ ⇒ η = Xβ (4) em que xi = (xi0, xi1, . . . , xik) ′ é o vetor de covariáveis para a i−ésima ob- servação (xi0 = 1 para i = 1, 2, . . . , n) se o preditor inclui o intercepto, β = (β0, β1, . . . , βk) ′ o vetor de parâmetros e η = (η1, η2, . . . , ηn)′ o preditor linear. 3. Função de Ligação: uma função que liga o componente aleatório ao componente sistemático, ou seja, relaciona a média da resposta com o preditor linear, isto é, ηi = g(μi) em que g(.) é uma função monótona e diferenciável. Note que g(.) transforma a esperança da variável resposta no preditor linear. Assim, vê-se que para a especificação do modelo, os parâmetros θi da famı́lia exponencial não são de interesse direto (pois há um para cada observação) mas sim um conjunto menor de parâmetros β0, β2, . . . , βq tais que uma combinação linear dos β’s seja igual a alguma função do valor esperado de Yi. Portanto, as decisões importantes na escolha do MLG são a escolha da distribuição da variável resposta, da matriz do modelo e da função de ligação. Se a função de ligação é esco- lhida de tal forma que g(μi) = θi, o preditor linear modela diretamente o parâmetro canônico e tal função de ligação é chamada ligação canônica. Isto resulta, frequente- mente, em uma escala adequada para a modelagem com interpretação prática para os parâmetros de regressão, além de vantagens teóricas em termos da existência de um conjunto de estat́ısticas suficientes (Mood et al., 1974) para os parâmetros β’s e alguma simplificação no algoritmo de estimação. A ligação identidade (η = μ) para a distribuição normal, a ligação logaŕıtmica (η = ln μ) para a distribuição Poisson, a ligação loǵıstica (η = ln π 1−π ) para a distribuição binomial, e a ligação rećıproca 10 (η = 1 μ ) para a distribuição gama são exemplos de funções de ligação canônicas. A estimação dos parâmetros é feita pelo método da máxima verossimilhança e tem que ser resolvida de forma numérica por métodos iterativos do tipo Newton-Raphson, já que em geral as soluções não apresentam forma fechada. Para estimar um dado parâmetro β constrói-se a função de verossimi- lhança que, tomando-se o log resulta em l(β,y) = log n∏ i=1 (exp (φ[yiθi − b(θi)] + c(yi, φ))) = n∑ i=1 log(f(yi; θi, φ)). Derivando-se em relação a cada parâmetros tem-se a função escore que é calculada por ∂l(β;y) ∂βj = n∑ i=1 φ { yi dθi dμi dμi dη1 ηi βj − db(θi) dθ1 dθi dμi dμi dηi dηi dβj } = n∑ i=1 φ { yiV −1 i dμi dηi xij − μiV −1 i dμi dηi xij } = n∑ i=1 φ {√ ωi Vi (yi − μi)xij } , em que ωi = (dμi/dηi) 2/Vi. Logo, pode-se escrever a função escore na forma vetorial U(β) = ∂L(β; y) ∂β = φX′W1/2V−1/2(y − μ) em que X é a matriz do modelo definida em (4), W = diag(ω1, ω2, . . . , ωn) é a chamada matriz de pesos e V = diag(V1, V2, . . . , Vn). Assim, o processo iterativo de Newton-Raphson para a obtenção da estimativa de máxima verossimilhança de β é definido expandindo-se a função escore U(β) em torno de um valor inicial β(0), tal que U(β) = U(β(0)) + U’(β(0))|(β − β(0)), em que U’(β(0)) denota a primeira derivada de U(β(0)) com respeito a β. Assim, repetindo o procedimento acima, chega-se ao processo iterativo β(m+1) = β(m) − U’(β(m)) −1 U(β(m)), 11 m = 0, 1, . . .. Como a matriz U’(β) pode não ser positiva definida, pode-se aplicar o método de scoring de Fisher, substituindo a matriz U’(β) pelo correspondente valor esperado, e assim chegar a um processo iterativo de mı́nimos quadrados repondera- dos, β(m+1) = (X′W(m)X)−1X′W(m)z(m), (5) m = 0, 1, . . ., em que z = η + W−1/2V−1/2(y − μ). Note que z desempenha o papel de uma variável dependente modificada, enquanto W é a matriz de pesos que muda a cada passo do processo iterativo. A convergência ocorre em um número finito de passos, independente dos valores iniciais utilizados. É usual iniciar o processo iterativo com η(0) = g(y). Apenas para ilustrar, note que para o caso loǵıstico binomial, tem-se ω = nμ(1 − μ) e variável dependende modificada dada por z = η + (y − nμ)/nμ(1 − μ). Como visto em (2.1), para o Modelo Linear com Erros Normais não é preciso recorrer ao processo iterativo para a obtenção da estimativa de máxima verossimilhança. Nesse caso, β̂ assume forma fechada β̂ = (X′X)−1X′y. As informações sobre as propriedades assintóticas dos estimadores de máxima verossimilhança dos MLGs podem ser vistas em Fahrmeir & Kaufmann (1985). Sem perda de generalidade, suponha que o logaritmo da função de verossimilhança seja agora definido por l(μ;y) = n∑ i=1 l(μi, yi), em que μi = g−1(ηi) e ηi = x′ iβ. Para o modelo saturado (q = n) a função l(μ;y) é estimada por l(y;y) = n∑ i=1 l(yi, yi), ou seja, a estimativa de máxima verossimilhança de μi fica nesse caso dada por μ̂0 i = yi. Quando q < n, denota-se a estimativa de l(μ;y) por l(μ̂;y). A qualidade do ajuste de um MLG é avaliada a partir da deviance ou função desvio dada por D∗(y; μ̂) = φD(y; μ̂) = 2(l(y;y) − l(μ̂;y)), 12 que é uma distância entre o logaritmo da função de verossimilhança do modelo saturado (com n parâmetros) e do modelo sob investigação (com q parâmetros) avaliado na estimativa de máxima verossimilhança β̂. Um valor pequeno para a função desvio indica que, para um número menor de parâmetros, obtém-se um ajuste tão bom quanto o ajuste com o modelo saturado. A Análise de Deviance (ANODEV) é uma generalização da Análise de Variância para os modelos lineares generalizados, visando obter, a partir de uma sequência de modelos, cada um incluindo mais termos que os anteriores, os efeitos de fatores, variáveis regressoras e suas interações. Dada uma sequência de mode- los encaixados, utiliza-se a deviance como uma medida de discrepância do modelo e forma-se uma tabela de diferenças de deviances. Esses modelos precisam ter ne- cessariamente a mesma distribuição para a variável resposta e as funções de ligações idênticas para serem comparados. A ANODEV é realizada com base no teste da razão de verossimilhança que envolve a comparação dos valores do logaritmo da função de verossimilhança maximizada. Quando se tem um vetor de parâmetros, muitas vezes há o interesse no teste de hipótese de apenas um subconjunto deles. Seja, então, uma partição de parâmetros β = (β1, β2) em que β1 de dimensão r é o vetor de interesse e β2 de dimensão (q − r) o vetor coeficientes considerados de nuisance. Sejam as hipóteses H0 : β1 = β1,0 e Ha : β1 �= β1,0 sendo β1,0 um vetor de valores especificados para β1. Sabendo que β̂ = (β̂1, β̂2) é o estimador de máxima verossimilhança para β sem restrição e β̂2,0 = (β1,0, β̂2,0) em que β̂2,0 é o estimador de β2 sob H0, tem-se que o teste da razão de verossimilhanças compara o logaritmo da função de verossimilhança maximizada sem restrição, dada por l(β̂1, β̂2;y) com o valor sob H0, dado por l(β1,0, β̂2,0;y). Esse teste é geralmente prefeŕıvel no caso de hipóteses relativas a vários coeficientes β’s. Se a diferença for grande, então, H0 é rejeitada. A estat́ıstica para esse teste é dada por: Λ = −2 ln λ = 2(l(β̂1, β̂2; y) − l(β1,0, β̂2,0;y)), que sob H0 se distribui assintóticamente de acordo com uma distribuição χ2 r. Para 13 amostras grandes, rejeita-se H0, ao ńıvel α de significância, se Λ > χ2 r,1−α. No caso do modelo (1) este teste se reduz ao teste F com o numerador sendo o acréscimo na Soma de Quadrados devido a β1, quando H0 : β1 = 0. Além do teste da razão de verossimilhança existem outros como o teste de Wald e o teste score (McCulloch et al., 2008). O teste de Wald é baseado na distribuição normal assintótica de β̂ e é uma generalização da estat́ıstica t de Student (Wald, 1941). É, geralmente, o mais usado no caso de hipóteses relativas a um único coeficiente βj. Tem como vantagem em relação ao teste da razão de verossimilhanças, o fato de não haver necessidade de se calcular β̂2,0. A estat́ıstica para esse teste é dada por W = (β̂1 − β1,0) ′(V̂ (β̂1)) −1(β̂1 − β1,0), sendo que, para amostras grandes rejeita-se H0, ao ńıvel α de significância se W > χ2 r,1−α. A partir da estat́ıstica de teste da razão de verossimilhanças, uma região de confiança para β1, com coeficiente de confiança (1 − α), inclui todos os valores de β1 tais que 2(l(β̂1, β̂2,y) − l(β1, β̂2,1;y)) < χ2 q,1−α sendo β̂2,1 a estimativa de verossimilhança de β2 para cada valor de β1 que é testado ser pertencente ou não à região. Para um parâmetro βj o intervalo de confiança a 100(1 − α)% obtido pela estat́ıstica de Wald é dado por β̂j ± zα 2 σ̂β̂j . Para os Modelos Lineares e Lineares Generalizados existe uma extensa lista de referência que tratam da checagem das suposições usuais desses modelos, como análise de reśıduos e diagnósticos, uma referência clássica é Mosteller et al. (1977) para modelos lineares e Collett (1991) para modelos loǵısticos. 14 2.2.1 Regressão Loǵıstica A Regressão Loǵıstica é um modelo particular da classe dos Modelos Lineares Generalizados em que a variável resposta Y assume distribuição Binomial ou Bernoulli e a função de ligação é do tipo logito. Esse modelo tem grande aplicação nas mais diversas áreas pois se encaixa bem nos estudos em que a unidade de ob- servação é classificada em duas categorias, genericamente tratadas como sucesso ou fracasso. Seja Y ∼ Binomial(n, π) em que n é o número de unidades, consideradas independentes, de observação a serem classificadas como sucesso e π a probabilidade de se observar sucesso na j-ésima unidade (j = 1, 2, . . . , n). Y representa o número de sucessos em n. Se n = 1 tem-se que Y é uma variável binária. Suponha que N realizações (yi, i = 1, 2, . . . , N) de Y são tomadas, sendo que cada realização pode ser tomada sob diferentes condições de forma que π possa variar em i. Na prática é comum n variar em i também. Segue que E(Yi) = niπi e V ar(Yi) = niπi(1−πi). Se- jam xij (i = 1, 2, . . . , N e j = 1, 2, . . . , k) os valores das covariáveis que representam as condições na observação i, que possivelmente afetam πi. O modelo linear loǵıstico é dado por logit(πi) = log πi 1 − πi = β0 + β1x1i + β2x2i + . . . + βkxki. Aplicando a transformação inversa obtém-se πi = eβ0+β1xi1+β2xi2+...+βkxik 1 + eβ0+β1xi1+β2xi2+...+βkxik . Escrevendo π = (π1, π2, . . . , πN)′ tem-se π = eη 1 + eη em que ηi = ∑k j=0 βjxij = x′ iβ, e então η = Xβ (xi0 = 1 para qualquer i). Particularizando a interpretação da relação entre π e uma variável explanatória Xj tem-se que ela é sempre sigmóide, crescente se βj > 0 e decrescente se βj < 0, enquanto que a função logit(π) é linearmente relacionada a Xj. 15 Várias quantidades derivadas da expressão do modelo loǵıstico são de grande interesse prático. Por exemplo Oi = πi/(1 − πi) = eη i mede a chance de sucesso, cujo termo em Inglês, também bastante usado em Por- tuguês, é odds. A razão de chances ou odds ratio é dada por ORii′ = Oi Oi′ πi/(1 − πi) πi′/(1 − πi′) = eηi−ηi′ que compara a chance do evento de interesse ocorrer sob as duas condições i e i′ e é, portanto, interpretada como uma medida relativa do risco do evento ocorrer. Como πi é função de xi convém escrever πi = π(xi). Em regressão linear, cada coeficiente da regressão está relacionado à variação em E(y) quando do incremento de uma unidade no valor da variável regres- sora respectiva, dado todas as demais regressores mantidas constantes. No modelo loǵıstico a interpretação é similar, ilustrando o caso de apenas uma variável regressora para simplificar, leva ao resultado β1 = logit(π(x + 1)) − logit(π(x)) = log(O(x + 1)) − log(O(x)) = log ( O(x + 1) O(x) ) = log(eβ1). O mesmo resultado é obtido quando há várias variáveis regressoras e o valor de apenas uma delas é incrementado de uma unidade. Desta forma, tem-se que eβj representa a razão de chances quando Xj aumenta em uma unidade e os ńıveis das demais regressoras são mantidos constantes. Assim, βj representa o log[OR(xj + 1; xj)]. Os parâmetros β do Modelo Loǵıstico podem ser facilmente estimados usando-se o método de máxima verossimilhança. Dados as observações yi’s, a função de verossimilhança é dada por L(β) = N∏ i=1 ⎛⎜⎝ ni yi ⎞⎟⎠ πyi i (1 − πi) ni−yi 16 que depende das probabilidades desconhecidas, que por sua vez dependem dos parâmetros β. Assim, a função de verossimilhança pode ser escrita como uma função de β. O problema é obter os valores de β̂ que maximize L(β) ou equivalentemente logL(β) (l(β)). O logaritmo da função de verossimilhança é l(β) = N∑ i=1 ⎧⎪⎨⎪⎩log ⎛⎜⎝ ni yi ⎞⎟⎠+ yiηi − ni log(1 + eηi) ⎫⎪⎬⎪⎭ . Derivando-se l(β) com respeito a cada βj (j = 0, 1, . . . , k) tem-se k +1 equações não lineares ∂ ln L(β) ∂βj = N∑ i=1 yixij − N∑ i=1 nixije ηi(1 + eηi)−1, j = 0, 1, . . . , k que igualadas a zero e resolvidas numericamente resultam no estima- tidor de β (β̂). Uma vez obtido β̂, as outras quantidades de interesse como η, π, e as razões de chances são estimadas substituindo-se os β̂j’s nas respectivas expressões. Por exemplo, o preditor linear é obtido por η̂i = β̂0 + β̂1xi1 + β̂2xi2 + . . . + β̂kxik, e a probabilidade estimada π̂i é dada por π̂i = exp η̂i 1 + exp η̂i . A precisão de β̂ é aproximada pela expressão da variância assintótica de estimadores de máxima verossimilhança, dada por ̂ V ar(β̂) = (X′V̂X)−1, em que V̂ = ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ n−1 1 π̂1(1 − π̂1) 0 . . . 0 0 n−1 2 π̂2(1 − π̂2) . . . 0 ... ... ... ... 0 0 . . . n−1 N π̂N(1 − π̂N) ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ . 17 Testes de hipóteses e construção de intervalos de confiança para β são usualmente baseados nas propriedades assintóticas de β̂. Por exemplo, o intervalo com 100(1 − α)% de confiança para βj (j = 0, 1, . . . , k) baseado na estat́ıstica de Wald é da forma β̂j ± zα 2 √ ̂ V ar(β̂j). Similarmente, um intervalo de confiança aproximado para a razão de chances OR(xj + 1, xj) é dado por⎡⎣eβ̂j−z α 2 √ ̂V ar(β̂j); e β̂j+z α 2 √ ̂V ar(β̂j) ⎤⎦ . (6) 2.3 Modelo Binomial Misto Os modelos estat́ısticos apresentados nas seções anteriores são funções de parâmetros, ou seja, de coeficientes considerados fixos, e de um termo ou compo- nente aleatório. São genericamente chamados de modelos de efeitos fixos. No entanto existem situações em que a natureza das variáveis explanatórias e/ou a estrutura de aleatorização (sorteio) utilizada no experimento, ou amostragem, impõem ao modelo mais de um termo aleatório. Um modelo linear que é função dos parâmetros (efeitos das regressoras) e de mais de um componente aleatório é chamado de Modelo Misto. Um exemplo simples e clássico é o caso do Modelo Linear Misto para um experimento em blocos em que os blocos são considerados de efeitos aleatórios já que é razoável se pensar que aqueles utilizados no experimento constituem uma amostra aleatória de uma população de blocos posśıveis e não se tem interesse no efeito de nenhum deles em particular, apenas são utilizados como forma de controle da heterogeneidade nas respostas. O fato é que a incorporação de efeito aleatório no modelo induz uma estrutura de correlação entre unidades de observação sob uma mesma classificação do fator de efeito aleatório. No caso do Modelo Binomial, dado πi, a variância está automatica- mente determinada (V ar(yi) = πi(1 − πi)). Porém, é comum a análise de dados indicar uma variabilidade maior do que a esperada, fenômeno este chamado de so- bredispersão McCulloch et al. (2008), Collett (1991), Demétrio (2002) e Hinde & 18 Demétrio (1998). Muitas vezes isso ocorre pelo negligenciamento do plano de amos- tragem ou de delineamento na fase de modelagem. Por exemplo, num experimento em que yi, a resposta na unidade experimental i, é o número de sucesso em ni sub- unidades (ou observações), a rigor o Modelo Binomial não é apropriado já que a hipótese de independência entre as ni repetições é irreaĺıstica. A bibliografia especializada apresenta algumas alternativas para con- tornar o problema como o Modelo Beta-binomial que assume que πi’s são variáveis aleatórias com distribuição Beta. A flexibilidade desse modelo na incorporação de correlação entre observações que ocorrem agrupadas pode ser vista em Hinde & Demétrio (1998). O Modelo Binomial Misto é outra alternativa de extensão do modelo de efeitos fixos bastante flex́ıvel para modelar dados de contagem na presença de vários fatores que acarretam no posśıvel aumento de variabilidade, incorporando também uma estrutura de correlação entre as observações que naturalmente ocorrem agrupadas. O Modelo Binomial Misto será introduzido supondo um experimento inteiramente aleatorizado. Deseja-se modelar a proporção de sucessos yi em ni na unidade experimental i (i = 1, 2, . . . , N) em função das condições experimentais xi. Um modelo razoável é dado por E(yi|bi) = πi = eβ0+bi+β1xi 1 + eβ0+bi+β1xi niyi|bi ∼ Binomial(ni, πi) bi ∼ Normal(0, σ2 b ). (7) Esse modelo resulta numa correlação não negativa entre observações do mesmo grupo, ou seja, observações pertencentes à mesma unidade experimental tendem a ser mais parecidas do que observações de unidades experimentais diferentes. Quanto maior o valor de σ2 b maior a correlação. O parâmetro σ2 b é chamado de componente de variância. Assim, dado bi’s, os efeitos aletórios das unidades i’s, as respostas se- 19 guem o modelo loǵıstico no qual o intercepto varia com a unidade experimental, ou seja, permite-se heterogeneidade da probabilidade de sucesso nas unidades experi- mentais dentro de mesma condição experimental x. No caso de mais de uma variável regressora e mais de um fator com efeito aleatório, para o Modelo Binomial Misto o preditor linear é definido como η = log ( π 1 − π ) = Xβ + Zb, em que b é um vetor de efeitos aleatórios as quais as respostas estão sujeitas e Z é a matriz de colunas indicadoras dos fatores de efeitos aleatórios. Condicionando-se em b, βj tem a mesma interpretação do modelo de efeitos fixos. O método de estimação dos parâmetros é o de Máxima Verossimi- lhança. Para modelos com componente de variância, os parâmetros a serem esti- mados são o vetor β e σ2 b . Os efeitos aleatórios bi’s são variáveis aleatórias não ob- serváveis. A verossimilhança é constrúıda assumindo-se b dado e então eliminando-os da expressão tomando-se a integral, ou seja, obtendo-se L(β, σ2) = N∏ i=1 ∫ ∞ −∞ ni∏ j=1 e(bi+x′β)yij 1 + e(bi+x′β)yij e− b2 i 2σ2 √ 2πσ2 dbi. Na expressão acima yij é uma variável binária. A expressão deixa claro que a maxi- mização é complicada, mesmo para modelos bem simples não há forma fechada para a integral e aproximações numéricas são utilizadas. Para modelos com apenas um fator aleatório o procedimento de Gauss-Hermite pode ser utilizado. Para modelos mais complicados outros métodos como por exemplo Monte Carlo é recomendado Agresti (2007). Testes e intervalos de confiança para β são obtidos da maneira usual. O teste da razão de verossimilhanças pode ser usado para comparar modelos encaixados. Testes para os componentes de variância são mais dif́ıcies. Como σ2 b não pode ser negativo, a hipótese H0 : σ2 b = 0 especifica o valor do parâmetro no limite do espaço paramétrico e portanto o teste da razão de verossimilhanças não é válido. Para avaliação do ajuste no Modelo Misto destaca-se o cálculo dos reśıduos condicionais e marginais que são úteis para detectar violações do modelo. 20 O reśıduo condicional nada mais é do que a diferença entre a resposta observada e sua estimativa condicional, ou seja rc = y − (Xβ̂ + Zb̂). Xβ̂ + Zb̂ é a estimativa condicional de y, ou seja, dado b = b̂. O vetor b̂ é a predição dos efeitos aleatórios. Como nos outros modelos, é comum padronizar o reśıduo como forma de tornar a investigação mais fácil, Pinheiro & Bates (2000) sugerem usar rci/ √ ̂V (yi). Para a parte aleatória do modelo, o vetor b é suposto ter distribuição normal, portanto, o gráfico quantil quantil normal para os valores estimados de b é útil para checar esta suposição. 2.4 Polinômios Fracionários Em Modelos de Regressão, a relação entre a variável resposta e uma ou mais regressoras pode ser não linear, que muitas vezes, pode ser aproximada por curvas quadráticas ou cúbicas. A representação dessas curvas pode ser feita incluindo termos de potências nas variáveis regressoras. No entanto, potências de baixa ordem fornecem formas de curvas limitadas e de alta ordem podem não ajustar bem aos dados devido aos valores extremos, assim como, complicar o modelo atrapalhando a interpretação. Royston & Altman (1994) propuseram uma extensão dessa famı́lia de curvas chamada de Polinômios Fracionários (PF), cujos termos são restritos a um pequeno conjunto de inteiros e não inteiros pré-definidos. Os termos são selecionados de forma que os polinômios convencionais são um subconjunto dessa famı́lia. Os Modelos de Regressão utilizando PF têm aparecido na literatura de forma variada durante um longo peŕıodo a partir de uso de regras ditadas pela prática. Royston & Altman (1994) forneceram uma descrição unificada e um grau de formalização para eles. Eles são vantajosos por terem flexibilidade considerável no ajuste de modelos em que não há linearidade entre a resposta e as regressoras ou na parte sistemática de um MLG. Na realidade a ideia surgiu com Box & Tidwell 21 (1962), porém as dificuldades computacionais da época impediram sua disseminação nas aplicações. A proposta de restringir valores das potências a um conjunto restrito acarreta na facilidade de ajuste utilizando um método padrão. 2.4.1 Polinômios Fracionários para uma Variável Regressora Nesta secção, considera-se um modelo de regressão com apenas uma variável regressora e positiva. Definindo x0 = log x, então trans- formações do tipo xp para diferentes valores de p provenientes do conjunto S = {−2;−1;−0, 5; 0; 0, 5; 1; 2; 3}, podem ser razoáveis para tentar linearizar o modelo. Esse conjunto de valores incluem transformações usuais como 1 x e log x e também o modelo linear (p = 1). Royston & Altman (1994) desenvolveram uma estrutura para essas transformações, definindo funções da forma β0 + β1x p com p pertecente a S como polinômios fracionários de grau 1, denotado por PF1. Por exemplo, com p =0,5 a função do modelo é β0 + β1 √ x. Se um polinômio de grau 1 não for suficiente para encontrar a melhor transformação em x, eles definem os polinômios fracionários de grau 2, denotado por PF2, como β0 + β1x p1 + β2x p2 , com p1 e p2 pertencentes ao conjunto S. Naturalmente, o polinômio de grau m, com m inteiro e maior que 1, é denotado por PFm. Os modelos PF1 e PF2 podem gerar uma variedade de curvas bastante atrativas do ponto de vista de aplicações e por esse motivo, será dado mais atenção a essas duas classes de polinômios fracionários. Um modelo polinômial fracionário de grau 1 é definido como ϕ∗ 1(x; p) = β0 + β1x p = β0 + ϕ1(x; p), em que ϕ1(x; p) = β1x p. Para uma transformação de x de grau 2 (PF2) com potências p = (p1, p2) defini-se xp o vetor linha com xp = x(p1,p2) = ⎧⎪⎨⎪⎩ (xp1 , xp2), p1 �= p2 (xp1 , xp1 log x) p1 = p2 . 22 Assim um modelo com vetor de parâmetros de regressão β = (β1, β2) ′ e vetor de potências p é ϕ∗ 2(x;p) = β0 + β1x p1 + β2x p2 = β0 + xpβ = β0 + ϕ2(x;p). A constante β0 é opcional e depende do contexto. Por exemplo, β0 é usado nos modelos com erros normais e em geral nos modelos loǵısticos, mas não nos modelos de regressão de Cox. Uma definição geral de uma função PFm com potências p = (p1 ≤ p2 ≤ . . . ≤ pm) é facilmente escrita como uma relação de recorrência. Supondo h0(x) = 1 e p0 = 0, tem-se ϕ∗ m(x;p) = β0 + ϕm(x;p) = m∑ j=1 βjhj(x) em que hj(x) = ⎧⎪⎨⎪⎩ xpj , pj �= pj−1 hj−1(x) log x pj = pj−1 para j = 1, . . . ,m. Note que ϕ∗ inclui o termo β0, enquanto a função ϕ o exclui. Por exemplo, para m = 2 e p = (−1, 2) tem-se h1(x) = x−1, h2(x) = x2, então o modelo pode ser escrito como β0 + β1 1 x + β2x 2. Para p = (2, 2) tem-se h1(x) = x2, h2(x) = x2 log x e o modelo β0 + β1x 2 + β2x 2 log x. A prática mostra que raramente é necessário um polinômio com grau maior que 2 para ajustar uma regressora no Modelo de Regressão. Os Modelos de Polinômios Fracionários podem ser ajustados via máxima verossimilhança. Fixado um valor da potência, a estimativa dos coeficientes de regressão consiste em encontrar um valor para β que maximiza a verossimilhança dos modelos com preditor linear β0 + xpβ. Para estimar p o método de MV é aplicado ao conjunto S discreto. O melhor modelo ajustado é aquele cujo valor de p apresenta maior verossimilhança. Para PF1, oito modelos devem ser ajustados, enquanto 36 modelos são examinados para PF2 (28 se p1 �= p2 mais 8 com p1 = p2). Suponha que a cada um dos m elementos de p nos modelos PFm seja permitido variar continuamente no intervalo (−∞,∞), em vez dos valores restritos 23 de S. Então β0 +ϕm(x;p) se torna um modelo não linear com 2m+1 parâmetros (m potências, m coeficientes de regressão mais o intercepto). Seja D(m,p) a deviance de um modelo PFm com potências p, e D(0) a deviance do modelo nulo (só com β0 no preditor), e seja p̂ a Estimativa de Máxima Verossimilhança (EMV) para p. Sob a hipótese nula β = 0, a distribuição de D(0) − D(m, p̂) é aproximadamente χ2 com 2m graus de liberdade (Royston e Altman, 1994). Este resultado se aplica assintoticamente a todos os modelos considerados neste estudo. Seja pPF a EMV das potências p restritas ao conjunto S. Então D(m, p̂) ≤ D(m,pPF ). A diferença da deviance ΔDPF = D(0)−D(m,pFP ) também tem distribuição aproximadamente χ2 com 2m graus de liberdade. Ambler e Royston (2001), a partir de estudos de simulação, comentam que a probabilidade de signi- ficância encontrada para o conjunto restrito é superestimada em relação ao valor p para o conjunto de valores reais, mas concluiram que, a versão restrita pode ser uma boa aproximação e traz vantagens no processo de estimação, evitando os problemas de convergência frequentes nos modelos não lineares. Ainda, a versão discretizada está estreitamente ligada à facilidade de interpretação do modelo ajustado. Por similaridade, a diferença da deviance entre os modelos PFm e PF(m − 1) é aproximadamente distribúıda como χ2 com 2 graus de liberdade, sob a hipótese nula que os β’s adicionais são iguais a zero. Para uma variável X, a comparação entre os modelos PF1 e PF2 requer 2 graus de liberdade, e entre os modelos PF1 e linear requer 1 grau de liberdade. Um modelo do tipo PF1 está aninhado em um do tipo PF2 no sentido que, para cada modelo PF1 com potências p∗1, há oito modelos PF2 com potências (p∗1, p2). Assim, os procedimentos para comparação de modelos aninhados podem ser aplicados de maneira usual. Em Modelos de Regressão com Erros Normais, a distribuição F é usada ao invés da distribuição χ2 para testar hipóteses (comparar modelos), melhorando as aproximações em amostras pequenas. Intervalos de Confiança (IC) para a curva ajustada podem ser calcu- 24 lados por aproximações via métodos usuais ignorando o erro de estimação de pPF , ou via métodos de reamostragem como o bootstrap. A escolha do melhor modelo PF1 ou PF2 pelo critério de deviance seria simples. Contudo, ter uma função padrão é importante para dar parcimônia, estabilidade e utilidade geral para as funções selecionadas. Na maioria dos algoritmos que implementam a modelagem via PF, a função padrão é a linear. Para uma variável explicativa X, Royston e Altman (1994) sugerem o seguinte procedimento para selecionar a curva que melhor ajusta os dados. A variável X é incluida no modelo devido a significância do teste de comparação a um ńıvel pré-estabelecido (ou devido algum outro critério definido a priori), e suas potências são determinadas pelos seguintes passos: 1. Teste o melhor modelo PF2 para X contra o modelo nulo (somente β0) usando 4 graus de liberdade. Se o resultado do teste for não significativo, pare, con- cluindo que o efeito de X é não significativo ao ńıvel α. Caso contrário, conti- nue. 2. Teste o melhor modelo PF2 para X contra o modelo linear (β0+β1X) usando 3 graus de liberdade. Se o resultado do teste é não significativo, pare, e o modelo final é uma reta. Caso contrário, continue. 3. Teste o melhor modelo PF2 para X contra o melhor modelo PF1 usando 2 graus de liberdade. Se o resultado do teste é não significativo, pare, e o modelo final é do tipo PF1. Caso contrário, o modelo final é FP2. Fim do procedimento. O teste no passo 1 é um teste de associação global das respostas com X. O teste no passo 2 examina evidências de não-linearidade. E no passo 3, escolhe- se entre um modelo não-linear simples ou mais complexo. Um procedimento similar pode ser aplicado para modelos com grau m maior que 2. Quanto maior o valor de m mais complexo o modelo. Normalmente, é escolhido m = 2 e α =0,05. Como em qualquer tipo de procedimento de seleção de variáveis ou de modelos, o método proposto está sujeito a probabilidade do erro tipo I ser mais 25 alta e/ou perda de poder. Ambler & Royston (2001) estudaram esse problema e concluiram que, no geral, o procedimento é conservador rejeitando a hipótese nula quando ela é verdadeira com menor probabilidade do que o ńıvel de significância nominal. No ajuste dos modelos, devido a problemas computacionais, recomenda-se corrigir a escala e centrar as variáveis quando a ordem de magnitude pode causar problemas numéricos. Além disso, como o modelo PF é definido para X > 0 e a variável regressora apresentar valores iguais a zero, sugere-se a adição de uma constante c, de forma que x + c > 0. Nota-se que o procedimento de modelagem proposto pode ser aplicado utilizando qualquer programa ou pacote capaz de ajustar modelos de regressão li- neares. Porém, existe um pacote automático desenvolvido por Gareth Ambler e Axel Benner chamado mfp (Ambler & Royston (2001) e Royston & Altman (1994)) dispońıvel no software R (R Development Core Team, 2010). Exitem também ferra- mentas automáticas no SAS (Software, 2008) e STATA (Stata Statistical Software: Release 12., 2011). 2.4.2 Exemplo Será apresentado, na sequência, um exemplo de Royston & Altman (1994) para esclarecer melhor a ideia da modelagem por Polinômios Fracionários apresentada até aqui. O exemplo tem com base o conjunto de dados identificado por Whitehall I que foi tratado por Royston & Altman (1994) e também Royston & Sauerbrei (2008). A análise desses dados foi reproduzida como forma de aprendizado e exploração das ferramentas computacionais dispońıveis. Trata-se de um estudo de coorte prospectivo com 17260 servidores civis do governo britânico, cujo objetivo principal foi estudar a associação entre óbito e a pressão arterial sistólica (sysbp), num peŕıodo de 10 anos. Então, para o exemplo, a resposta é binária (óbito no peŕıodo (1670 casos) ou não) e a explicativa sysbp é quantitativa com média observada igual 136, 1 mmHg. A classe de modelos sugerida é a de Regressão Loǵıstica que tentará 26 explicar o logaritmo da chance de óbito por uma função de sysbp. Dado o conjunto de potências posśıveis S e considerando PF no máximo grau 2 como sugerem os autores, tem-se 8 modelos ajustados de grau 1 e 36 modelos ajustados de grau 2. Para escolher qual o melhor ajuste, utilizam-se as diferenças de deviances comparando com a função base definida pela a função linear. O melhor modelo é aquele que produz a maior diferença de deviance em relação à função linear. A Tabela 1 apresenta as diferenças entre as deviances comparadas com a deviance do modelo linear para todos os 8 modelos de PF1 e todos os 36 mode- los de PF2 considerando a variável sysbp como explicativa. A maior diferença de deviance mostra o melhor ajuste das potências dos modelos de PF1 e PF2. Como pode ser visto, os melhores modelos de PF1 e PF2 tem potências 2 e (−2,−2), respectivamente. Os passos do procedimento de seleção entre esses dois modelos e os resultados de cada teste são mostrados na Tabela 2. Para escolher o melhor entre os graus 1 e 2 do polinômio fracionário a sequência proposta de comparações é: (1) PF2 versus modelo nulo, resultado é significativo, (2) PF2 versus modelo linear, resultado é significativo, e (3) PF2 versus PF1, resultado também é significativo ao ńıvel de 5% de significância. Portanto, baseado no critério usado, o melhor modelo é do tipo PF2. A Figura 1 mostra a diferença entre os ajustes do modelo PF1(2) e modelo PF2(-2,-2) indicando a flexibilidade do segundo modelo. Salienta-se que, embora o gráfico mostra alguns pontos bastante destacados dos demais, o logaritmo da odds de óbito observado foi calculado com base no número de óbitos dividido pelo número total de servidores para cada valor de sysbp. Em alguns casos, o número de réplicas foi bem baixo fazendo com que tais estimativas sejam bastante incertas. Como padrão, os softwares dispońıveis hoje para a técnica de PF au- tomatizada (SAS, Stata e R) tranformam, se apropriado, os valores observados das covariáveis dividindo todos por uma constante para obter estabilidade numérica. No exemplo, como o melhor modelo indicou PF2(-2,-2), para ajustar o 27 Tabela 1: Estimativas dos parâmetros do PF para os modelos tentativos e suas respectivas diferenças de deviances (D) PF1 PF2 p D p1 p2 D p1 p2 D p1 p2 D −2 -79,19 −2 −2 26,22 −1 1 12,97 0 2 7,05 −1 -43,15 −2 −1 24,43 −1 2 7,80 0 3 3,74 -0,5 -29,40 −2 -0,5 22,80 −1 3 2,53 0,5 0,5 10,95 0 -17,37 −2 0 20,72 -0,5 -0,5 17,93 0,5 1 9,51 0,5 -7,45 −2 0,5 18,23 -0,5 0 16,00 0,5 2 6,80 1 0,00 −2 1 15,38 -0,5 0,5 13,93 0,5 3 4,41 2 6,43 −2 2 8,85 -0,5 1 11,77 1 1 8,46 3 0,98 −2 3 1,63 -0,5 2 7,39 1 2 6,61 −1 -1 21,62 -0,5 3 3,10 1 3 5,11 −1 -0,5 19,78 0 0 14,24 2 2 6,44 −1 0 17,69 0 0,5 12,43 2 3 6,45 −1 0,5 15,41 0 1 10,61 3 3 7,59 Modelo de Regressão Loǵıstica são requeridas duas covariáveis: X∗−2 e X∗−2 log X, em que X∗ = sysbp/100. Ainda, para facilidade de interpretação recomenda-se centrar as variáveis na média, que no caso, se equivale a obtenção de (136, 1/100)−2 = 0, 5399 e (136, 1/100)−2 log(136, 1/100) = 0, 1664. Fazendo, então, X1 = X∗−2 − 0, 5399 e X2 = X∗−2 log X∗−0, 1664, tem-se que o preditor linear do modelo loǵıstico é dado por β0 + β1X1 + β2X2. Os parâmetros estimados, erros padrão e a matriz de variância-covariância das estimativas são apresentados na Tabela 3. A constante β̂0 = −2, 388 fornece o valor preditivo do logaritmo da chance de morte para um indiv́ıduo da amostra que tenha pressão média (136, 1mmHg), e fornece a probabilidade de óbito estimada de exp (−2, 388)/(1 + exp (−2, 388)) = 0, 084. Ilustra-se, a seguir, o cálculo da variância do erro padrão do valor de predição η̂ deste modelo, ignorando no cálculo o fato de que as potências do PF são 28 Tabela 2: Aplicação dos procedimentos de testes para selecionar o melhor modelo Modelo deviance p̂ Comparação D Valor p PF2 10641,17 -2;-2 PF2 vs Nulo PF2 vs Linear 33,57 26,22 < 0,001 < 0,001 PF1 10660,96 2 PF2 vs PF1 19,79 < 0,001 Linear 10667,39 1 Nulo 10973,74 Tabela 3: Estimativas dos coeficientes e matriz de variância e covariância para o modelo loǵıstico com preditor linear do tipo PF2 para pressão arterial sistólica Parâmetro Estimativa Erro padrão (EP) Matriz de Var-Cov β̂1 -5,433 0,321 0,103 β̂2 -14,300 1,317 0,374 1,734 β̂0 -2,388 0,032 0,005 0,024 0,001 estimadas, onde η̂ estima o logaritmo da chance de um indiv́ıduo morrer dado o valor da covariável. A variância de η̂ com (X1, X2) é calculada de acordo com V (η̂(x1, x2)) = V (β̂0 + β̂1X1 + β̂2X2) = V (β̂0) + V (β̂1)X 2 1 + V (β̂2)X 2 2 + 2Cov(β̂0, β̂1)X1 +2Cov(β̂0, β̂2)X2 + 2Cov(β̂1, β̂2)X1X2. Por exemplo, com X = 150mmHg então X∗ = 1, 5, X1 = −0, 095, X2 = 0, 013, η̂(150) = −2, 066. A partir da equação acima, temos V (η̂(150)) = 0, 000936, EP (η̂(150)) = 0, 03. A probabilidade estimada de óbito é exp η̂/(1 + exp η̂) = 0, 1124 e o intervalo de confiança aproximado é dado por exp (η̂ ± 1, 96EP (η̂)) 1 + exp (η̂ ± 1, 96EP (η̂)) = (0, 1066; 0, 1185). Finalmente pode-se calcular a estimativa odds ratio (razão de chances) 29 100 150 200 250 −3 −2 −1 0 Pressão sistólica Lo g od ds d e ób ito PF2 (−2,−2) PF1 (2) Figura 1 - Modelos ajustados por PF1(2) e PF2(-2,-2). e seu intervalo de confiança para comparar um dado valor de X com um valor referência Xref . Portanto, LogOR = (β̂0 + β̂1X1 + β̂2X2) − (β̂0 + β̂1X ref 1 + β̂2X ref 2 ) = β̂1(X1 − Xref 1 ) + β̂2(X2 − Xref 2 ), onde Xref 1 = X−2 ref − 0, 5399, Xref 2 = X−2 ref log X∗ ref − 0, 1664, X∗ ref = Xref/100. Sua variância estimada é V (LogOR) = V (β̂1)(X1 − Xref 1 )2 + V (β̂2)(X2 − Xref 2 )2 +2Cov(β̂1, β̂2)(X1 − Xref 1 )(X2 − Xref 2 ). Usando, por exemplo, X = 150mmHg e Xref = 105mmHg, encon- tramos Xref 1 = 0, 3671, Xref 2 = −0, 1221, logOR = 0, 5691, V (logOR) = 0, 007, 30 EP (logOR) = 0, 08. A razão de chances é dada por exp (0, 5691) = 1, 77 com intervalo de confiança dado por (1, 50; 2, 08). Esta seção teve o objetivo de ilustrar a forma de seleção dos modelos proposta por Royston & Altman (1994) e a estimação dos parâmetros. Porém, lembra-se que realização do estudo de diagnóstico do modelo e análise de reśıduo são fundamentais para colaborar com a seleção do modelo. Nas aplicações a seguir será feito um estudo mais detalhado desse assunto. 3 APLICAÇÕES Para ilustrar a flexibilidade da técnica de Polinômios Fracionários, será apresentado neste caṕıtulo três exemplos. O primeiro é um exemplo descrito em Collett (1991), em que micro- organismos foram estudados para detectar em qual densidade relativa eles ficariam em suspensão em tubos com uma determinada solução. Para isso foi utilizado a metodologia da Regressão Loǵıstica usual, Regressão Loǵıstica transformada pelos PFs e o Modelo Binomial Misto. O segundo exemplo trata de um estudo realizado com fungos, cujo ob- jetivo foi estudar a tolerância de células cultivadas a diferentes temperaturas. Como no exemplo anterior, o modelo mais adequado encontrado foi o Modelo Binomial Misto transformado pelo PF. O terceiro exemplo traz uma aplicação de PF a dados de comprimentos e pesos de aranhas fêmeas coletados no Jardim Botânico de Botucatu, o objetivo principal foi estudar a relação entre essas duas caracteŕısticas e modelar o peso em função do tamanho. A modelagem envolveu transformações do tipo Box-Cox na variável peso e de PF na variável regressora. 3.1 Exemplo 1: Estimação da densidade de Rot́ıferos Os dados deste experimento foram apresentados em Collett (1991) que utilizou um Modelo Binomial Misto devido à sobredispersão. O experimento envolveu duas espécies de microorganismos aquáticos, pertencentes ao filo Rotifera, comuns no zooplâncton de água doce. O objetivo foi determinar as densidades relativas de 32 cada espécie. Aqui será considerada apenas a espécie Keratella cochlearis. As densidades relativas dos rot́ıferos foram obtidas usando um método indireto. Certas quantidades de microorganismos foram centrifugadas em tubos com soluções de diferentes densidades conhecidas. O número de indiv́ıduos centrifugados por tubo variou. Ao final do experimento contou-se o número de ind́ıviduos em suspensão em cada tubo. A densidade relativa da espécie é estimada pela densidade da solução que proporciona 50% dos animais em suspensão, ou seja, a quantidade conhecida por LD50. Portanto considerando a densidade como variável regressora e a resposta binária (rot́ıfero em suspensão ou não) foram ajustados modelos loǵısticos com preditor linear do tipo η = log ( πi 1 − πi ) = ϕm(xi,p), em que πi é a probabilidade de um rot́ıfero ficar em suspensão na densidade xi. Embora a natureza do experimento leva diretamente à proposta de um Modelo Misto, aqui será apresentado uma sequência de estratégias que são comu- mente utilizadas na prática. Vários modelos foram ajustados, desde o mais simples até o Modelo Misto com variável regressora transformada por PF. O primeiro de- les, um Modelo Loǵıstico com efeito linear de X, ou seja, m = 1 e p = 1 (Modelo Original), resultou na equação η̂ = −114,35(4,03) + 108,75(3,86)X, em que os valores entre parênteses são os erros-padrão. Esse ajuste mostrou sobre- dispersão (deviance=300,19 e 18 graus de liberdade), posśıveis pontos influentes e valores altos de reśıduos como pode ser visto na Figura 2. Portanto considera-se que o ajuste não está adequado. O gráfico da esquerda da Figura 2 indica falta de ajuste no preditor linear. O segundo modelo ajustado foi o loǵıstico considerando a técnica de PF para tentar melhorar a falta de ajuste. O modelo encontrado é um modelo de segundo grau (m = 2) com a melhor transformação p1 = p2 = 3, referido como 33 −3 −2 −1 0 1 2 −5 0 5 Predicted values Re sid ua ls Residuals vs Fitted 14 203 0.00 0.10 0.20 −5 0 5 10 Leverage St d. Pe ar so n r es id. Cook’s distance 1 0.5 0.5 1 Residuals vs Leverage 3 14 20 Figura 2 - Análise de reśıduos para o Modelo Original, Exemplo 1. Modelo PF, cuja expressão do preditor linear ajustado é η̂ = 701,17(63,58) − 701,37(63,18)X3 + 1947,84(168,61)X3 log X. (8) Esse modelo apresentou deviance de 143,19 e 15 graus de liberdade. A deviance praticamente diminuiu pela metade, porém, não o suficiente para resolver o problema de sobredispersão. O ajuste ainda apresenta alguns valores altos de reśıduos para algumas densidades, e indica posśıveis pontos influentes nas estimativas como pode ser visto na Figura 3. A Figura 4 mostra a flexibilidade do Modelo PF para explicar a relação entre a probabilidade de suspensão dos rot́ıferos e a densidade relativa, já que a curva ajustada acompanha melhor os pontos do que a curva ajustada pelo modelo linear. Como o planejamento do experimento já indicava a necessidade de inclusão de efeito aleatório para cada tubo (unidade experimental), fato também apontado pelas análises preliminares que indicaram variação extra-binomial nos da- dos, dois Modelos Mistos foram ajustados, um com X sem transformar e o outro incorporando a técnica de PF no Modelo Binomial Misto. A equação ajustada para 34 −2 −1 0 1 2 3 −4 −2 0 2 4 6 Predicted values Re sid ua ls Residuals vs Fitted 15 6 4 0.00 0.10 0.20 0.30 −4 −2 0 2 4 6 Leverage St d. Pe ar so n r es id. Cook’s distance 1 0.5 0.5 1 Residuals vs Leverage 15 2 14 Figura 3 - Análise de reśıduos para o Modelo PF, Exemplo 1. a parte fixa do Modelo Misto mais simples foi η̂ = −123,68(16,33) + 117,93(15,64)X, (9) com componente de variância estimada igual a 1, 21. A deviance resultante deste modelo é 76,43 com 17 graus de liberdade. Na análise de reśıduos para este modelo (Figura 5) percebe-se uma observação com reśıduo bem maior do que as demais assim como uma tendência de curvatura em função da densidade (X). A suposição de normalidade dos efeitos aleatórios parece razoável, porém com um ponto bem longe do esperado. Transformações em X também podem ser usadas no Modelo Misto. Intuitivamente espera-se que a melhor transformação encontrada para o modelo só com efeitos de X seja também a melhor para o Modelo Misto. No entanto, a me- todologia de busca do polinômio proposta por Royston & Sauerbrei (2008) pode ser estendida para o Modelo Misto. Para este exemplo, essa busca levou às mesmas potências encontradas no Modelo PF. Essa tranformação é de segundo grau, com 35 1.02 1.03 1.04 1.05 1.06 1.07 0.0 0.2 0.4 0.6 0.8 1.0 Densidade Pr op or çã o d os R otí fer os Modelo PF Modelo Original Figura 4 - Curvas das probabilidades ajustadas pelo Modelo Original e pelo Modelo PF, Exemplo 1. p1 = p2 = 3. A estimativa da parte fixa desse modelo é η̂ = 690,2(183,2) − 690,6(181,9)X3 + 1923,3(482,1)X3 log X, (10) e a componente de variância estimada é igual a 0,5654. A transformação ajudou a reduzir um pouco mais a deviance que passou de 76,43 com 17 graus de liberdade para 63,99 com 14 graus de liberdade. Os gráficos de reśıduos (Figura 6) deste modelo dado a transformação na variável regressora não levanta muitas preocupações com relação à qualidade do ajuste. Vale notar que o efeito de X sobre a resposta é muito grande e portanto, todos os modelos o detecta sem problemas. No entanto, dado o objetivo do experimento ser o de estimar a LD50, conclui-se que o melhor modelo é aquele que acompanha melhor os dados e nesse caso, como mostra a Figura 4, a transformação PF captura bem o comportamento. Para ilustrar as diferenças, a estimativa da LD50 pelo modelo mais simples foi igual a 1,0514 com o intervalo de 95% de confiança estimado em (1, 0506; 1, 0526) e pelo modelo mais completo igual a 1,0541 com intervalo de confiança de (1, 0537; 1, 0556). 36 1.02 1.04 1.06 − 0. 5 0. 0 0. 5 1. 0 Densidade R es íd uo 5 10 15 20 − 0. 5 0. 0 0. 5 1. 0 Número da observação R es íd uo −2 −1 0 1 2 − 0. 5 0. 0 0. 5 1. 0 Quantil normal R es íd uo −2 −1 0 1 2 − 1. 0 0. 0 1. 0 Quantil normal E fe ito a le at ór io Figura 5 - Análise de Reśıduos para o Modelo Binomial Misto com X linear, dado por (9), Exemplo 1. 37 1.02 1.04 1.06 − 0. 5 0. 0 0. 5 1. 0 Densidade R es íd uo 5 10 15 20 − 0. 5 0. 0 0. 5 1. 0 Número da observação R es íd uo −2 −1 0 1 2 − 0. 5 0. 0 0. 5 1. 0 Quantil normal R es íd uo −2 −1 0 1 2 − 1. 0 0. 0 1. 0 Quantil normal E fe ito a le at ór io Figura 6 - Análise de reśıduos para o Modelo Binomial Misto transformado, dado por (10), Exemplo 1. 38 3.2 Exemplo 2: Tolerância do Paracoccidioides brasiliensis a altas temperaturas Esse conjunto de dados origina-se de um estudo experimental para in- vestigar a tolerância de culturas de células de isolados do fungo Paracoccidioides brasiliensis a altas temperaturas. Esse fungo é o agente causador da Paracoccidi- oidomicose (PCM), uma micose sistêmica endêmica de regiões rurais da América Latina, considerado um importante problema de saúde pública no Brasil, por inca- pacitar e levar a óbito, principalmente homens na idade ativa. Amostras do fungo são encontradas em tecidos de humanos, cães e tatus. Theodoro et al. (2008) isola- ram amostras do fungo em vários organismos e, dentre outros objetivos, estudaram a tolerância à temperatura de células cultivadas. Nesse exemplo foi utilizado ape- nas amostra de um dos isolados. Fragmentos de fungo sofreram pré-cultura padrão, após o qual amostras foram tomadas e cultivadas por mais 15 dias variando-se a temperatura em cinco ńıveis igualmente espaçados entre 37 e 41oC. Para cada tra- tamento foram realizadas cinco réplicas. Em cada réplica contou-se o número de células viáveis e o número de células mortas da cultura. Novamente o delineamento experimental sugere o uso de um Modelo Binomial Misto, porém seguindo a mesma sequência de estratégias de modelagem do exemplo anterior, inicialmente foi ajustado o Modelo de Regressão Loǵıstica usual sem transformação. Este modelo apresentou sobredispersão dos dados uma vez que sua deviance é de 230,34 com 23 graus de liberdade e ainda a análise de reśıduos não foi satisfatória pois o ajuste mostrou valores altos para os reśıduos, sendo alguns pontos influentes. Aplicando a técnica de PF, o melhor modelo se revelou de segundo grau (m = 2) com a transformação (p1 = p2 = −2), cuja expressão para o preditor linear ajustado é dado por: η̂ = −551,8(53,25) + 228,9(23,13)X−2 + 153,7(15,96)X−2 log X. (11) Esse modelo apresentou deviance de 163,6 e 20 graus de liberdade. A 39 37 38 39 40 41 − 0. 6 − 0. 2 0. 2 0. 4 Temperatura R es íd uo 5 10 15 20 25 − 0. 6 − 0. 2 0. 2 0. 4 Número da observação R es íd uo −2 −1 0 1 2 − 0. 6 − 0. 2 0. 2 0. 4 Quantil normal R es íd uo −2 −1 0 1 2 − 1. 5 − 0. 5 0. 5 Quantil normal E fe ito a le at ór io Figura 7 - Análise de Reśıduos para o Modelo Binomial Misto com efeito linear de X, Exemplo 2. 40 deviance diminui, porém, ainda é bem mais alta do que o esperado. O ajuste ainda apresenta valores altos de reśıduos para algumas temperaturas, indicando posśıveis pontos influentes nas estimativas e falta de ajuste do modelo. Aparentemente tem-se o mesmo problema de sobredispersão do exem- plo anterior, e assim como Collett (1991) sugere, o próximo passo foi ajustar um modelo considerando as unidades experimentais com efeitos aleátorios. Para efeito de comparação ajustou-se o Modelo Binomial Misto com apenas o termo linear de temperatura. As seguintes estimativas para os parâmetros da parte fixa do modelo é dada por η̂ = 90, 43(8, 38) − 2, 31(0, 21)X. A estimativa para a componente de variância é 1,71, a deviance é 78,31 com 22 graus de liberdade. Apesar da deviance ter praticamente diminuido pela metade, a análise de reśıduos mostrou ind́ıcios de falta de ajuste do modelo já que os pontos se apresentam de forma tendenciosa como pode ser visto na Figura 7. Aplicando a técnica de PF para tentar resolver o problema da falta de ajuste e melhorar os gráficos de checagem das suposições do modelo, a transformação indicada foi a mesma do modelo de efeitos fixos, ou seja um modelo de segundo grau com p1 = p2 = −2 como sendo as melhores potências para transformar a variável temperatura. O Modelo Binomial Misto com trasformação na temperatura apresentou as seguintes estimativas para os parâmetros da parte fixa η̂ = −466,6(116,5) + 191,7(50,8)X−2 + 128,0(35,1)X−2 log X. (12) A estimativa da componente de variância é 1,14, a deviance igual a 69,94 com 19 graus de liberdade. Para este modelo a análise de reśıduos se apresentou de forma satisfatória as suposições iniciais (Figura 8), além da deviance diminuir um pouco mais em relação ao modelo anterior. O problema da falta de ajuste também parece ter sido sanado. Portanto, conclúımos que, dentre os modelos investigados, o que se mostrou mais apropriado para ajustar a probabilidade de células viáveis do fungo 41 37 38 39 40 41 − 0. 6 − 0. 2 0. 0 0. 2 0. 4 Temperatura R es íd uo 5 10 15 20 25 − 0. 6 − 0. 2 0. 0 0. 2 0. 4 Número da observação R es íd uo −2 −1 0 1 2 − 0. 6 − 0. 2 0. 0 0. 2 0. 4 Quantil normal R es íd uo −2 −1 0 1 2 − 1 0 1 2 Quantil normal E fe ito a le at ór io Figura 8 - Análise de reśıduos para o Modelo Binomial Misto transformado, Exemplo 2. 42 em relação à temperatura foi o Modelo Binomial Misto com a variável temperatura transformada por um PF de segundo grau. Para ilustrar as consequências nas interpretações dos resultados dos diversos modelos, intervalos de confiança para a razão de chances foram constrúıdos. Vale notar que o Modelo Loǵıstico usual assume razão de chances constante quando se aumenta a temperatura em uma unidade, independentemente da referência. Em alguns casos essa pode ser a razão da frequente falta de ajuste de tal modelo. Já o Modelo PF apresenta a flexibilidade de razões de chances dependentes da referência. Embora a interpretação se torna mais complexa, o modelo representa melhor a rea- lidade. Foram calculadas estimativas do risco relativo quando muda-se a tem- peratura de 39o para 40oC, para o Modelo Linear sem transformação e para o Modelo Binomial Misto transformado. Para o Modelo Linear o risco é constante indepen- dente da temperatura, ou seja, o risco de morte da célula conforme aumenta-se a temperatura de 39o para 40oC é 11,13. O intervalo de 95% de confiança para esta estimativa é (9, 39; 13, 33). Para o Modelo Binomial Misto, o risco é bem maior, 17,15, com intervalo de confiança estimado em (10, 07; 29, 20). Definindo, agora, a mudança da temperatura 38o para 39oC, para o Modelo Misto, o risco diminui para 6,81 com intervalo de confiança de (4, 48; 10, 34). Como esperado, o intervalo de confiança para o Modelo Misto pode ser mais amplo do que o linear, dependendo da região de interesse. Isto se deve ao fato de se considerar as unidades experimentais como um fator aleatório, ou seja, a variabilidade extra. 3.3 Exemplo 3: Relação Peso e Comprimento de Aranhas A distinção direta entre aranhas fêmeas jovens e adultas (a partir das linhagens basais) dos gêneros (Mygalomorphae e Haplogynae) é impraticável em mui- tos estudos ecológicos, pois para a avaliação do seu estado reprodutivo a aranha ne- cessita estar morta. Acredita-se que o estado reprodutivo esteja relacionado à relação peso-tamanho dos indiv́ıduos. Nesse sentido, Stropa & Trinca (2005) estudaram a 43 relação entre o comprimento (mm) e peso (mg) do corpo de aranhas do tipo mar- rom (nome cient́ıfico) coletadas no Jardim Botânico do Instituto de Biociências de Botucatu (n = 289 indiv́ıduos). A natureza não linear da relação (Figura 9) e a forte evidência de heterogeneidade de variâncias levou os autores a aplicarem uma trans- formação ad hoc (logaritmica) no peso e estudar a relação através de Modelos de Regressão Segmentada. Nesta aplicação será feito um estudo diferenciado tentando explicar a relação entre as duas variáveis a partir de Polinômios Fracionários. 2 4 6 8 10 12 0 50 10 0 15 0 20 0 Comprimento (mm) Pe so (m g) Figura 9 - Diagrama de dispersão do Comprimento (mm) e Peso (mg) de aranhas, Exemplo 3. A metodologia de PF tem como objetivo corrigir problemas de falta de ajuste do modelo mas não consegue corrigir os desvios aos pressupostos do Modelo de Regressão clássico sobre a variável resposta. Embora a metodologia de Modelos Lineares Generalizados estende em muito as alternativas de modelagem, na prática, ainda pode-se encontrar dificuldades para ajustar um dado modelo. Isso ocorreu com esse exemplo e uma sáıda como a proposta de modelagem, se baseou no uso de Polonômios Fracionários conjuntamente com transformações na variável resposta. Ignorando a heteregeneidade de variâncias, o primeiro passo foi utilizar 44 o procedimento de seleção do melhor modelo de PF que resultou em: ŷ = 1,93(1,0400) + 0,10(0,0016)X3. (13) −3 −2 −1 0 1 2 3 −2 0 2 4 6 Theoretical Quantiles St an da rd ize d r es idu als Normal Q−Q 105 167 31 0 50 100 150 200 −4 0 −2 0 0 20 40 60 Fitted values Re sid ua ls Residuals vs Fitted 105 167 31 Figura 10 - Análise de reśıduos para o modelo da equação (13), Exemplo 3. Como esperado, a análise de reśıduos mostrou, com mais destaque, ind́ıcios de que a variância está aumentando com os valores ajustados e que existe problemas com a normalidade dos erros (Figura 10). Na prática, aplicam-se trans- formações na resposta para contornar este tipo de problema. Surge então uma dúvida do que transformar primeiro: a variável resposta ou a regressora? No caso, como Y e X podem precisar de transformação, Royston & Sauerbrei (2008) sugerem que Y seja transformada primeiro e fixada essa transformação busca-se a melhor transformação em X. Porém, como λ de (2) é otimizado supondo a média da resposta dada por Xβ̂ e Xβ̂ não necessariamente é o melhor preditor, propõe-se um método iterativo de transformações. Então, a partir do modelo dado na equação (13) estimou-se λ por máxima verossimilhança, o que resultou em λ̂ = 0,325. Com a resposta transformada y(0,325) foi determinado o melhor modelo PF ajustado, dado por: ŷ(0,325) = −22,04(0,98) + 12,97(1,06)X−0,5 + 9,07(0,22)X0,5. (14) 45 Para esse modelo, parece que o problema de heteroscedasticidade de variância foi atenuado, mas não o de normalidade dos erros (Figura 11), mostrando observações com reśıduos padronizados alt́ıssimos. −3 −2 −1 0 1 2 3 −4 −2 0 2 4 Theoretical Quantiles St an da rd ize d r es idu als Normal Q−Q 289 105 23 0 2 4 6 8 10 14 −2 −1 0 1 2 Fitted values Re sid ua ls Residuals vs Fitted 289 105 23 Figura 11 - Análise de reśıduos para o modelo da equação (14), Exemplo 3. Tabela 4: Estimativas dos parâmetros das transformações de Box-Cox e de PF, Exemplo 3 Passo λ m p1 p2 Deviance 0 1 1 3 35210,04 1 0,325 2 -0,5 0,5 115,89 2 0,280 2 0 0 83,69 3 0,260 2 0 0 72,71 Assim, o processo iterativo deve buscar um novo valor para λ e suces- sivamente, valores para as potências do PF, até que não haja mais mudanças nos parâmetros estimados (p̂1 e p̂2 ou λ̂). A Tabela 4 resume os resultados deste processo 46 iterativo. Foram necessários três passos para o processo convergir indicando a transformação y0,26 na resposta e o modelo quadrático para X na escala log, dado por: ŷ(0,26) = −0,09(0,26) − 1,39(0,32) log X + 2,31(0,10)(log X)2. (15) O intervalo de confiança para λ não incluiu os valores 0 e nem 0,5, os quais levariam às transformações logaritmica e ráız quadrada, costumeiramente utilizadas na prática. O diagnóstico do ajuste do modelo ainda não é o ideal e mostra que existe uma observação (indiv́ıduo 4) com alto leverage que pode ser influente nas estimativas (Figura 12). Para estudar a influência deste ponto em espećıfico, fez- se sua exclusão e repetiu-se o processo iterativo de transformações de variáveis. A Tabela 5 resume os resultados dos parâmetros estimados para o conjunto de dados sem a observação 4. Tabela 5: Estimativas dos parâmetros das transformações de Box-Cox e de PF sem a observação 4, Exemplo 3 Passo λ m p1 p2 Deviance 1 1 3 35210,00 1 0,330 2 -1 0,5 119,06 2 0,280 2 -2 0,5 82,90 3 0,270 2 -0,5 0 77,26 4 0,254 2 -0,5 0 69,13 Os resultados mostram certa diferença entre os dois modelos finais indicados nas Tabelas 4 e 5. A observação 4, foi influente na estimação do PF mas não muito importante na estimação de λ. É interessante notar que essa observação se refere a um indiv́ıduo cujas medidas foram muito pequenas (ponto de menor comprimento que aparece bem separado dos demais na Figura 9). Como na prática 47 −3 −2 −1 0 1 2 3 −4 −2 0 2 Theoretical Quantiles St an da rd ize d r es idu als Normal Q−Q 289 23 105 0 2 4 6 8 10 −2 −1 0 1 Fitted values Re sid ua ls Residuals vs Fitted 289 23 105 0.0 0.2 0.4 −4 −2 0 2 Leverage St an da rd ize d r es idu als Cook’s distance 1 0.5 0.5 1 Residuals vs Leverage 4 289 53 Figura 12 - Análise de reśıduos para o modelo da equação (15), Exemplo 3. 48 a obtenção de medidas de organismos muito pequenos não é muito acurada, talvez, seja justificado a remoção desse indiv́ıduo para o estudo. Portanto o modelo final do processo iterativo eliminando o ponto 4 é dado por: ŷ(0,254) = −38,54(1,99) + 40,02(2,44)X−0,5 + 15,06(0,54) log X. (16) O diagnóstico do modelo obtido é satisfatório (Figura 13), apesar de ainda apresentar uma observação com reśıduo fora da faixa de valores esperada. A Figura 14 ilustra o ajuste desse modelo com os dados transformados em y. Embora as equações dos dois modelos PF pareçam muito diferentes fez-se um exerćıcio para avaliar o quão diferentes seriam as predições do peso a partir de medidas do comprimento. Como a transformação Box-Cox foi praticamente a mesma nos dois casos, isso fica mais fácil e é ilustrado na Figura 15. As diferenças aparecem, praticamente, apenas nos extremos e são mar- cantes no extremo inferior. Essa análise salienta os perigos de se fazer extrapolações por Modelos de Regressão. Avaliando esse aspecto, embora a observação 4 tenha apresentado alto leverage, o modelo com os dados completos parece mais robusto para predições e talvez mais razoável na prática. No entanto, se essa região for considerada importante, mais observações devem ser tomadas para melhor esclareci- mento da relação. Esse exemplo mostrou que embora os PFs representem alternativas flex́ıveis para lidar com falta de ajuste, as transformações encontradas podem ser muito dependentes de observações influentes e, portanto, investigações cuidadosas devem ser feitas durante a modelagem. A aplicação mostrou benef́ıcio no processo iterativo para encontrar transformações tanto na variável resposta quanto na variável explicativa. No caso dos dados completos o modelo final pelo processo iterativo foi mais simples (quadrático na escala log) do que aquele resultante da aplicação da transformação Box-Cox antes de se realizar a busca do melhor PF. Outra alterna- tiva ao processo iterativo, quando o número de observações é razoavelmente grande, é discretizar X num número de intervalos de classes e estimar λ utilizando como preditor linear o modelo as classes (fator qualitativo). Desta forma a transformação 49 −3 −2 −1 0 1 2 3 −4 −2 0 2 Theoretical Quantiles St an da rd ize d r es idu als Normal Q−Q 289 23 105 0 2 4 6 8 10 −2 −1 0 1 Fitted values Re sid ua ls Residuals vs Fitted 289 23 105 0.00 0.04 0.08 0.12 −4 −2 0 2 Leverage St an da rd ize d r es idu als Cook’s distance 1 0.5 0.5 Residuals vs Leverage 289 53 170 Figura 13 - Análise de reśıduos para o modelo da equação (16) (sem a observação 4), Exemplo 3. 50 2 4 6 8 10 12 0 2 4 6 8 10 Comprimento(mm) Tra nfo rm aç ão em Y Figura 14 - Curva ajustada para o modelo da equação (16) considerando os dados transformados e removida a observação 4, Exemplo 3. 2 4 6 8 10 12 0 5 10 Comprimento (mm) Tr an fo rm aç ão e m Y Figura 15 - Curvas ajustadas e intervalos de predição do peso (transformado) para os Modelos PF, com e sem a abservação 4, Exemplo 3. 51 Box-Cox é baseada na variabilidade de erro puro e, portanto, robusta a mudanças da parte preditiva. Essa alternativa foi testada resultando em λ̂ =0,265 e portanto bem próxima das estimativas por iteração. 4 CONSIDERAÇÕES FINAIS Esse trabalho considerou a aplicação de Polinômios Fracionários na análise de dados da área Biológica a partir de Modelos de Regressão. O uso de PF aumenta a flexibilidade dos modelos quando o preditor linear que inclui apenas efeitos simples das regressoras mostra falta de ajuste. Os três exemplos ilustrados se beneficiaram do uso de PF. Nos exemplos com o Modelo Loǵıstico foi necessário a extensão para Modelos Mistos devido a presença de sobredispersão. Embora Royston & Altman (1994), Ambler & Royston (2001) e Royston & Sauerbrei (2008) tenham apresentado muitos exemplos práticos envolvendo uma ampla classe de modelos, o Modelo Misto não havia sido explorado. A estratégia de estimação das potências restrita a um conjunto enumerável de valores permite que a estimação possa ser realizada por qualquer software capaz de ajustar Modelos Mistos, basta repetir a tarefa para cada valor do conjunto e comparar as deviances dos modelos. Para os três exemplos foi necessário um modelo de grau 2. Embora essa não seja a situação ideal, já que não se pode dizer que tal modelo é de simples interpretação, a análise indicou a necessidade da complexidade para explicar a va- riabilidade dos dados. No caso do estudo da tolerância à temperatura dos fungos a análise indicou que o risco relativo varia com a temperatura de referência. Esse resultado parece bastante coerente do ponto de vista biológico. Vale ressaltar que parâmetros do tipo potência são de dif́ıcil estimação, em geral, e que no caso, a variável regressora com apenas cinco ńıveis distintos, pode causar viés na estimação da potência. O erro de estimação da potência não foi considerado nesse trabalho mas seu estudo pode ser feito pela teoria de modelos não-lineares. O estudo da relação entre peso e comprimento das aranhas salientou o 53 cuidado que se deve ter na avaliação do modelo ajustado. Foi ilustrado o problema da influência de certas observações na determinação do polinômio e o perigo de extrapolações a partir do modelo ajustado. Embora nos extremos os dois modelos estudados mostraram-se bem distintos, para a faixa de valores da regressora na qual os modelos ajustados são válidos, as predições foram muito similares, indicando que no caso de predição, os Modelos de PF são bastante úteis apesar de estarem sujeitos à alta influência de algumas poucas observações. REFERÊNCIAS BIBLIOGRÁFICAS AGRESTI, A. An Introduction to Categorical Data Analysis. 2. ed. NYC: Willey, 2007. AMBLER, G.; ROYSTON, P. Fractional Polynomial Model selection procedures: investigation of Type I error rate. Journal of Statistical Computation and Simulation, v.69, p.89–108, 2001. BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal Statistical Society B, v.26, p.211–243, 1964. BOX, G. E. P.; TIDWELL, P. W. Transformation of the independent variables. Technometrics, v.4, p.531–550, 1962. COLLETT, D. Modelling Binary data. London: Chapman and Hall, 1991. 369p. DEMÉTRIO, C. G. B. Modelos Lineares Generalizados em Experimentação Agronômica. Piracicaba-SP: Esalq-USP, 2002. 113p. DRAPER, N. R.; SMITH, H. Applied Regression Analysis. 3. ed. New York: Jhon Wiley e Sons, 2008. 706p. FAHRMEIR, L.; KAUFMANN, H. Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models. Annals of Statistics, v.13, p.1342–1368, 1985. HINDE, J. P.; DEMÉTRIO, C. G. B. Overdispersion: models and estimation. Comp. Stat. Data Anal., v.27, p.151–170, 1998. 55 MCCULLAGH, P.; NELDER, J. Generalized Linear Models. 2. ed. London: Chapman and Hall, 1989. MCCULLOCH, C. E.; SEARLE, S. R.; NEUHAUS, J. M. Generalized, Linear, and Mixed Models. 2. ed. New York: John Wiley e Sons, 2008. 384p. MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to Linear Regression Analysis. 4. ed. Hardcover: Jhon Wiley e Sons, 2006. 640p. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the Theory of Statistics. 3. ed. New York: McGraw-Hill, 1974. 564p. MOSTELLER, F.; TUKEY, J. W.; NEUHAUS, J. M. Data analysis and regres- sion. New York: Addison-Wesley, 1977. NELDER, J. A.; WEDDERBURN, R. W. M. Generalized Linear Models. Journal of the Royal Statistical Society A, v.135, n.3, p.128–141, 1972. PAULA, G. A. Modelos de regressão com apoio computacional. São Paulo: IME-USP, 2004. 245p. PINHEIRO, J. C.; BATES, D. M. Mixed-Effects Models in S and S-PLUS. Springer, 2000. R DEVELOPMENT CORE TEAM. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2010. ISBN 3-900051-07-0. ROYSTON, P.; ALTMAN, D. G. Regression using fractional polynomials of con- tinuous covariates: parsimonious parametric modelling. Journal of the Royal Statistical Society, v.43, n.3, p.429–467, 1994. ROYSTON, P.; SAUERBREI, W. Multivariable Model-Building. Chichester: Jhon Wiley e Sons, 2008. 303p. 56 SOFTWARE, S. S. A. SAS Institute Inc., Cary, NC, USA, versão 9.2 ed., 2008. STATA STATISTICAL SOFTWARE: RELEASE 12. StataCorp. College Station, TX: StataCorp LP, 2011. STROPA, A. A.; TRINCA, L. A. A model to assess the minimal size of adult female spiders. Journal of health and envionmental, v.1, p.3–11, 2005. THEODORO, R. C.; BOSCO, S. M. G.; ARAÚJO, J. J.; CANDEIAS, J. M. G.; MACORIS, S. A. G.; TRINCA, L. A.; BAGAGLI, E. Dimorphism, thermal to- lerance, virulence and Heat Shock Protein 70 transcription in different isolates of Paracoccidioides brasiliensis. Mycopathologia, v.165, p.355–365, 2008. WALD, A. Asymptotically most powerfull tests of statistical hypotheses. Annals of Mathematical Statistics, v.12, p.1–19, 1941. CAPA FOLHA DE ROSTO DEDICATÓRIA AGRADECIMENTOS EPÍGRAFE SUMÁRIO LISTA DE FIGURAS LISTA DE TABELAS RESUMO SUMMARY 1 INTRODUÇÃO 2 MODELOS DE REGRESSÃO 3 APLICAÇÕES CONSIDERAÇÕES FINAIS REFERÊNCIAS