FERNANDO ANTONIO ELIAS CLARO GRÁFICOS DE CONTROLE DE X PARA O MONITORAMENTO DE PROCESSOS AUTOCORRELACIONADOS Tese apresentada à Faculdade de Engenharia do Campus de Guaratinguetá, Universidade Estadual Paulista, para a obtenção do título de Doutor em Engenharia Mecânica na área de Transmissão e Conversão de Energia. Orientador: Prof. Dr. Antonio Fernando Branco Costa Co-Orientador: Prof. Dr. Mauro Hugo Mathias Guaratinguetá 2008 C613g Claro, Fernando Antonio Elias Gráficos de controle de X para monitoramento de processos autocorrelacionados / Fernando Antonio Elias Claro.- Guaratinguetá : [s.n.], 2008 159 f.: il. Bibliografia: f. 106-114 Inclui apêndice Tese (Doutorado) – Universidade Estadual Paulista, Faculdade de Engenharia de Guaratinguetá, 2008 Orientador: Prof. Dr. Antonio Fernando Branco Costa 1. Autocorrelação (Estatística) I. Título CDU 311 UNESP UNIVERSIDADE ESTADUAL PAULISTA Faculdade de Engenharia do Campus de Guaratinguetá "GRÁFICOS DE CONTROLE DE X PARA O MONITORAMENTO DE PROCESSOS AUTOCORRELACIONADOS" FERNANDO ANTONIO ELIAS CLARO ESTA TESE FOI JULGADA ADEQUADA PARA A OBTENÇÃO DO TÍTULO DE “DOUTOR EM ENGENHARIA MECÂNICA” PROGRAMA: ENGENHARIA MECÂNICA ÁREA: TRANSMISSÃO E CONVERSÃO DE ENERGIA APROVADA EM SUA FORMA FINAL PELO PROGRAMA DE PÓS-GRADUAÇÃO Prof. Dr. Marcelo dos Santos Pereira Coordenador BANCA EXAMINADORA: Prof. Dr. ANTONIO FERNANDO BRANCO COSTA Orientador/UNESP-FEG Profa. Dra. LINDA LEE HO EPUSP-SP Prof. Dr. ANDERSON PAULO DE PAIVA UNIFEI-MG Prof. Dr. CARLOS ALBERTO CHAVES UNITAU-SP Prof. Dr. MESSIAS BORGES SILVA UNESP-FEG Agosto de 2008 DADOS CURRICULARES FORMAÇÃO ACADÊMICA Engenheiro Mecânico Pleno - Escola de Engenharia de Taubaté 1971 – 1975 Mestre em Engenharia Mecânica - UNITAU 2002 – 2004 ATIVIDADES PROFISSIONAIS Magal Indústria e Comércio Ltda. 10/1999 – 03/2002 Monte Mor-SP Diretor de Qualidade e Engenharia 03/01 – 03/02 Gerente de Qualidade 10/99– 02/01 Ford Brasil Ltda. 06/1974 – 12/1998 Taubaté-SP Gerente da Fábrica de Transmissões 06/97 – 12/98 Gerente de Qualidade Assegurada 12/88 – 03/91 e 01/95 – 05/97 Gerente de Engenharia de Manufatura 04/91 – 12/92 Superintendente de Inspeção da Manufatura 01/87 – 11/88 Supervisor de Laboratório 03/84 – 12/86 Engenheiro de Controle de Qualidade Sênior 02/77 – 02/84 Supervisor de Inspeção da Fundição 06/74 – 03/76 Volkswagen do Brasil 01/1993 – 12/1994 São Bernardo do Campo-SP Gerente de Fábrica - Fundição de Ligas Leves Centro Técnico Aeroespacial 04/1976– 02/1977 São José dos Campos-SP Engenheiro Mecânico APERFEIÇOAMENTO, HABILITAÇÕES E CERTIFICAÇÕES Curso de Aperfeiçoamento em Administração e Negócios, FEA-USP, 1999. Habilitação como Supervisor de Proteção Radiológica, Comissão Nacional de Energia Nuclear (CNEN), 1999. Certificação em Engenharia de Qualidade, American Society for Quality, 2002. Certificação como Auditor Líder de Qualidade (ISO 9000:2000), Bureau Veritas Quality International (BVQI), 2002. Certificação em Engenharia de Confiabilidade, American Society for Quality, 2007. Dedico este trabalho... A Deus, à minha esposa Cristiane, aos meus pais Helena (in memoriam) e Geraldo, às minhas irmãs Ana Christina e Ana Claudia, aos meus filhos Camila e Rafael, e a todos que me incentivaram ao longo deste caminho. AGRADECIMENTOS Ao Criador supremo, pela infinita bondade em nos conceder saúde, força e entusiasmo no desenvolvimento deste trabalho. A minha esposa Cristiane, pelo incentivo e cumplicidade. Ao meu amigo e mentor, Prof. Dr. Antonio Fernando Branco Costa, pelo apoio, paciência, conhecimento e segurança que sempre me transmitiu. Certamente, sem sua dedicada orientação, não teria sido possível alcançar os resultados desta pesquisa. Aos professores membros da banca de avaliação desta tese, pelas críticas e sugestões que contribuíram significativamente para melhorar sua apresentação e qualidade. À FEG-UNESP, na pessoa dos professores, funcionários e colegas com quem tive a oportunidade de conviver, pelo estímulo, amizade e colaboração na realização deste trabalho, Ao amigo Antonio Cursino, pela ajuda em parte deste trabalho. A todos aqueles que, direta ou indiretamente, colaboraram para transformar este trabalho em realidade. CLARO, F. A. E. Gráficos de Controle de X para o monitoramento de processos autocorrelacionados. 2008. 159 p. Tese (Doutorado em Engenharia Mecânica) – Faculdade de Engenharia do Campus de Guaratinguetá, Universidade Estadual Paulista, Guaratinguetá, 2008. RESUMO Os gráficos de X são apresentados na literatura supondo quase sempre que as observações da variável X são independentes. Na prática, no entanto, está se tornando rotina descobrir que esta condição não existe. A dependência entre observações gera um aumento na freqüência de alarmes falsos e diminui o poder do dispositivo estatístico. Nesta tese estuda-se o gráfico de X com amostragem dupla (AD) supondo que as observações de X são descritas por modelos parcimoniosos da família ARIMA (Autoregressivo, Integrado e de Médias Móveis). As propriedades da carta foram obtidas considerando o conceito de subgrupos racionais. Para comparar o desempenho do gráfico proposto com o desempenho dos esquemas concorrentes, isto é, o gráfico de X padrão, o gráfico de X com amostra de tamanho variável (ATV) e o esquema da Média Móvel Ponderada Exponencialmente (EWMA), foi necessário obter o número médio de amostras até o sinal (NMA) para todos eles. Os resultados obtidos mostram que a autocorrelação dentro do subgrupo tem forte impacto sobre as propriedades dos gráficos. O gráfico de controle com amostragem dupla é geralmente mais eficiente do que os esquemas concorrentes na detecção de desajustes na média do processo. PALAVRAS-CHAVE: Autocorrelação; Amostragem Dupla; Carta de Controle; Controle Estatístico do Processo; Número Médio de Amostras até o Sinal. CLARO, F. A. E. X Control Charts for the monitoring of autocorrelated processes. 2008. 159 p. Thesis (Doctorate in Mechanical Engineering) - Faculdade de Engenharia do Campus de Guaratinguetá, Universidade Estadual Paulista, Guaratinguetá, 2008. ABSTRACT The X charts are presented in the literature often assuming that the observations of the X variable are independent. In practice, however, it is becoming a routine to find out that such condition is unrealistic. The autocorrelation among the observations increases the false alarm rate and reduces the power of the statistical device. In this thesis, we study the Double Sampling X chart (DS) assuming that the observations of X are described by parsimonious models of the ARIMA family (Autoregressive, Integrated and Moving Average). The properties of the charts were obtained considering the concept of rational subgroups. To compare the performance of the proposed chart with the performance of the competitor schemes, that is, the standard X chart, the Variable Sample Size X chart (VSS) and the Exponentially Weighted Moving Average (EWMA) chart, it was necessary to obtain the average run length (ARL) for all of them. The results show that the autocorrelation within the subgroup has strong impact on the chart properties. The Double Sampling X chart is usually more efficient than the competitor schemes in the detection of the process mean shifts. KEY-WORDS: Autocorrelation; Double Sampling; Control Chart; Statistical Process Control; Average Run Length. LISTA DE FIGURAS FIGURA 3.1 - Gráfico de controle (processo estável e ajustado).................... 46 FIGURA 3.2 - Gráfico de controle (processo instável)................................... 47 FIGURA 3.3 - Gráfico de X - ocorrência de um alarme falso........................ 48 FIGURA 3.4 - Gráfico de X - ocorrência de um alarme verdadeiro............... 49 FIGURA 3.5 - NMAs com gráficos de controle utilizando observações e resíduos como estatística de controle, modelo AR(1), � =0,679................................................................................... 60 FIGURA 3.6 - Comparação do NMA entre gráficos usando-se resíduos do modelo e observações originais como estatística de controle, modelo ARMA(1,1), � �0,689-;689,01 �� ........................... 61 FIGURA 3.7 - Representação gráfica da carta de controle com amostragem dupla......................................................................................... 76 FIGURA 4.1 - Redução (%) do NMA do gráfico de médias pelo aumento do tamanho de amostra, de n=3 para n=5, em processo AR(1) a diferentes níveis de autocorrelação............................ 84 FIGURA 4.2 - Redução (%) do NMA do gráfico com amostras de tamanho variável pelo aumento do tamanho médio da amostra, de 3�n para ,5�n com n1=2 e n2=12, em processo AR(1) a diferentes níveis de autocorrelação.......................................... 86 FIGURA 4.3 - Variação (%) do NMA do gráfico com amostras de tamanho variável pelo aumento do tamanho de amostra, de n2=8 para n2=16, com n1=2 e 4�n , em processo AR(1) a diferentes níveis de autocorrelação........................................................... 87 FIGURA 4.4 - Redução (%) do NMA do gráfico com amostragem dupla pelo aumento do tamanho médio da amostra, de 3�n para ,5�n com n1=2 e n2=12, em processo AR(1) a diferentes níveis de autocorrelação........................................................... 88 FIGURA 4.5 - Redução (%) do NMA do gráfico com amostragem dupla pelo aumento do tamanho da amostra no segundo estágio, de n2=8 para n2=16, com n1=2 e 4�n , em processo AR(1) a diferentes níveis de autocorrelação.......................................... 89 FIGURA 4.6 - Probabilidade da amostragem prosseguir ao segundo estágio, gráfico com amostragem dupla, processo AR(1), n1=2, n2=12, n =5............................................................................... 89 FIGURA 5.1 - Representação esquemática do conjunto da carcaça da transmissão............................................................................... 92 FIGURA 5.2 - Gráfico seqüencial das observações originais.......................... 93 FIGURA 5.3 - Teste de normalidade das observações originais..................... 94 FIGURA 5.4 - Carta de controle de observações individuais com limites não ajustados a autocorrelação................................................. 94 FIGURA 5.5 - Função autocorrelação das observações originais................... 95 FIGURA 5.6 - Função autocorrelação parcial das observações originais........ 95 FIGURA 5.7 - Teste de normalidade dos resíduos do modelo das observações originais............................................................... 96 FIGURA 5.8 - Gráfico de controle de observações individuais dos resíduos do modelo ajustado ................................................................. 97 FIGURA 5.9 - Gráfico de controle de valores individuais dos resíduos do modelo após análise de intervenção (processo em controle)................................................................................... 98 FIGURA 5.10 - Gráfico com amostragem dupla após ajuste das observações pelo método de análise de intervenção (processo em controle)................................................................................... 100 FIGURA 5.11 - Alarmes falsos na carta de X .................................................. 101 FIGURA 5.12 - Carta de X com limites de controle corrigidos........................ 101 FIGURA 5.13 - Detecção da perturbação com o gráfico com amostragem dupla......................................................................................... 102 FIGURA A.1 - Gráfico de controle de médias (n=4)....................................... 157 FIGURA A.2 - Função autocorrelação da série “Resistência elétrica de isolação”................................................................................... 157 FIGURA A.3 - Função autocorrelação parcial da série “Resistência elétrica de isolação”.............................................................................. 158 LISTA DE TABELAS TABELA 3.1 - Número médio de observações até o sinal (NMO) para algumas combinações w versus n; gráfico GMAL; NMO0=21112; modelo AR(1); 0,9e1 �� �� e ................... 57 TABELA 3.2 - Número médio de observações até o sinal (NMO) para os gráficos GMAL, GMP e de resíduos; modelo AR(1); NMO0=10000.......................................................................... 63 TABELA 4.1 - Tamanhos de amostra selecionados......................................... 82 TABELA 4.2 - Coeficientes selecionados........................................................ 83 TABELA 4.3 - Valores ótimos para � no gráfico de EWMA, processo AR(1), n=5............................................................................... 85 TABELA 4.4 - Comparação dos gráficos com tamanhos de amostra equivalentes (EWMA e Médias com n=5; ATV e AD com 5e,16,2 21 ��� nnn )......................................................... 91 TABELA 5.1 - Estatística descritiva das observações originais e limites superior e inferior de tolerância (LST e LIT) para a altura da face de assentamento............................................................... 93 TABELA 5.2 - Valor e significância dos coeficientes do modelo................... 96 TABELA 5.3 - Teste da independência de resíduos........................................ 97 TABELA 5.4 - Observações originais discrepantes e valores ajustados.......... 97 TABELA 5.5 - Alterações na variabilidade e parâmetros do modelo.............. 98 TABELA 5.6 - Efeito da análise de intervenção sobre os limites de controle. 99 TABELA B.1 - NMA, gráfico de médias, processos IID e autocorrelacionados, NMA0=370,4......................................... 121 TABELA B.2 - NMA e limites de controle (LC), gráfico de EWMA, processos IID e autocorrelacionados, n=3, NMA0=370,4....... 122 TABELA B.3 - NMA e limites de controle (LC), gráfico de EWMA, processos IID e autocorrelacionados, n=4, NMA0=370,4....... 123 TABELA B.4 - NMA e limites de controle (LC), gráfico de EWMA, processos IID e autocorrelacionados, n=5, NMA0=370,4....... 124 TABELA B.5 - NMA, coeficiente (k1) e � �11 k,kX �p , gráfico com ATV, processos IID e AR(1), n1=2, NMA0=370,4............................ 125 TABELA B.6 - NMA, gráfico com ATV, processos IID e MA(1), n1=2, NMA0=370,4........................................................................... 126 TABELA B.7 - NMA, gráfico com ATV, processos IID e ARMA(1,1), n1=2, NMA0=370,4.................................................................. 127 TABELA B.8 - NMA, gráfico com ATV, processos IID e AR(2), n1=2, NMA0=370,4........................................................................... 128 TABELA B.9 - NMA, gráfico com ATV, processos IID e MA(2), n1=2, NMA0=370,4........................................................................... 129 TABELA B.10 - Coeficientes dos limites de advertência (L1) e de ação (L2) para o gráfico com AD, NMA0=370,4.................................... 130 TABELA B.11 - NMA, gráfico com AD, processos IID e AR(1), n1=1, NMA0=370,4........................................................................... 131 TABELA B.12 - NMA, gráfico com AD, processos IID e MA(1), n1=1, NMA0=370,4........................................................................... 132 TABELA B.13 - NMA, gráfico com AD, processos IID e ARMA(1,1), n1=1, NMA0=370,4........................................................................... 133 TABELA B.14 - NMA, gráfico com AD, processos IID e AR(2), n1=1, NMA0=370,4........................................................................... 134 TABELA B.15 - NMA, gráfico com AD, processos IID e MA(2), n1=1, NMA0=370,4........................................................................... 135 TABELA B.16 - NMA, gráfico com AD, processos IID e AR(1), n1=2, NMA0=370,4........................................................................... 136 TABELA B.17 - NMA, gráfico com AD, processos IID e MA(1), n1=2, NMA0=370,4........................................................................... 137 TABELA B.18 - NMA, gráfico com AD, processos IID e ARMA(1,1), n1=2, NMA0=370,4........................................................................... 138 TABELA B.19 - NMA, gráfico com AD, processos IID e AR(2), n1=2, NMA0=370,4........................................................................... 139 TABELA B.20 - NMA, gráfico com AD, processos IID e MA(2), n1=2, NMA0=370,4........................................................................... 140 TABELA B.21 - Probabilidade � �21 IX , gráfico com AD, n1=1, processos IID e autocorrelacionados, NMA0=370,4............................... 141 TABELA B.22 - Probabilidade � �21 IX , gráfico com AD, processos IID e AR(1), n1=2, NMA0=370,4..................................................... 142 TABELA B.23 - Probabilidade � �21 IX , gráfico com AD, processos IID e MA(1), n1=2, NMA0=370,4.................................................... 143 TABELA B.24 - Probabilidade � �21 IX , gráfico com AD, processos IID e ARMA(1,1), n1=2, NMA0=370,4............................................ 144 TABELA B.25 - Probabilidade � �21 IX , gráfico com AD, processos IID e AR(2), n1=2, NMA0=370,4..................................................... 145 TABELA B.26 - Probabilidade � �21 IX , gráfico com AD, processos IID e MA(2), n1=2, NMA0=370,4.................................................... 146 LISTA DE QUADROS QUADRO 2.1 - Identificação de modelos por meio de correlogramas............. 37 QUADRO A.1 - Banco de dados “Resistência elétrica de isolação”.................. 159 LISTA DE ABREVIATURAS E SIGLAS AD - Amostragem dupla AIF - Amostragem em intervalo fixo AIV - Amostragem em intervalo variável AIVPD - Amostragem em intervalo variável em tempo pré-definido AR(1) - Modelo autoregressivo de 1a ordem (First order autoregressive model) AR(2) - Modelo autoregressivo de 2a ordem (Second order autoregressive model) ARIMA - Modelo autoregressivo e integrado de médias móveis (Autoregressive integrated and moving average model) ARMA(1,1) - Modelo autoregressivo e de médias móveis de 1a ordem (First order autoregressive and moving average model) ATIVPD - Amostragem com tamanho variável e intervalo variável em tempo pré-definido ATV - Amostra de tamanho variável CEP - Controle Estatístico do Processo CUSUM - Soma cumulativa (Cumulative-Sum) E (.) - Esperança EWMA - Média móvel ponderada exponencialmente (Exponentially Weighted Moving Average) FAC - Função autocorrelação FACP - Função autocorrelação parcial GMAL - Gráfico de médias aritméticas para lotes (Batch-means control chart) GMP - Gráfico de médias ponderadas (Weighted means control chart) IID - Independente e identicamente distribuída IMA(1,1) - Modelo integrado e de médias móveis de 1a ordem (First order integrated and moving average model) LM - Linha média do gráfico de controle LC - Limite de controle ou limite de ação LIC - Limite inferior de controle LIT - Limite inferior de tolerância LSC - Limite superior de controle LST - Limite superior de tolerância MA(1) - Modelo de médias móveis de 1a ordem (First order moving average model) MA(2) - Modelo de médias móveis de 2a ordem (Second order moving average model) N(.) - Distribuição normal NA - Número de amostras até o sinal NMA - Número médio de amostras até o sinal NMO - Número médio de observações até o sinal NMA0 - Número médio de amostras até o sinal durante o período em controle NMO0 - Número médio de observações até o sinal durante o período em controle PA - Perturbação aditiva (Additive Outlier) PI - Perturbação de inovação (Innovation Outlier) Pd - Poder do gráfico Pr - Probabilidade TMS - Tempo médio até o sinal LISTA DE SÍMBOLOS LETRAS LATINAS B - Operador retroativo ou de atraso nos modelos ARIMA C - Valor crítico em análise de intervenção 4c - Constante usada para cálculo de limites de controle d - Instante da ocorrência de uma observação atípica 2d - Constante usada para cálculo de limites de controle e - Erro ou resíduo H0 - Hipótese nula H1 - Hipótese alternativa h - Intervalo de amostragem I - Matriz identidade k - Fator de abertura dos limites de controle Defasagem ou retardo na série temporal k1 - Coeficiente do limite de advertência no gráfico com amostras de tamanho variável L - Coeficiente do limite de advertência superior no primeiro estágio para os gráficos com amostragem dupla L1 - Coeficiente do limite de advertência inferior no primeiro estágio para os gráficos com amostragem dupla L2 - Coeficiente do limite de ação no segundo estágio para os gráficos com amostragem dupla MR - Amplitude móvel média (Average Moving Range) N - Número de observações tomadas para estudo na série temporal n - Tamanho da amostra n - Número médio de itens inspecionados por amostragem n1 - Tamanho da amostra no primeiro estágio para o gráfico com amostragem dupla Tamanho da amostra seguinte no gráfico com amostras de tamanho variável, quando a média do subgrupo em inspeção é plotada na região central da carta n2 - Tamanho da amostra no segundo estágio para o gráfico com amostragem dupla Tamanho da amostra seguinte no gráfico com amostras de tamanho variável, quando a média do subgrupo em inspeção é plotada na região de advertência da carta p - Ordem do modelo autoregressivo p - Vetor de probabilidades iniciais Q - Estatística do teste de Portmanteau q - Ordem do modelo de médias móveis R - Submatriz de probabilidades de transição k�̂ - Função autocorrelação amostral R - Amplitude média S - Desvio-padrão amostral tS - Estatística do gráfico de controle de CUSUM T - Número de observações existentes na série temporal t - Parâmetro adimensional de tempo X - Variável de interesse X - Média amostral da variável aleatória X Y - Variável de interesse na série “contaminada” Y~ - Valor de substituição ao dado original discrepante na série iY - Estatística do gráfico de EWMA Y - Média da amostra de tamanho n no gráfico com amostragem dupla Z - Variável resultante de padronização para distribuição N(0,1) LETRAS GREGAS � - Probabilidade de alarme falso � - Probabilidade de não-detecção � - Deslocamento da média da variável em relação ao seu valor-alvo � - Parâmetro de derivação (drift parameter) � - Média populacional 0� - Média populacional com o processo em controle 1� - Média populacional após influência da causa especial � - Desvio-padrão populacional 0� - Desvio-padrão populacional com o processo em controle 2� - Variância populacional k� - Função autocovariância no lag k k� - Função autocorrelação no lag k � - Constante de amortecimento no gráfico da média móvel ponderada exponencialmente i� - Estatística da análise de intervenção � - Coeficiente do modelo de médias móveis � - Coeficiente do modelo autoregressivo kk� - Função autocorrelação parcial kk�̂ - Função autocorrelação parcial amostral � - Função distribuição normal padronizada SUMÁRIO Capítulo 1 INTRODUÇÃO 1.1- CONSIDERAÇÕES INICIAIS..................................................................... 22 1.2- PROBLEMA DA PESQUISA...................................................................... 23 1.3- TEMA DA PESQUISA................................................................................ 24 1.4- JUSTIFICATIVA E IMPORTÂNCIA DA PESQUISA.............................. 25 1.5- OBJETIVOS DA PESQUISA...................................................................... 25 1.6- CONTRIBUIÇÕES ORIGINAIS DA TESE................................................ 26 1.7- DELIMITAÇÕES DA PESQUISA.............................................................. 26 1.8- ORGANIZAÇÃO DO TEXTO.................................................................... 27 Capítulo 2 SÉRIES TEMPORAIS 2.1- CONCEITOS E FUNDAMENTOS.............................................................. 29 2.2- A FUNÇÃO AUTOCORRELAÇÃO AMOSTRAL (FAC) ........................ 30 2.3- A FUNÇÃO AUTOCORRELAÇÃO PARCIAL AMOSTRAL (FACP) .... 31 2.4- MODELOS DA FAMÍLIA ARIMA ............................................................ 32 2.4.1- O modelo autoregressivo AR(p)...................................................... 33 2.4.2- O modelo de médias móveis MA(q)............................................... 34 2.4.3- O modelo autoregressivo e de médias móveis de primeira ordem ARMA(1,1) .................................................................................... 36 2.5- CONSTRUÇÃO DO MODELO................................................................... 36 2.6- ANÁLISE DE INTERVENÇÃO.................................................................. 38 Capítulo 3 GRÁFICOS DE CONTROLE 3.1- CONCEITOS FUNDAMENTAIS - PROCESSOS INDEPENDENTES 3.1.1- Causas aleatórias e causas especiais de variação............................ 43 3.1.2- Fases de implementação da carta de controle.................................. 44 3.1.3- Subgrupos racionais........................................................................ 44 3.1.4- O gráfico de X para processos com observações independentes.... 45 3.2- REVISÃO DA LITERATURA 3.2.1- Introdução........................................................................................ 51 3.2.2- Gráficos com limites de controle alargados.................................... 52 3.2.3- Gráficos com propriedades independentes do modelo (model-free approach)..................................................................... 55 3.2.4- Gráficos com propriedades dependentes do modelo (model-based approach).................................................................. 58 3.2.5- Gráficos adaptativos........................................................................ 65 3.2.6- Análise crítica da literatura.............................................................. 67 3.3- GRÁFICOS PARA PROCESSOS AUTOCORRELACIONADOS 3.3.1- Introdução........................................................................................ 69 3.3.2- O gráfico de X ............................................................................... 69 3.3.3- O gráfico da média móvel ponderada exponencialmente (EWMA) 71 3.3.4- O gráfico de X com amostras de tamanho variável (ATV)............ 72 3.3.5- O gráfico de X com amostragem dupla (AD)................................. 74 Capítulo 4 RESULTADOS E DISCUSSÃO 4.1- CONSIDERAÇÕES PRELIMINARES........................................................ 82 4.2- RESULTADOS............................................................................................. 83 4.3- DISCUSSÃO................................................................................................. 84 4.3.1- Gráfico de X ................................................................................ 84 4.3.2- Gráfico de EWMA........................................................................ 85 4.3.3- Gráfico de X com amostras de tamanho variável......................... 86 4.3.4- Gráfico de X com amostragem dupla........................................... 87 4.3.5- Comparação entre todos os gráficos............................................. 90 Capítulo 5 EXEMPLO DE APLICAÇÃO 5.1- ANÁLISE DE INTERVENÇÃO................................................................ 92 5.2- COMPARANDO O DESEMPENHO DE CARTAS DE CONTROLE..... 100 Capítulo 6 CONCLUSÕES E SUGESTÕES PARA FUTURAS PESQUISAS 6.1- CONCLUSÕES.......................................................................................... 103 6.2- SUGESTÕES PARA FUTURAS PESQUISAS......................................... 104 REFERÊNCIAS..................................................................................................... 106 APÊNDICE A – As grandezas � e * 2X e suas variâncias.................................... 115 APÊNDICE B - Limites e eficiência dos gráficos de controle.............................. 120 APÊNDICE C - Códigos computacionais em FORTRAN SUPER STATION 4.0. 147 ANEXO A - Resistência elétrica de isolação......................................................... 157 22 1 INTRODUÇÃO 1.1 CONSIDERAÇÕES INICIAIS O princípio básico de melhoria contínua e produtividade nos processos, alavanca do grande crescimento experimentado pela indústria japonesa na década de 80, despertou no mundo ocidental a necessidade de entender melhor a relação entre qualidade e produtividade como mecanismo de redução de custos e aumento de competitividade. Sabe-se atualmente que um dos pilares do sistema operacional das melhores empresas é centrar esforços em prevenção de defeitos ao invés de detectar produtos defeituosos. Utilizar um conjunto de técnicas estatísticas para identificar e aplicar medidas de redução de variabilidade no processo é a base fundamental ao esforço da prevenção. Denomina-se Controle Estatístico do Processo (CEP) a coleção de ferramentas utilizadas com esta finalidade, dentre as quais se destacam os gráficos de controle, introduzidos pelo Dr. Walter Andrew Shewhart (SHEWHART, 1931). O Dr. Shewhart advogava enfaticamente o conceito de prevenção, porém, por ironia, seu trabalho somente passou a receber a devida atenção nos Estados Unidos a partir do avanço da indústria japonesa. Os conceitos que ele desenvolveu sobre estas técnicas relativamente simples para monitoramento de processos fundamentam a pesquisa sobre o assunto e, até os dias de hoje, o gráfico de médias amostrais é certamente uma das ferramentas de qualidade mais conhecidas e utilizadas. O gráfico de controle de Shewhart é um dispositivo estatístico aplicado aos dados de um processo para determinar se a característica de qualidade deslocou-se de seu valor-alvo (MONTGOMERY, 2001). Esta forma de monitoramento é muito utilizada para distinguir causas comuns de causas especiais de variação (freqüentemente responsáveis por desajustes na média do processo), identificar quando ocorreu a mudança no processo de modo a guiar a pesquisa na eliminação da causa-raiz e finalmente melhorar o processo pela prevenção de novas ocorrências. 23 1.2 PROBLEMA DA PESQUISA A hipótese fundamental em Controle Estatístico do Processo (CEP) é que as observações da variável de interesse ajustem-se a uma distribuição normal e sejam independentes e identicamente distribuídas (IID). Nos últimos anos, entretanto, a crescente automatização no segmento de manufatura revolucionou muitos processos, acentuando coincidentemente a dependência em série entre observações. A autocorrelação observada em processos industriais é tipicamente devida a presença de elementos inerciais que limitam a variabilidade entre observações próximas na escala do tempo. Hoerl e Palm (1992) mencionam que todos os processos são autocorrelacionados, e dependerá apenas da freqüência de amostragem para que este comportamento fique evidente. Para eliminá-la, eles sugerem que haja um espaço de tempo suficientemente longo entre as observações da variável de interesse, o que nem sempre é razoável e parece não levar a uma solução eficiente para o monitoramento. Uma vez constatada a dependência em série, é de grande importância distinguir quais são os padrões inerentes ao processo e quais são os atribuídos a causas especiais. Se a autocorrelação é sintoma de um problema, o dispositivo estatístico deve detectar sua presença; porém, se ela for intrínseca ao processo, um gráfico que por esta razão gere pontos fora de seus limites de controle é de pouca utilidade (GILBERT; KIRBY; HILD, 1997; CROWDER; HAWKINS; REYNOLDS JR.; YASHCHIN, 1997). Quando a autocorrelação não é levada em conta, os limites de controle do dispositivo estatístico tornam-se muito “estreitos” e ele passa a gerar muitos alarmes falsos, o que caracteriza um dos problemas da pesquisa. A despeito deste fato, os usuários de cartas de controle em muitas ocasiões falham em reconhecer a presença de dados autocorrelacionados. Um primeiro exemplo desta afirmativa é encontrado dentro do próprio estudo pioneiro do Dr. Shewhart que, embora um grande estatístico, porém sem acesso a metodologia de séries temporais e os recursos computacionais hoje disponíveis, parece não ter detectado a ausência de aleatoriedade nas observações que ele utilizou em um dos seus estudos sobre gráficos de controle. No Quadro A.1 estão 204 medidas consecutivas de resistência elétrica de 24 isolação, organizadas em 51 subgrupos (n=4), que utilizados na construção de carta de controle com limites de três desvios-padrão, apontaram 19,6% das médias na região de ação. No Anexo A verifica-se que vários destes pontos estão plotados na região de ação do gráfico pelo fato das observações serem autocorrelacionadas. Shewhart, no entanto, atribuiu à causas especiais a ocorrência de todos eles. Nos últimos anos, embora os gráficos de controle tenham se desenvolvido e se tornado uma das mais utilizadas técnicas de monitoramento de processos, sua aplicação incorreta continua não sendo exceção. Pesquisa conduzida por Alwan (1995) com uma amostra de 235 aplicações, coletadas de fontes das quais se esperava considerável grau de sofisticação no domínio da técnica e uso desta ferramenta, mostrou que em 86% dos casos havia algum tipo de violação das hipóteses fundamentais para uso dos limites clássicos, na maior parte das vezes, falha em reconhecer a dependência em série no processo considerado, e conseqüentemente uso de limites de controle inapropriados. Um segundo problema da pesquisa é a significativa redução do poder do gráfico, advinda da dependência em série nos processos com autocorrelação positiva (caso da grande maioria dos processos industriais). 1.3 TEMA DA PESQUISA A busca por dispositivos estatísticos mais eficientes para monitoramento de processos tem, nas últimas duas décadas, fomentado pesquisas com cartas de controle adaptativas. Gráficos desta natureza são projetados de forma que ao menos um dos seus parâmetros (intervalo de amostragem, tamanho da amostra e coeficiente de abertura dos limites de controle) possa variar em tempo real com base nos valores amostrais da estatística de monitoramento e, por conta disto, se tornam muito mais eficientes que os gráficos tradicionais (TAGARAS, 1998). O número médio de amostras até o sinal (NMA) é a métrica comumente empregada para medir a eficiência ou o desempenho das cartas de controle. Quando há uma mudança no processo, é desejável que o NMA seja pequeno de sorte que a 25 detecção seja rápida; por outro lado, quando o processo está em controle, é desejável que o NMA seja alto de modo a reduzir o número de alarmes falsos produzidos pela carta (LU; REYNOLDS JR., 1999). Uma alternativa para melhorar a eficiência do gráfico de X consiste em adotar a amostragem dupla (AD). Se por um lado este esquema leva a uma maior complexidade na administração das amostras, por outro, ele faz com que o dispositivo estatístico sinalize mais rápido as perturbações no parâmetro de centralidade da distribuição da característica de qualidade X. O gráfico de controle com amostragem dupla para processos independentes foi proposto por Croasdale (1974), reprojetado com algumas alterações por Daudin (1992) e recentemente estendido para dados multivariados (HE; GRIGORYAN, 2005; COSTA; MACHADO, 2007; CHAMP; APARISI, 2008). Embora as propriedades deste gráfico o tornem muito competitivo no monitoramento de processos independentes, a literatura consultada não faz menção a seu uso para processos com dependência em série. Com base nestes fatos, a proposta desta tese é projetar o gráfico de X com amostragem dupla para monitorar processos autocorrelacionados, obter suas propriedades e compará-las com as de cartas concorrentes (as de médias amostrais, de EWMA para médias e de médias com amostras de tamanho variável). 1.4 JUSTIFICATIVA E IMPORTÂNCIA DA PESQUISA As observações das variáveis de monitoramento da grande maioria dos processos industriais são autocorrelacionadas, justificando-se assim que todo e qualquer estudo hoje existente sobre gráficos de controle para processos independentes sejam estendidos para dados autocorrelacionados. 1.5 OBJETIVOS DA PESQUISA O objetivo principal desta pesquisa é projetar o gráfico de controle de X com amostragem dupla para o monitoramento de processos autocorrelacionados cujas observações se ajustem a modelos da família ARIMA. 26 Alguns objetivos mais específicos são: � Projetar os gráficos de médias amostrais, de EWMA para médias e de médias com amostras de tamanho variável, para o monitoramento de processos autocorrelacionados; � Obter as propriedades dos gráficos considerados; � Mensurar o efeito da dependência em série no poder de detecção dos gráficos; � Comparar, em condições de igualdade, o gráfico de X com amostragem dupla aos gráficos concorrentes. 1.6 CONTRIBUIÇÕES ORIGINAIS DA TESE Esta tese apresenta como contribuições originais: � Extensão da metodologia hoje existente para o estudo das propriedades dos gráficos de controle de X com amostragem dupla, para englobar também o caso em que as observações são autocorrelacionadas; � Obtenção das propriedades do gráfico de EWMA para médias e do gráfico de X com amostras de tamanho variável em processos autocorrelacionados. Em todos os casos, o desempenho dos gráficos foi obtido analiticamente. 1.7 DELIMITAÇÕES DA PESQUISA No estudo dos dispositivos estatísticos tratados nesta tese consideram-se as seguintes delimitações: � A autocorrelação é inerente ao processo, não sendo possível ou viável sua remoção. � O modelo é estacionário, de baixa ordem e com autocorrelação positiva. Seus coeficientes são conhecidos e acurados e os resíduos se ajustam a uma distribuição IID N (0, 2 e� ). 27 � A influência do erro de medição é desprezível. � As amostras são coletadas segundo os conceitos de subgrupos racionais, portanto, com o processo em controle, é razoável supor que as observações dentro do subgrupo são autocorrelacionadas e a dependência em série entre as amostras é desprezível (GILBERT; KIRBY; HILD, 1997). � A causa especial altera somente a média da distribuição. Este desajuste é do tipo “degrau” (“step mean shift”), com magnitude expressa em unidades do desvio- padrão do modelo de séries temporais que representa o processo. 1.8 ORGANIZAÇÃO DO TEXTO Esta tese está dividida em seis capítulos. Neste, apresentam-se as considerações iniciais, o problema e o tema da pesquisa, sua justificativa e importância, seus objetivos, as contribuições originais, as delimitações e a maneira como o trabalho está organizado. No Capítulo 2, são apresentadas as noções sobre séries temporais, com particular ênfase a modelos parcimoniosos da família ARIMA, e análise de intervenção, uma ferramenta para identificação e modelamento de dados discrepantes. Estes fundamentos são necessários ao entendimento do modelo e dos dispositivos de controle considerados. No Capítulo 3, estão os conceitos fundamentais sobre gráficos de controle para processos independentes (seção 3.1), a revisão bibliográfica sobre o monitoramento de processos autocorrelacionados (seção 3.2) e o desenvolvimento matemático requerido para estudo das propriedades dos gráficos concorrentes e do gráfico proposto (seção 3.3). Os resultados obtidos são apresentados e discutidos no Capítulo 4. No Capítulo 5, é apresentado um exemplo de aplicação com uso da análise de intervenção e outro em que se compara o poder de detecção dos gráficos de médias e com amostragem dupla. No Capítulo 6 estão as conclusões do estudo e sugestões para futuras pesquisas. 28 No Apêndice A são obtidas as variâncias utilizadas na determinação dos limites de controle para processos cujas observações são representadas pelos modelos MA(1), ARMA(1,1), MA(2) e AR(2). O Apêndice B complementa o Capítulo 4 e contém as tabelas com valores de limites de controle e NMA para cada um dos modelos e gráficos considerados. O Apêndice C traz os códigos computacionais em FORTRAN powerstation 4.0 que forneceram os NMAs do Apêndice B. No Anexo A está o tratamento estatístico conduzido sobre os valores de resistência elétrica de isolação, disponíveis em Shewhart (1931, p. 20). 29 2 SÉRIES TEMPORAIS 2.1 CONCEITOS E FUNDAMENTOS Uma série temporal é qualquer conjunto de observações ordenadas no tempo (MORETTIN; TOLOI, 2004). Exemplos de séries temporais são inesgotáveis e podem ser encontrados nos campos de economia e finanças, saúde e ambiental, física, demografia e controle de processos em engenharia. Uma série é contínua quando as observações são feitas ininterruptamente ao longo do tempo e é discreta quando as observações são tomadas a intervalos equiespaçados. A principal característica na análise de séries temporais é o fato que observações sucessivas normalmente não são independentes, o que torna a série estocástica, ou seja, valores futuros têm uma distribuição de probabilidade condicionada ao conhecimento de valores passados. Uma série estocástica, cuja seqüência de variáveis aleatórias é representada por � �,..., 21 XX pode ser, na maior parte das vezes, descrita por seus momentos de primeira e segunda ordem, respectivamente, a média, dada por 2,... 1, 0,t para E t ���� Xt� e a função autocovariância, dada por � �., ssttst XXE ��� ��� Como a função autocovariância depende da unidade da variável aleatória prefere-se muitas vezes, por propósitos práticos, substituí-la pela função adimensional de autocorrelação, expressa por 22 ,, st XXstst ���� � sendo 11 , ��� st� . Nesta tese são consideradas apenas séries estacionárias, nas quais as leis de probabilidade que governam o fenômeno descrito não se alteram ao longo do tempo, ou seja, a distribuição de )(),...,(),( 21 NtXtXtX é a mesma que a distribuição de )(),...,(),( 21 kNkk tXtXtX ��� quaisquer que sejam os pontos Nttt ,...,, 21 e qualquer que seja a defasagem de tempo (ou lag) k. Desta maneira, a notação anterior pode ser simplificada para ),( )( kttk XX �� �� e ),( )( kttk XX �� �� e valem as seguintes propriedades: 30 1 ;1 ; 0 0 2 0 ��� ��� � � kkk kkkX e e ���� ������ Quando se formam subgrupos tomados de processos com média constante, como são os processos estacionários, a variância da média dos subgrupos, conforme Cryer (1986, p. 19), é expressa por: k n k X n k nn � � � 12 1 1 02 � � � � � � � � �!� (2.1) Um tipo particular de processo estacionário é o chamado ruído branco te , definido como uma seqüência de variáveis aleatórias, do qual muitos modelos úteis podem ser construídos. Normalmente se assume: 2,0N IID~ ete � . 2.2 A FUNÇÃO AUTOCORRELAÇÃO AMOSTRAL (FAC) Basicamente, todos os processos de fabricação são governados por elementos inerciais, e quando o intervalo entre amostras se torna pequeno em relação a estas forças, as observações do processo serão correlacionadas ao longo do tempo. Esta é uma função de extrema importância para examinar dependência entre dados. Considere uma seqüência de observações NXXX ,...,, 21 . Um estimador natural da função autocorrelação k� é a função autocorrelação amostral definida por: ,...,2,1,0 para ˆ 1 2 1 Nk XX XXXX N t t N kt ktt k � � �� � � � � !� � � (2.2) onde: � � � N t tX N X 1 1 (2.3) Segundo Schneider e Pruett (1994), o erro padrão de k�̂ é aproximadamente igual a N1 , onde N é o número total de dados empregados no cálculo da 31 autocorrelação. Box, Jenkins e Reinsel (1994) recomendam que a estimativa k�̂ seja obtida com 50"N e para 4Nk � . De modo prático admite-se que, se algum dos coeficientes k�̂ for maior do que o valor N2� , a autocorrelação será significativa ao nível aproximado de 95% de significância. Na imensa maioria dos processos de manufatura a autocorrelação é positiva, isto é, um valor abaixo da grande média no instante (t-1) tende a ser seguido também por um valor abaixo no instante t, e vice-versa, o que acaba fazendo com que observações ordenadas cronologicamente em um gráfico de linhas apresentem certo padrão característico em forma de “U” denominado stationary meandering (ALWAN, 2000, p. 52). Nos processos com autocorrelação negativa observações consecutivas se alternam acima e abaixo da média global, criando igualmente um padrão típico no gráfico, que revela a ausência de aleatoriedade. 2.3 A FUNÇÃO AUTOCORRELAÇÃO PARCIAL AMOSTRAL (FACP) Esta função é utilizada na identificação de modelos estacionários juntamente com a função autocorrelação amostral. Ela define a correlação parcial entre Xt e Xt-k após remover o efeito das variáveis intervenientes 1,21 ...,, !��� kttt XXX e é usualmente representada por kk� , sendo que as autocorrelações parciais teóricas, conforme Cryer (1986, p.109), podem ser calculadas por: � � � � � � � �� � � � 1 1 ,1 1 1 ,1 1 k i jjk k j jkjkk kk �� ��� � (2.4) com expressão geral: .1,...,2,1 para ,1,1 ���� ��� kjjkkkkjkkj ���� Por definição considera-se 111 �� � e aplicando (2.4), obtém-se, por exemplo: ; 1 2 1 2 12 22 � ��� � � � ;11221121 ���� �� 32 222121 1222213 33 1 )( ���� ����� � �� �� � Nestas equações, a estimativa do coeficiente de autocorrelação parcial é obtida substituindo i� por 1,2,... ˆ �ii� 2.4 MODELOS DA FAMÍLIA ARIMA A classificação denominada ARIMA foi proposta por Box e Jenkins em 1970 e aplica-se a modelos estocásticos que descrevem um grande número de processos práticos (CASTILLO, 2002, p. 68). O acrônimo resulta da junção de autoregressivo (AR), integrado (I) e média móvel (MA, abreviatura de moving average), e normalmente o modelo é referenciado como ARIMA(p,d,q) onde “p” é a ordem do componente autoregressivo, “d” é o grau de diferenciação necessário para tornar o processo estacionário e “q” é a ordem do componente de média móvel. Se um dos componentes não está presente, seu termo e ordem são suprimidos do nome; por exemplo, o modelo ARIMA(1,0,0) é rotineiramente chamado por AR(1). Nesta tese são consideradas as séries parcimoniosas 2 q p, � e estacionárias 0d � que representam significativa parte dos processos nas áreas de Engenharia (BISGAARD; KUHLAHCI, 2007). As observações de um modelo ARMA(p,q), segundo Castillo (2002, p. 85), são dadas por: kt q k kt p k ktkt eeXX � �� � �� �!!� 11 ��� onde t=1, 2, 3,..., T (2.5) A partir desta expressão é possível representar os modelos adotados nesta tese, como se detalha a seguir. 33 2.4.1 O modelo autoregressivo AR(p) Os modelos autoregressivos foram propostos por Yule (1927) apud Cryer (1986) e são representados usando-se (2.5) com k ,0k #�� . O valor Xt é uma combinação linear dos “p” valores passados mais recentes, acrescidos da média � e do resíduo ou erro aleatório, 2,0N IID~t ee � , que incorpora o que é novo na série no tempo t e não pode ser explicado pelos valores passados. Os valores de ,... , 21 �� tt XX são independentes de te . O coeficiente autoregressivo da defasagem “k” é representado por k� . A forma deste modelo, no qual os valores do processo são regredidos sobre eles mesmos, é análoga a usada no modelo de regressão linear (CASTILLO, 2002, p. 70). O modelo autoregressivo de primeira ordem AR(1) é freqüentemente adotado para representar processos em manufatura onde são encontradas as aplicações de CEP. As observações deste processo podem ser escritas utilizando-se (2.5) com kk ,0 #�� e 1 para 0k $� k� . Neste modelo são válidas as seguintes propriedades: � �� � �� 1 )( tXE (2.6) 2 2 2 0 1 � � �� � �� e X (2.7) 2 2 k 1 � �� � � � e k (2.8) .....0,1,2 para 0 k k ��� kk� � �� (2.9) O parâmetro do modelo é � (o subscrito é normalmente suprimido nos modelos de primeira ordem) e � é uma constante denominada drifting parameter ou parâmetro de derivação (CASTILLO, 2002, p. 78). Para que o processo seja estacionário a condição é 1 %� . Quando 1 "� o processo é chamado “passeio aleatório” não estacionário. Neste caso, a média e a variância não são constantes ao longo do tempo e 34 não se observa a tendência que o processo retorne ao valor alvo sem que haja algum tipo de interferência externa. A equação definidora do modelo autoregressivo de segunda ordem, AR(2), é obtida usando-se (2.5) com 0) ,( 21 &�� e 2 para 0k $� k� em adição a kk ,0 #�� . A média do modelo é dada por: 2 2 2 11 )( �� �� �� ��tXE (2.10) As demais propriedades deste modelo são derivadas das equações propostas por Yule- Walker, isto é: 2k21k1k �� !� ����� (2.11) e 1,2,... para 2-k21-k1k �!� k����� (2.12) quando k=0 encontra-se: 2 1 2 2 2 2 22 0 11 1 �� � � ��� ���� � � �� � ! � �� e X (2.13) 110 11para ��� ��� � e ,k 2 1 1 1 � �� � � (2.14) e para k = 2: 2 2 122 2 1 1 � ���� � !� � (2.15) Os parâmetros do modelo são 21 e �� e as condições de estacionariedade dadas por: 1 e 1 ,1 22121 %%�%! ����� . 2.4.2 O modelo de médias móveis MA(q) O modelo de médias móveis é expresso usando-se (2.5) e fazendo-se k ,0k #�� . O coeficiente de médias móveis da defasagem “k” é representado por .k� A terminologia “médias móveis” deriva do fato que Xt é obtido aplicando os pesos 35 q��� ��� ..., , , ,1 21 às variáveis qtttt eeee ��� ..., , , , 21 respectivamente e então movendo os mesmos pesos uma unidade de tempo a frente e aplicando-os novamente a 111 ..., , , , !��! qtttt eeee para obter 1!tX . Slutsky (1927) e Wold (1938) apud Cryer (1986) foram os precursores do modelo de médias móveis. Este modelo é adequado a muitas áreas, particularmente as de econometria (CHATFIELD, 2004). Processos de médias móveis são sempre estacionários para quaisquer valores de .k� Quando as observações de uma série temporal se ajustam ao modelo de médias móveis de primeira ordem MA(1) elas são representadas empregando-se (2.5) e considerando-se 1 para 0 $� kk� além de kk ,0 #�� . O modelo, cujo parâmetro é � , é caracterizado pelas seguintes propriedades: ��)( tXE (2.16) 222 0 1 ���� !�� eX (2.17) 2 1 e��� �� (2.18) 21 1 � �� ! � � (2.19) 2 para 0kk "�� k�� (2.20) Neste modelo o maior valor que 1� pode assumir é 0,5 para 1��� e o menor valor é -0,5 para 1!�� (o valor da correlação para � negativo é igual ao valor da correlação para � positivo, porém com sinal trocado). A equação definidora do modelo de médias móveis de segunda ordem MA(2) é obtida usando-se (2.5) com 0, 21 &�� , 2 para 0k $� k� além de k ,0k #�� . Os parâmetros do modelo são 21 e �� , a média é dada por (2.16) e as demais propriedades são: 2 2 2 1 22 0 1 ����� !!�� eX (2.21) 2 2111 e����� !�� (2.22) 2 22 e��� �� (2.23) 2 2 2 1 211 1 1 �� ���� !! !� � (2.24) 36 3 para 0kk "�� k�� (2.25) 2.4.3 O modelo autoregressivo e de médias móveis de primeira ordem ARMA(1,1) O modelo autoregressivo e de médias móveis de primeira ordem é equivalente ao modelo AR(1) com um erro aleatório adicional (BOX; JENKINS; REINSEL, 1994) e considerado apropriado em muitas aplicações para representar as observações do processo. A equação do modelo ARMA(1,1) é obtida de (2.5) com 0k �� k�� 1 para $k . Neste modelo, as esperanças do produto da variável de interesse e os resíduos são dadas por 2 1 2 e ettett XeEXeE ���� ��� � , os parâmetros são �� e , a média é dada pela expressão (2.6) e as demais propriedades são: 0 para -1 2-1 2 2 22 0 � ! �� keX � � ����� (2.26) 1 para 21 1 2 " �! �� � kk ��� ����� (2.27) 1 para 1 -1 21-k 2k " � � � ke�� � ����� (2.28) A condição de estacionariedade neste caso é a mesma já vista para o modelo AR(1). 2.5 CONSTRUÇÃO DO MODELO Encontrar modelos apropriados para séries temporais não é um trabalho trivial e para fazê-lo segue-se normalmente um processo de múltiplas etapas, que pode ser repetido inúmeras vezes, consistindo na identificação, ajuste e diagnóstico do modelo. Ao fazer a identificação do modelo tenta-se satisfazer o princípio da parcimônia, isto é, o modelo selecionado deve requerer o menor número possível de parâmetros que representem adequadamente os dados. O comportamento das funções autocorrelação e autocorrelação parcial versus o lag k (apresentado em gráficos 37 chamados de correlogramas) tem importante papel na identificação do modelo conforme indicado no Quadro 2.1, adaptado de Morettin e Toloi (2004). Quadro 2.1 – Identificação de modelos por meio de correlogramas MODELO FAC FACP AR(p) decai de acordo com exponenciais e/ou senóides amortecidas, infinita em extensão 0kk &� para k � p e 0kk �� para k > p; ou seja similar a FAC do processo MA(q) MA(q) apresenta um corte após o lag q, portanto a função é finita similar a FAC do processo AR(p) ARMA(p,q) decai de acordo com exponenciais e/ou senóides amortecidas, infinita em extensão comporta-se como a FACP de um processo MA puro Além do uso dos correlogramas da FAC e FACP, outros métodos, principalmente aqueles baseados em uma função penalizadora, podem ser usados para identificação do modelo. Entre estes métodos encontram-se, por exemplo, o critério de informação de Akaike e o critério do erro do preditor final (final predictor error), excluídos do escopo desta tese, onde se abordam apenas modelos de baixa ordem, usualmente identificados por análise gráfica. Algumas regras práticas podem ser úteis ao se identificar o modelo: � Evitar aumentar desnecessariamente a ordem dos parâmetros do modelo (overfitting); � Quando isto não for possível, não aumentar simultaneamente a ordem dos componentes MA e AR do modelo; � Desenvolver um modelo na direção sugerida pela análise dos correlogramas das observações e também dos resíduos. Na etapa de ajuste do modelo procura-se pela melhor estimativa do valor do parâmetro. Em geral, esta estimação é obtida por métodos iterativos usando-se com freqüência o método dos mínimos quadrados ou variações deste, para maiores detalhes veja Cryer (1986, p. 125-159). As estimativas das propriedades do modelo, isto é, média, variância, autocorrelação e autocovariância são obtidas pela substituição dos 38 parâmetros estimados nas fórmulas vistas na seção 2.4. Há vários aplicativos estatísticos que auxiliam na tarefa de estimação. Nesta tese fez-se uso do pacote estatístico MINITAB® (2003) para as aplicações e exemplos apresentados. Na etapa de diagnóstico analisa-se a qualidade do modelo que foi especificado e estimado, ou seja, quão bem ele se ajusta aos dados e se as hipóteses do modelamento estão satisfeitas (CHATFIELD, 2004). Na etapa prévia de estimação foram obtidos os resíduos do modelo, que em analogia com a análise de regressão, são expressos como a diferença entre os valores observados e previstos. Se o modelo foi apropriadamente especificado e seus parâmetros bem estimados, os resíduos encontrados serão IID e se ajustarão a uma distribuição N(0, e� ), portanto, quando plotados seqüencialmente num gráfico de linha espera-se que estejam dispersos ao redor de uma linha zero sem apresentar quaisquer tendências. Além de ser importante observar a autocorrelação dos resíduos em lags individuais, é útil aplicar um teste estatístico que leve em consideração sua magnitude como um grupo. Com esta finalidade e tendo como origem o teste de Portmanteau, Ljung, Box e Pierce (1978) propuseram a seguinte estatística: � � � !� K k k kN NNKQ 1 2ˆ )2( � (2.29) Eles mostraram que se o modelo ARMA(p,q) estiver corretamente estimado, então, para valores de N suficientemente grandes, Q terá uma distribuição de Qui- quadrado com (K-p-q) graus de liberdade (MORETTIN; TOLOI, 2004, p. 204), onde K é o último lag sobre o qual será calculada a estatística. 2.6 ANÁLISE DE INTERVENÇÃO Seja uma determinada série estacionária, representativa da variável de interesse Yt de um processo, representada por um modelo autoregressivo e de médias móveis (ARMA) dado por teBYB t �� � onde p p 2 21 ...1)( BBBB ���� ����� é um polinômio autoregressivo de ordem p; q q 2 211 B...BB)B( ���� ����� é um 39 polinômio de médias móveis de ordem q; B é o operador retroativo ou de atraso e et é uma seqüência de erros aleatórios IID com média zero e variância 2 e� . Uma forma alternativa de representar este modelo é: tt e B BtfY )( )()( � � !� (2.30) onde Yt e tf representam respectivamente a série “contaminada” por valores atípicos e as perturbações nela presentes, tais como dados discrepantes ou perturbações na média do processo. A função tf é expressa por: d tB Btf � ' ((0� (2.31) onde d t� =1 se t=d e d t� =0 se t�d; )( e )( BB '( são polinômios de atraso que descrevem o efeito dinâmico da perturbação em yt e 0( representa o impacto inicial da perturbação. Quando a razão 1� B B ' ( a perturbação é chamada aditiva (PA) e afeta a série somente no tempo t=d. Por outro lado, quando )( )( B B B B � � ' ( � a perturbação é chamada de inovação (PI), afeta a série no tempo t=d e a partir daí diminui gradativamente de magnitude de acordo com a memória do modelo. Aplicando-se (2.31) em (2.30) encontra-se: t d tt e BB BBY B B !� 0)()( )()( )( )( (� '� (� � � que é equivalente a uma equação de regressão linear dada por ttt exy !� 0( onde tt Y B By )( )( � � � e d tt BB BBx � '� (� )()( )()( � . Desta forma, a grandeza 0( pode ser estimada usando-se �� �� � N t t N t tt xxy 1 2 1 0(̂ com � � � N t te x 1 222 ˆ ��( onde N representa o número considerado de amostras na série. A razão entre as grandezas 0(̂ e 2 (̂� determina a estatística de intervenção, i� , que permite estimar e distinguir o tipo de perturbação presente na série. Seja o polinômio ;)()(...1)( 2 21 BBBBB ��))) ����� segue-se que )(...)1)(( 2 21 BBBB �))� ���� e a partir desta igualdade obtêm-se os 40 coeficientes .j) Por exemplo, para um processo ARMA(1,1): ...1...111 3 23 2 121 2 21 �����!�������� BBBBBBB �))�))�)))�� e igualando-se os coeficientes de potências iguais em B encontram-se: 1j1210 e , ,1 ������ j�))�))��)) As expressões particularizadas para obtenção dos valores, disponíveis em Morettin e Toloi (2004), são: perturbação aditiva: � � � � � � !� �� dN j j dN j jdjd PA ee 0 2 1 0 ˆ ) ) (( (2.32) � � � �� dN j j e PA 0 2 2 22 ) � ��* (2.33) e dN j jPA PAi � )( �� 21 0 2ˆ � � � � � � � �� � � � (2.34) perturbação de inovação: dPI e�� (* ˆ0 (2.35) 222 ePI ���( �� (2.36) e PI PIi � ( �� ˆ �� (2.37) Sob a hipótese nula de ausência de dados atípicos na série, a estatística de intervenção é distribuída assintoticamente como N(0,1) e esta hipótese é rejeitada quando i� excede um valor crítico “C”, tipicamente pré-estabelecido a partir de um valor de erro tipo I fixo. Quando o dado discrepante identificado for do tipo aditivo deve-se substituí-lo por meio da seguinte expressão: d tPAtt IYY (̂~ �� (2.38) 41 onde: + , - � & � d t 1, d t ,0d tI Se por outro lado a observação atípica for do tipo inovação deve ser substituída de acordo com: d tPItt I B BYY ( � � ˆ )(ˆ )(ˆ~ �� (2.39) onde: B B B B � � � � ˆ1 ˆ1 )(ˆ )(ˆ � � � e t t Y YB 1�� Na prática, os parâmetros do modelo são desconhecidos, bem como o instante d de ocorrência de uma observação atípica. Nestas circunstâncias, um método para identificar dados discrepantes e ajustar um modelo apropriado (CHANG; TIAO; CHEN, 1988) compreende as seguintes etapas: (i) Ajustar o modelo para a série original supondo que não existam observações atípicas e calcular os resíduos do modelo; (ii) Usando as expressões (2.32) a (2.37), calcular os valores da estatística de intervenção para dados atípicos do tipo inovação e aditivo. Comparar os valores absolutos obtidos com o valor limite pré-estabelecido C e, se necessário, substituir as observações discrepantes usando as expressões (2.38) e (2.39), estimando a seguir a nova variância do resíduo; (iii) Com os resíduos e a variância obtidos na etapa (ii), recalcular as estatísticas de intervenção. Repetir a etapa (ii) até que todas as observações atípicas estejam identificadas, mantendo, contudo, inalterada a estimativa inicial de )(ˆ B) ; (iv) Suponha que tenham sido identificadas preliminarmente g observações atípicas nos instantes d1, d2,...,dg. Considerando conhecidos estes instantes de tempo, pode-se simultaneamente estimar os parâmetros da série temporal, utilizando o modelo: 42 t di ti g i it e B BIBY )( )()( 1 � �.( !�� � (2.40) com 1)( �Bi. para observação atípica aditiva e �� � � �� � � )( )()( B BBi � �. para observação atípica de inovação no instante di. (v) A partir deste novo modelo, faz-se uma nova estimativa da variância do resíduo e repetem-se os passos de (ii) a (iv), até que todas as observações atípicas sejam identificadas e seus impactos estimados simultaneamente, obtendo-se finalmente o modelo ajustado dado por t dj tj g j jt e B BIBY )(ˆ )(ˆ)(ˆ 1 � �.( !� � � no qual as grandezas )(ˆ e )(ˆ ,ˆ BBj ��( são estimadas na iteração final. Atienza, Tang e Ang (1998) propuseram o uso da estatística da análise de intervenção para detectar dados discrepantes e desajustes da média no monitoramento de processos autocorrelacionados. Os autores utilizaram o modelo AR(1) para representar as observações do processo e mostraram que o método apresenta uma boa eficiência quando a autocorrelação é fortemente positiva e no mínimo 200 observações são usadas para análise. 43 3 GRÁFICOS DE CONTROLE 3.1 CONCEITOS FUNDAMENTAIS - PROCESSOS INDEPENDENTES 3.1.1 Causas aleatórias e causas especiais de variação Uma das maneiras mais efetivas para melhorar a qualidade é direcionar recursos e esforços no sentido de reduzir a variação. A variabilidade em um processo reflete as diferenças existentes entre as unidades produzidas. Parte desta variabilidade é inerente ao processo e advem de pequenas perturbações ou causas aleatórias. Na maioria das vezes, a presença de causas aleatórias não demanda qualquer reação e, quando o processo apresenta apenas esta variabilidade natural, diz-se que ele está em estado de controle estatístico ou simplesmente sob controle. Processos sob controle têm resultados previsíveis, dentro de limites estatísticos estabelecidos por meio de um conjunto preliminar de dados. A este respeito, encontra-se em Shewhart (1931, p. 6) a seguinte citação: ... a phenomenon will be said to be controlled when, through the use of past experience, we can predict, at least within limits, how the phenomenon may be expected to vary in the future. Here it is understood that prediction within limits means that we can state, at least approximately, the probability that the observed phenomenon will fall within the given limits. Entretanto, um processo pode sofrer perturbações maiores cujo efeito é alterar os parâmetros da distribuição da variável aleatória X, seja afastando sua média do valor- alvo e/ou aumentando sua variabilidade. Esta perturbação é gerada por uma causa especial. As causas especiais de variação não são parte do processo e ocorrem acidentalmente, porém quando atuam provocam forte impacto. Reconhecer e remover causas especiais para melhorar o processo é tipicamente uma função do operador que deve estar instruído e capacitado a realizar tal tarefa. Muitas vezes, causas aleatórias (ou causas comuns) são erroneamente diagnosticadas e tratadas como especiais, o que leva a variações ainda maiores no processo. Esta prática, chamada “tampering”, resulta em frustração, desperdício de tempo e dinheiro. A previsibilidade de um processo cuja 44 variabilidade provém apenas de causas aleatórias é a base dos gráficos de controle, em outras palavras, uma das finalidades principais da carta de controle é distinguir causas especiais de causas comuns de variação. 3.1.2 Fases de implementação da carta de controle A implementação de uma carta de controle é normalmente feita em duas etapas: (i) Fase I (ou controle retrospectivo) - amostras em número suficiente são analisadas quanto a presença de causas especiais agindo sobre o processo e possível correlação entre valores consecutivos da característica de interesse. Se os dados são independentes e o processo está em controle, o conjunto de dados pode ser utilizado para estabelecer os limites de controle; (ii) Fase II (ou controle prospectivo) - os limites determinados na fase I são projetados para comparação com os dados futuros de sorte a determinar se o processo permanece ou não sob controle (FALTIN; MASTRANGELO; RUNGER; RYAN, 1997). 3.1.3 Subgrupos racionais Segundo Wheeler e Chambers (1992) a organização das observações em subgrupos racionais é norteada por cinco princípios: (i) Nunca agrupar conscientemente observações originárias de diferentes fluxos do processo, pois isto pode mascarar a presença de causas especiais afetando o poder de detecção do gráfico; (ii) Minimizar a variação dentro de cada subgrupo para aumentar a sensibilidade da carta de controle às variações existentes entre os subgrupos, isto é, as observações que irão constituir a amostra devem ser coletadas no menor intervalo possível de tempo entre elas; 45 (iii) Maximizar a oportunidade para variação entre os subgrupos, isto é, manter intervalos longos entre as amostras para permitir que todos os fatores de variação existentes no ambiente do processo encontrem oportunidade para se manifestar; (iv) Sempre que possível adotar subgrupos com tamanho de amostra maior que a unidade. Ao tomar a média das observações, reduz-se o nível de “ruído” o que torna mais fácil detectar diferenças entre subgrupos; (v) Elaborar definições operacionais para o procedimento de amostragem, e procurar mantê-las como parte da rotina de monitoramento. 3.1.4 O gráfico de X para processos com observações independentes O gráfico de X para dados independentes é usado para monitorar a estabilidade da média do processo quando a característica de qualidade de interesse é uma grandeza mensurável representada pelo modelo de Shewhart dado por: tt eX !� � para t=1,2,3,... (3.1) O monitoramento é realizado retirando-se amostras de tamanho n a cada intervalo de tempo h. Para cada amostra calcula-se a média X e plota-se o valor encontrado em um gráfico que possui os limites de controle superior (LSC) e inferior (LIC) posicionados a k desvios-padrão da média, geralmente k=3. Se os pontos marcados no gráfico distribuem-se de modo aleatório ao redor da linha média (LM), localizada na média de X , não há necessidade de intervenção. A linha média e os limites de controle do gráfico devem ser determinados quando o processo está sob controle, isto é: XkLSC �� !� 0 (3.2) 0��LM (3.3) XkLIC �� �� 0 (3.4) onde: XX ��� ��0 (3.5) e: 46 nn X X 0��� �� (3.6) são respectivamente a média e o desvio-padrão com o processo sob controle. A abertura dos limites proposta por Shewhart, k=3, faz com que, enquanto o processo estiver sob controle, raramente os pontos marcados caiam na região de ação do gráfico (acima do LSC ou abaixo do LIC), minimizando a chance de intervenções equivocadas no processo. Um processo ajustado e sem influências de causas especiais é exemplificado na Figura 3.1 (adaptada de MONTGOMERY, 2001, p. 134). 73.985 73.990 73.995 74.000 74.005 74.010 74.015 1 3 5 7 9 11 13 15 17 19 21 23 25 número da amostra m éd ia LSC LIC LM Figura 3.1 – Gráfico de controle (processo estável e ajustado) Quando, contudo, um dos pontos cai na região de ação como aconteceu com o 15º valor de X , (veja Figura 3.2, adaptada de COSTA; EPPRECHT; CARPINETTI, 2005, p. 29), o processo provavelmente está sob influência de alguma causa especial, que deve ser investigada e corrigida. O planejamento dos gráficos de controle é função de três parâmetros: o tamanho das amostras n, o intervalo de tempo entre amostras h e a abertura dos limites de controle k. Não existe uma razão imperativa para que os limites estejam posicionados a três desvios-padrão da média. Esta abertura é considerada uma variável de decisão e selecionada por meio de um projeto estatístico-econômico. A escolha do plano de amostragem e da abertura dos limites de controle é apoiada pelo conhecimento do desempenho do gráfico que consiste em quantificar a capacidade do esquema de controle para detectar perturbações no processo. 47 990 995 1000 1005 1010 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 número da amostra m éd ia LSC LIC LC Figura 3.2 – Gráfico de controle (processo instável) A teoria descrita a seguir, para determinação do desempenho do gráfico de controle, está disponível em Costa, Epprecht e Carpinetti (2005). O gráfico de X , quando em uso no monitoramento do processo, pode ser visto como uma seqüência de testes de hipóteses que se repetem a cada amostra. Nestes testes, as hipóteses são sempre as mesmas, ou seja: H0: 0�� � , isto é, processo sob controle (ou livre de causas especiais); H1: 0�� & , isto é, processo fora de controle (ou sobre a influência de causas especiais). A hipótese H0 é aceita como verdadeira quando o valor de X estiver dentro da região delimitada pelos limites de controle e é falsa quando X cair na região de ação do gráfico. Se o processo estiver em controle, ( 0�� � ), � representa o risco de considerar-se erroneamente o processo fora de controle, caracterizando-se um alarme falso. O erro associado a este risco é chamado de tipo I. Se o processo estiver fora de controle, ( 0�� & ), � representa o risco de considerar-se erroneamente o processo sob controle, ou o risco da não-detecção, cujo erro associado é denominado tipo II. As probabilidades de alarme falso (� ) e de não-detecção (� ) são respectivamente expressas por: � �0 ou Pr ��� �%$� XX LICXLSCX (3.7) � �0 Pr ��� &��� XX LSCXLIC (3.8) 48 e o poder do gráfico de controle, (Pd), é definido como a probabilidade de detecção, dado por: ��� 1Pd (3.9) O alarme falso é um sinal errôneo que o processo se desajustou quando na realidade ele está em controle. A ocorrência de um alarme falso é ilustrada na Figura 3.3 (encontrada em COSTA; EPPRECHT; CARPINETTI, 2005, p. 65). Figura 3.3 – Gráfico de X - ocorrência de um alarme falso Para calcular o risco � é necessário conhecer a distribuição da variável aleatória X . Na Figura 3.3, ainda que a variável X não seja normalmente distribuída, pode-se admitir pelo Teorema Central do Limite, que a distribuição da variável X seja normal. Pode-se definir uma nova variável Z, resultante da padronização da variável X , por meio da expressão: XXZ ��0�� (3.10) Esta nova variável tem distribuição normal com média 0�Z� e desvio- padrão 1�Z� . Como os limites de controle são usualmente estabelecidos a n00 3�� � , a probabilidade de um valor X fora da região em controle é obtida pela equação (3.7), isto é, � � � � Pr Pr XX LICXLSCX %!$�� , ou seja: / 0 1 2 3 4 � %!/ 0 1 2 3 4 � $� X X X X LIC Z LSC Z � � � � � 00 PrPr (3.11) 15 30 45 60 75 90 105 Minutos )n/;(N~);(N~X 00XX ���� LM � �0 nkLSC /00 �� !� Alarme falso nkLIC /00 �� �� h = 15 min 49 Quando o processo está sob controle, nX 0�� � , portanto a expressão (3.11) se simplifica a: � � 3 Pr $� Z� (3.12) A probabilidade � � Pr zZ $ é dada pela distribuição normal padrão. O risco � não é afetado pelo tamanho da amostra, n. Ele depende apenas do coeficiente que governa a abertura dos limites de controle, k, ou seja, afastando os limites de controle em X k� da linha média, o risco � se generaliza para: � � Pr kZk $�� (3.13) Quando o processo está sob influência de uma causa especial (hipótese H0 é falsa) o sinal dado pelo gráfico a esta condição pode não ser imediato, especialmente se o deslocamento da média for pequeno. Normalmente este deslocamento é expresso em unidades do desvio-padrão da variável X, assim o novo valor da média, 1� , é dado por 001 ���� !� , portanto: 001 ���� �� (3.14) A Figura 3.4, (retirada de COSTA; EPPRECHT; CARPINETTI, 2005, p. 70), ilustra a inércia da resposta ao deslocamento da média, pois neste caso o sinal só é dado quando o quinto valor de X é levado ao gráfico. Figura 3.4 – Gráfico de X - ocorrência de um alarme verdadeiro 15 30 45 60 75 90 Minutos nkLSC /00 �� !� )n/;(N~);(N~X 000XX ���!��� LM � �0 Alarme verdadeiro 00 ��!��� nkLIC /00 �� �� 0�� h = 15 minutos 50 Neste exemplo, a hipótese H0 é falsa, pois a média da variável X foi deslocada de 0� para 00 ��� ! . Para calcular o poder do gráfico (Pd), utilizam-se as expressões (3.8) e (3.9). A probabilidade de um valor X estar acima do limite superior de controle é dada por: � � � � � �nkZ k ZZZLSCX X X LSC � � ����� �$� / / 0 1 2 2 3 4 !�! $�$�$ PrPr Pr Pr 000 E analogamente a probabilidade de um valor X estar abaixo do limite inferior de controle, é dada por: � � � � � �nkZZZLSCX LIC ���%�%�% Pr Pr Pr Como � � Pr zZ $ = � � Pr zZ �% segue-se que � � Pr LSCZ $ = � � Pr LSCZ �% resultando portanto: � � � �n�kZn�kZ ��%!!�%� Pr PrPd (3.15) Os valores das probabilidades � � Pr zZ % são obtidos na tabela da distribuição normal acumulada. Seja S o número de amostras que antecedem um alarme (incluindo a amostra que gera o alarme). Ele segue uma distribuição geométrica de parâmetro p dada por: � � ,...3,2,1 ,1Pr 1 ���� � dppdS d (3.16) A média da distribuição geométrica é igual a 1/p. Quando a hipótese H0 for verdadeira, / 0 1 2 3 4 � %!/ 0 1 2 3 4 � $�� X X X X LIC Z LSC Zp � � � � � 00 PrPr , e o número médio de amostras até um alarme falso é igual a: NMA0= 0�� �SE =1/� (3.17) Logo, com limites 3-sigma, é de se esperar em média um alarme falso a cada 4,3700027,0 1 �� pontos no gráfico. De modo análogo, quando a hipótese H0 for falsa, � � � �nkZnkZ �� ��%!!�%�� Pr PrPdp , e o número médio de amostras que antecedem um alarme verdadeiro é igual a: 51 NMA= 0�� &SE =1/(Pd) (3.18) Para exemplificar o cálculo do Pd, considere-se novamente a Figura 3.4, onde S=5. Supondo-se k=3,00; � =1,00 e n=4 e substituindo-se estes valores na expressão (3.15) encontramos Pd=0,1587, logo são necessárias em média 3,61587,0 1 �� amostras de tamanho 4 para detectar um deslocamento de um desvio-padrão na média. Voltando a esta expressão, nota-se que o poder de detecção cresce quando o tamanho da amostra aumenta. Assim, o esforço maior em inspeção traz em retorno maior rapidez na detecção (desde que os intervalos de amostragem sejam constantes) e redução no eventual prejuízo advindo de operar o processo fora de controle. 3.2 REVISÃO DA LITERATURA 3.2.1 Introdução Faltin, Mastrangelo, Runger e Ryan (1997) classificaram em três grupos as principais estratégias de monitoramento de processos autocorrelacionados: 5 Alargar os limites de controle do gráfico de modo que a região delimitada por eles possa conter o comportamento não aleatório peculiar da autocorrelação. 5 Utilizar um dispositivo estatístico com propriedades independentes do modelo autocorrelacionado (“model-free approach”). 5 Projetar o dispositivo estatístico a partir da identificação e ajuste do modelo de séries temporais que representa as observações do processo (“model-based approach”). E, recentemente, uma nova direção de pesquisa começou a ser explorada: 5 Utilizar gráficos adaptativos. A literatura relevante sobre cada uma destas estratégias está resumida nas seções 3.2.2 a 3.2.5. 52 3.2.2 Gráficos com limites de controle alargados Vasilopoulos e Stamboulis (1978) adequaram o gráfico de X para uso no monitoramento de processos AR(2) ou AR(1), em que a correlação está presente dentro do subgrupo mas as médias são independentes. Os autores apresentaram ábacos que permitem modificar os fatores tradicionais usados na determinação dos limites de controle de modo a evitar a alta taxa de alarmes falsos. Limites alargados foram também considerados por Cryer e Ryan (1990) que compararam as propriedades de 24 e dMR cS como estimadores de variabilidade em carta de valores individuais e concluíram que ambos são viesados para processos com dependência em série. Entretanto, o estimador baseado no desvio-padrão do processo seria mais indicado que o baseado na amplitude móvel, pois seu viés tende a zero quando n tende a infinito. Curiosamente, na mesma época, Yang e Hancock (1990), em pesquisa independente de Cryer e Ryan (1990), sugeriram um estimador análogo para o gráfico de X em processos com dependência em série. Neste caso, o desvio-padrão da média seria expresso por 212 1 1 �� � � � �� � � ��� � � kXXS k i iX e os limites passariam a ser dados por * 43 cSX X� onde X é a média global, iX é a média do i-ésimo subgrupo, k é o número de subgrupos usado na estimação e *c4 é o fator de correção baseado no número de subgrupos k e não mais no tamanho n do subgrupo, como tipicamente utilizado na determinação dos limites de ação do gráfico de X . Este fator é encontrado em livros-texto (veja, por exemplo, COSTA; EPPRECHT; CARPINETTI, 2005, p. 38). Padgett, Thombs e Padgett (1992) avaliaram o desempenho do gráfico de médias quando as observações se ajustam a um modelo AR(1). Os resultados obtidos mostraram que a correlação, ainda que em níveis baixos, aumenta substancialmente o número de alarmes falsos. 53 Maragah e Woodall (1992) investigaram o efeito da autocorrelação sobre o gráfico de X, com os limites de controle baseados em amplitudes móveis e assumindo que as observações do processo pudessem ser representadas pelos modelos AR(1) e MA(1). Eles mostraram que quando as observações são autocorrelacionadas, segue-se que xdRE ���� 12 o que indica considerável viés neste estimador. Em particular, para autocorrelações positivas, o uso da amplitude móvel subestima a variabilidade do processo tornando pequena a abertura entre os limites, o que gera um número maior de alarmes falsos. Por outro lado, quando a característica do processo apresentar autocorrelação negativa, a abertura dos limites convencionais é demasiadamente grande e o poder do gráfico em sinalizar a causa especial é prejudicado. Gilbert, Kirby e Hild (1997) deduziram a expressão que permite estimar a autocorrelação dentro do subgrupo mesmo quando uma seqüência consecutiva de medições da variável de interesse não esteja disponível. Embora isto possa ser útil numa análise preliminar dos dados de um processo, não oferece possibilidade de identificação do modelo. No mesmo artigo, os autores apresentam constantes que são utilizadas para compensação dos limites de controle dos gráficos SX & para processos AR(1), que levam a valores idênticos aos obtidos por Yang e Hancock (1990). Lu e Reynolds Jr. (1999a) investigaram o esquema de EWMA para monitoramento da média de um processo positivamente autocorrelacionado cujas observações se ajustam a um modelo AR(1) com erro aleatório adicional. Eles compararam o uso das observações originais ao uso dos resíduos do modelo como estatística de controle e investigaram o efeito da estimação dos coeficientes do modelo sobre a eficiência do dispositivo. O gráfico de X foi incluído nas comparações como ponto de referência. Os autores mencionam que a constante � do gráfico de EWMA deve ser escolhida de modo a se obter desempenho razoável em uma ampla gama de desajustes da média. Os resultados mostram que quando o nível de correlação do processo não é alto, os gráficos com observações e resíduos têm eficiências comparáveis; por outro lado quando a correlação é forte nenhum deles consegue detectar desajustes em tempo razoável (ainda assim, o gráfico com resíduos é mais 54 rápido para desajustes de grande magnitude e o gráfico com as observações originais para desajustes menores). Os autores também concluíram que os gráficos com observações ou com resíduos são muito sensíveis ao efeito de estimação de seus parâmetros os quais recomendaram que sejam obtidos a partir de um número significativo de amostras. Lu e Reynolds Jr. (2001) investigaram o gráfico de CUSUM para monitoramento da média das observações de um processo representado pelo modelo AR(1) com erro aleatório adicional. Demonstraram que a taxa de alarmes falsos do gráfico de CUSUM depende do grau de autocorrelação e é necessário que os limites de controle sejam apropriadamente compensados. Na pesquisa estudou-se também o uso de resíduos do modelo como estatística de controle, constatando-se que neste caso o desempenho do gráfico é melhor quando a autocorrelação for alta e o interesse concentrado na detecção de grandes desajustes. Os gráficos de CUSUM foram comparados aos de observações individuais e de EWMA com as mesmas estatísticas de controle. Para autocorrelações relativamente baixas, as cartas de CUSUM e de EWMA foram muito melhores do que a de X para desajustes pequenos e moderados na média, entretanto, para autocorrelações moderadas a diferença entre os gráficos tornava-se insignificante. Concluiu-se que o poder dos gráficos de CUSUM e de EWMA é similar, portanto, a escolha entre eles poderia se basear na facilidade de uso e interpretação dos resultados. Quando a autocorrelação é alta, pequenos desajustes na média se confundem com o comportamento estocástico do modelo e dificultam a detecção, entretanto, os autores recomendam que gráficos de EWMA e de CUSUM não sejam otimizados para pequenos deslocamentos, pois isto penaliza severamente a eficiência na faixa de maiores desajustes. Alwan (2000) reporta que na presença de autocorrelação positiva dentro dos subgrupos, a carta de médias com limites de controle calculados assumindo a independência das observações irá gerar mais alarmes falsos. Isto ocorre devido às duas principais influências advindas da dependência em série: (i) a variação observada dentro do subgrupo é pequena em relação à variação de longo prazo no processo e (ii) a variabilidade das médias dos subgrupos em relação a média do processo é maior do que seria observado se os dados fossem independentes. Em razão destas 55 circunstâncias, a estimativa de variabilidade fica subestimada e a região em controle fica equivocadamente reduzida. Quando a autocorrelação entre subgrupos é desprezível, os limites devem ser ajustados por meio do desvio-padrão apropriado (introduzido nesta tese como a expressão (2.1), p. 27) para levar em conta apenas a autocorrelação dentro do subgrupo. O autor enfatiza que nestas circunstâncias o comportamento resultante do efeito da autocorrelação é caracterizado como uma causa comum. Sun e Xu (2004) estenderam a pesquisa de Gilbert, Kirby e Hild (1997) a processos representados pelo modelo AR(1) com erro aleatório adicional. Os autores apresentaram fatores de ajuste para compensação dos limites de gráficos SX & e tabelas com os valores do NMA para diversos níveis de correlação. Bisgaard e Kulahci (2005) apresentaram um estudo de caso com controle de temperatura de forno cerâmico. O responsável pelo monitoramento do processo utilizava o gráfico de observações individuais que por serem autocorrelacionadas geravam inúmeros alarmes falsos provocando frustração e descrédito. Os autores identificaram que medições de temperatura a intervalos regulares de 60 minutos se ajustavam a um processo AR(2). De modo claro e objetivo, mostram como a identificação do modelo, a estimativa dos coeficientes e a constatação de estacionariedade podem ser obtidas com uso do software Minitab®. Para reduzir a incidência de alarmes falsos, os limites são alargados para . 3SX � Os autores argumentam que isto reduz o poder do gráfico, porém permite o uso da temperatura como a estatística de controle tornando a interpretação da carta mais simples ao usuário. Finalmente os autores usam os resíduos do modelo em um gráfico de EWMA, que indicam como o dispositivo apropriado ao monitoramento do processo. 3.2.3 Gráficos com propriedades independentes do modelo (model-free approach) Alwan e Radson (1992) mostraram que médias de amostras tomadas de um processo AR(1) se ajustam a um processo ARMA(1,1) cujos coeficientes podem ser 56 calculados a partir do valor do coeficiente da série original, do tamanho do subgrupo e do intervalo entre eles. Neste processo ARMA(1,1) o coeficiente da média móvel é muito menor do que o coeficiente autoregressivo, o que faz com que o processo na prática comporte-se como AR(1). Os coeficientes do modelo diminuem quando o intervalo entre os subgrupos aumenta, entretanto o erro tipo I continua a ser afetado pela correlação em série dentro do subgrupo. Os autores indicam recomendações de espaçamento entre subgrupos para que eles se tornem independentes, e neste caso limites de controle podem ser calculados por X �3� (usando-se a expressão (2.1) para calcular X� ). O autor argumenta que limites de controle fixos serão inapropriados quando não houver independência entre os subgrupos. Runger e Willemain (1996) consideraram ambientes com grande disponibilidade de dados provenientes do monitoramento da variável de interesse em processos autocorrelacionados e propuseram um dispositivo estatístico, que denominaram batch-means charts ou gráfico de médias aritméticas para lotes (GMAL). Este método não requer o modelamento dos dados do processo. A autocorrelação presente na série original é atenuada para 10,01 �� pela formação de subgrupos consecutivos com tamanho muito maior do que o convencional e suas médias aritméticas usadas como estatística de controle. O tamanho do subgrupo é dimensionado de acordo com o procedimento proposto por Fishman (1978), isto é, com o processo isento de causas especiais, considera-se inicialmente n=1 e estima-se a autocorrelação de lag 1. Se a atenuação da dependência em série for insuficiente, repete-se o processo tantas vezes quanto necessário, dobrando-se o valor de n a cada etapa, até que a autocorrelação entre as médias alcance o valor proposto ( 10,01 �� ), quando então se estabelece o número mínimo de observações no subgrupo. Os autores investigaram também a estratégia de amostragem na qual a dependência em série foi mitigada pela formação de subgrupos menores espaçados de w observações. Neste caso, a abertura dos limites foi ajustada para o mesmo número de alarmes falsos considerado com o emprego de subgrupos consecutivos. A estatística de controle é dada por: 57 ,...2,1 , 1 1 1 �� � � !!� � lXnW n i inwll (3.19) onde Wl é a série derivada da série Xt original. Utilizando-se o modelo AR(1) para representar as observações do processo, as eficiências obtidas com as duas alternativas de amostragem foram comparadas. Na Tabela 3.1 são apresentados alguns resultados para determinadas combinações de tamanho de subgrupo e espaçamento. Tabela 3.1 – Número médio de observações até o sinal (NMO) para algumas combinações w versus n; Gráfico GMAL; NMO0=21112; modelo AR(1); 1�e� e 9,0�� w n X�� / 0,5 1,0 1,5 2,0 3,0 4,0 0 57 2831 423 130 73 57 57 10 22 4882 883 239 95 39 32 19 5 7034 1602 464 173 48 28 Os autores concluíram que dispositivos com valores grandes de n e pequenos de w são mais eficientes para deslocamentos médios e pequenos da média, e inversamente, com subgrupos menores e espaçados a detecção é mais rápida para deslocamentos grandes da média. Zhang (1998) propôs o gráfico denominado EWMAST, aplicável a processos estacionários em geral, que utiliza o valor do EWMA das observações originais como a estatística de controle. Neste dispositivo, os limites de controle são determinados analiticamente levando em conta apenas a autocorrelação da série de valores (isto é, de forma independente do modelo), estimada a partir de um conjunto histórico de no mínimo 100 observações com o processo sob controle. O autor comparou desempenhos entre o esquema proposto e os gráficos de resíduos, de observações com limites alargados e de EWMA com linha de centro móvel (MONTGOMERY; MASTRANGELO, 1991) para processos representados por modelos AR(1), AR(2) e ARMA(1,1). Os resultados encontrados em todos os casos demonstraram que o esquema proposto foi mais eficiente que os concorrentes no monitoramento de processos com autocorrelação positiva e moderada e em particular na detecção de desajustes de pequena e média magnitude na média. 58 Zhang (2006) demonstra que quando dados consecutivos de medição se ajustam a um processo de médias móveis, pode-se derivar a partir deles uma série formada por médias de subgrupos, organizados consecutiva ou espaçadamente. A pesquisa indica como obter combinações entre o tamanho do subgrupo e o número de observações entre eles, tal que as médias sejam independentes. Sabendo-se que a autocorrelação reduz a eficiência de dispositivos estatísticos de monitoramento da média, transformar a série original em dados não correlacionados contribui para melhorar a capacidade de detecção de mudanças no processo. 3.2.4 Gráficos com propriedades dependentes do modelo (model-based approach) A publicação de Berthouex, Hunter e Pallesen (1978) é a primeira referência encontrada sobre monitoramento de processos usando resíduos de modelos da família ARIMA como estatística de controle. Os autores abordam o processo de tratamento de efluentes em duas fábricas e modelam o logaritmo neperiano da demanda bioquímica de oxigênio. Alwan e Roberts (1988) argumentam que a definição original de Shewhart não requer independência de observações sucessivas do processo, somente demanda que se possa prever como o processo é esperado variar no futuro. Eles empregam a expressão “em controle no amplo sentido da palavra” para caracterizar processos autocorrelacionados cujo comportamento é perfeitamente previsível, embora a média esteja sujeita a variações locais. Percebendo que processos autocorrelacionados são de natureza não-aleatória, propuseram ajustar suas observações a um modelo da família ARIMA e monitorar os valores previstos e os resíduos resultantes. Como estes resíduos apresentam as propriedades de independência e normalidade, eles são usados em um gráfico para observações individuais, com limites de controle calculados da maneira convencional, no qual é possível detectar causas especiais. Os valores previstos são plotados em um gráfico que não utiliza limites de controle, apenas informa a média local do processo e proporciona certo controle sobre tendências que 59 possam estar sendo filtradas pelo monitoramento com os resíduos. Montgomery e Mastrangelo (1991) propuseram o uso do gráfico de EWMA como uma aproximação aos modelos ARIMA para ajustar as observações do processo. Este método de monitoramento, denominado EWMA com linha central móvel, baseia- se no fato que a média condicional de uma série temporal estacionária está constantemente mudando e a seqüência de valores de EWMA permite estimar estas mudanças. As informações sobre o estado de controle estatístico e a dinâmica do processo, representados respectivamente pelo EWMA e as observações originais, estão reunidas no mesmo gráfico. Como o EWMA com �=1-� é a previsão um-passo-a- frente ótima para o modelo IMA(1,1) há equivalência entre os dois modelos. Assim, o EWMA pode ser usado como a linha central no gráfico e comparado com limites dinâmicos posicionados a pZ �� 2� , onde 2�Z é o ponto percentual 2� superior na distribuição normal e p� é o desvio-padrão do processo. Os autores mostram como se determina p� e sugerem métodos para escolha da constante � que melhoram a aproximação entre o modelo real e o modelo IMA(1,1). Tseng e Adams (1994) demonstraram que quando o EWMA é usado como ferramenta de previsão alternativamente ao uso de modelos da família ARIMA, os resíduos obtidos serão independentes somente quando as observações do processo se ajustarem ao modelo IMA(1,1). Os autores adotam como referência um modelo AR(1) e, aplicando o EWMA para encontrar o valor previsto, usam os resíduos obtidos em gráficos de X, EWMA e CUSUM. As propriedades destes gráficos foram obtidas por simulação. Os resultados de NMA0 obtidos são erráticos e substancialmente diferentes do valor para o qual os limites haviam sido calibrados, especialmente nas cartas de EWMA e CUSUM. Os autores creditaram este comportamento ao fato dos resíduos não apresentarem a característica de independência. Wardell, Moskowitz e Plante (1994) enfatizam que a estatística de controle a ser usada exerce influência no poder do gráfico. Em um processo ajustado ao modelo AR(1), no qual a causa especial desajusta a média 0� em X�� � no tempo t=1, a resposta dinâmica esperada das observações originais para t � 1, admitindo-se que não tenham ruído associado, será expressa por 0� + �, entretanto a resposta dinâmica 60 esperada dos resíduos do modelo, a uma perturbação de mesma magnitude na média, será: + , - $�! �! � 1 t para 1 1 t para 0 0 ��� �� teE analogamente, se o modelo for ARMA(1,1) então: 6+ 6 , - $ � � ! �! � 1 t para 1 1 1 tpara 0 0 � ��� �� teE Ou seja, o resíduo atinge seu valor máximo no instante em que a causa especial se manifesta, e no instante seguinte já se reduz de um fator 1 �� no modelo AR(1), ou �� �� 11 no modelo ARMA(1,1), do deslocamento inicial. Esta peculiaridade, chamada “forecast recovery”, origina o que Superville e Adams (1994) chamaram de “window of opportunity”, ou seja, se o dispositivo de controle não detectar o desajuste logo após a ocorrência da causa especial, a probabilidade de detecção com as próximas amostras é consideravelmente reduzida, em especial se a autocorrelação do processo for alta. Considerando um processo com � =0,679 e 1543,e �