Vińıcius Narciso Fernandes Análise descritiva sobre dados de dengue com relação aos aspectos ambientais, sociodemográficos e geográficos do Estado de São Paulo Botucatu, São Paulo 2023 Vińıcius Narciso Fernandes Análise descritiva sobre dados de dengue com relação aos aspectos ambientais, sociodemográficos e geográficos do Estado de São Paulo Trabalho de conclusão de curso apresentado ao curso de F́ısica Médica da Universidade Estadual Paulista “Júlio de Mesquita Filho” - Instituto de Biociências de Botucatu como parte dos requisi- tos necessários para obtenção do t́ıtulo de Bacha- rel em F́ısica Médica. Orientadora: Profa. Dra. Cláudia Pio Ferreira Co-orientadores: Thomas Vilches e Wesley Cota Botucatu, São Paulo 2023 FICHA CATALOGRÁFICA ELABORADA PELA SEÇÃO TÉC. AQUIS. TRATAMENTO DA INFORM. DIVISÃO TÉCNICA DE BIBLIOTECA E DOCUMENTAÇÃO - CÂMPUS DE BOTUCATU - UNESP BIBLIOTECÁRIA RESPONSÁVEL: MARIA CAROLINA A. CRUZ E SANTOS-CRB 8/10188 Fernandes, Vinícius Narciso. Análise descritiva sobre dados de dengue com relação aos aspectos ambientais, sociodemográficos e geográficos do Estado de São Paulo / Vinícius Narciso Fernandes. - Botucatu, 2023 Trabalho de conclusão de curso (bacharelado - Física Médica) - Universidade Estadual Paulista "Júlio de Mesquita Filho", Instituto de Biociências de Botucatu Orientador: Cláudia Pio Ferreira Coorientador: Thomas Nogueira Vilches Coorientador: Wesley Cota Capes: 10104003 1. Análise de componentes principais. 2. Dengue. 3. Correlação (Estatística). Palavras-chave: Análise de componentes principais; Análise descritiva; Medidas de correlação. Vińıcius Narciso Fernandes Análise descritiva sobre dados de dengue com relação aos aspectos ambientais, sociodemográficos e geográficos do Estado de São Paulo Trabalho de Conclusão de Curso defendido e aprovado em Botucatu, 12 de dezembro de 2023, pela banca examinadora constitúıda pelos professores: Luzia Aparecida Trinca e Fernando Luiz Pio dos Santos. Dedicatória Agradeço a professora Cláudia Pio pela oportunidade de trabalho, evolução e maturidade cient́ıfica que pude obter ao longo desse semestre. Agradeço ao Thomas Vilches e ao Wesley Cota por toda ajuda e orientação que também me deram ao longo do semestre no presente trabalho. Agradecimentos Agradeço inicialmente à Professora Cláudia Pio, por me proporcionar a oportunidade de realizar este trabalho acreditando em mim num momento onde estava me levantando como pessoa. Quero agradecer também ao Thomas Vilches e Wesley Cota que nos últimos tempos sempre vem com relação ao trabalho. Aos amigos que fiz durante esses anos na faculdade, em especial, Garibaldo, Emotiva, América, Tijolin, Hello Kitty, Parabéns, Pet, Ana Flávia e Suzana Wesselka assim como vários outros que foram aparecendo no decorrer dos anos, que enfim são tantos que fica dif́ıcil de agradecer a todos, obrigado a vocês que me ajudaram nesses últimos anos nessa etapa da minha vida e me proporcionaram momentos de alegria. E também, agradeço à toda F́ısica Médica XV. Aos meus avós, tanto maternos quanto paternos, dedico a minha formação a eles que me ajudaram em momentos dif́ıceis, especialmente ao meu avô Antônio espero que de onde ele esteja possa estar feliz por mim e orgulhoso de conquistar a faculdade que queria e de conseguir me levantar a pesar de todos os percalços do meio do caminho. Ter me tornado o homem diferente do que ele achava que eu poderia ser. Quero também agradecer a todos os professores que tive durante a minha jornada até a faculdade, foram esses que sempre me incentivaram a estudar e a ir buscar o caminho do conhecimento me mostrando que através da educação poderia me tornar uma pessoa melhor e com perspectivas de futuro. Realmente a única coisa que posso lhes dizer é muito obrigado por me guiarem no caminho correto. Agradecer a própria Unesp e todo o seu corpo estudantil que sem eles seria dif́ıcil fazer tudo sozinho. A estrutura de estudo que me ofereceu e ao apoio financeiro por meio do aux́ılio socioeconômico que através desse benef́ıcio também pude me manter na faculdade, assim me deixando mais tranquilo para focar nos estudos e menos preocupado com questões econômicas. Este trabalho foi financiado pelo Conselho Nacional de Desenvolvimento Cient́ıfico e Tecnológico (CNPq), com suporte computacional do Laboratório de Epidemiologia de Doenças Infecciosas do Departamento de Infectologia (LEDI) da Faculdade de Medicina de Botucatu/Unesp, e dados fornecidos pelo Centro Conjunto Brasil-Reino Unido para Descoberta, Diagnóstico, Genômica e Epidemiologia de Arbov́ırus (CADDE). ”Meu cérebro é apenas um receptor, no Universo existe um núcleo a partir do qual obtemos conhecimento, força e inspiração. Eu não penetrei nos segredos deste núcleo, mas eu sei que ele existe” – Nikola Tesla Resumo A dengue é uma arbovirose de importância mundial. Não existe vacina e o controle é feito sobre a população de vetores, o mosquito Aedes. A definição de cidades alvo para o investimento em saúde pública é desejável. Este trabalho tem como objetivo estudar como as cidades do estado de São Paulo se agrupam de acordo com suas caracteŕısticas sociodemográficas e climáticas, e a relação destas com a incidência de dengue nestas ci- dades. Para isso, dados de temperatura, umidade e pluviosidade foram utilizados para a obtenção do ı́ndice P, que mede o potencial de transmissão de arboviroses. A essas variáveis juntou-se também outras sociodemográficas. Através de uma análise de compo- nentes principais, foi feita uma redução da dimensionalidade dos dados, e, após, aplicada técnicas de agrupamento hierárquica e não-hierárquica. Os grupos formados apresen- taram padrões de incidência de dengue distintos, sendo posśıvel selecionar dentre eles, aqueles com maior número de casos. Os métodos aqui apresentados podem auxiliar na identificação de cidades alvo para a implementação de poĺıticas públicas para controle da transmissão de arboviroses. Palavras-chave: Análise Descritiva, Medida de Correlação, Análise de componentes Principais. Abstract: Dengue disease is an arbovirusis of global importance. There is no vaccine and control is carried out over the vector population, the Aedes mosquito. The definition of target cities for investment in public health is desirable. This work aims to study how cities in the state of São Paulo are grouped according to their sociodemographic and cli- matic characteristics, and their relationship with the incidence of dengue in these cities. For this, temperature, humidity and rainfall data were used to obtain the P index, which measures the potential for transmission of arboviruses. These variables were also joined by other sociodemographic variables. Through a principal component analysis, the dimen- sionality of the data was reduced, and then hierarchical and non-hierarchical clustering techniques were applied. The groups created showed different dengue incidence patterns, making it possible to select among them those with the highest number of cases. The methods presented here can help to identify target cities for implementing public policies to control the transmission of arboviruses. Key-words: Descriptive Analysis, Correlation, Principal Component Analysis. Conteúdo 1 Introdução 10 2 Objetivo 11 3 Metodologia 11 3.1 Índice P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.2 Correlação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3 Análise de Componentes Principais . . . . . . . . . . . . . . . . . . . . . . 13 3.4 Análise de agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4.1 Agrupamentos hierárquicos e não-hierárquicos . . . . . . . . . . . . 17 3.5 Descrição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4 Resultados e Discussão 18 4.1 O ı́ndice P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 Correlação entre as variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.3 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . 22 4.4 Análise de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.5 Incidência de dengue nos diferentes grupos . . . . . . . . . . . . . . . . . . 27 5 Conclusão 28 Bibliografia 29 1 Introdução A dengue é uma doença febril aguda, sistêmica e dinâmica - o paciente pode evoluir de um estágio para outro rapidamente - e apresenta um amplo espectro cĺınico, de casos assintomáticos a graves que podem evoluir para óbito. É uma arbovirose cujo principal vetor é o mosquito Aedes aegypti e o agente etiológico é um v́ırus da famı́lia Flaviviridae. Quatro diferentes sorotipos do v́ırus (DENV-1, DENV-2, DENV-3 e DENV-4) causam a infecção e indiv́ıduos recuperados tem imunidade permanente ao v́ırus homólogo, e temporária ao v́ırus heterólogo de maneira que reinfecções são observadas [1]. Todas as faixas etárias são igualmente suscet́ıveis à doença, contudo, idosos e pessoas com doenças crônicas, como diabetes e hipertensão arterial, têm maior risco de evoluir para casos graves e complicações [2]. A dengue clássica é autolimitada, dura em torno de 7 a 10 dias, e os sintomas mais comuns são febre alta (39 e 40 graus Celsius), mialgia e cefaleia. A dengue hemorrágica acontece, geralmente, durante a infecção secundária, mas pode ocorrer também em in- fecções primárias, especialmente em lactentes. Em casos leves e moderados, a febre di- minui com sudorese profunda. Também podem ser observadas pequenas alterações na frequência do pulso e pressão arterial, com extremidades frias e edema. Já em casos gra- ves, pode haver agravamento súbito após alguns dias com progresso para Śındrome do Choque da Dengue (SCD) [3]. No Brasil a doença é considerada um problema de saúde pública, e as condições socio- ambientais atreladas à baixa efetividade de programas de combate ao vetor causam cada vez mais preocupação [4]. O peŕıodo do ano de maior transmissão da doença ocorre nos meses mais chuvosos (ou meses úmidos) de cada região do páıs, e geralmente se inicia em novembro e vai até maio [2]. A expansão das áreas de ocorrência de dengue no Brasil está associada à urbanização e à concentração demográfica sem uma devida estrutura de saneamento básico. Outros fatores como as alterações climáticas, impactos ambientais nas paisagens e ecossistemas, predomı́nio de novos modelos e estilos de vida da população também impactam a dinâmica da transmissão da doença [5]. Em resumo, fatores an- tropogênicos e climáticos contribuem não somente para a dispersão ativa do vetor como também para a disseminação de vários sorotipos da doença [6]. Esta monografia descreve o trabalho de iniciação cient́ıfica realizado de junho de 2023 a dezembro de 2023 pelo aluno Vińıcius Narciso Fernandes no Departamento de Biodi- versidade e Bioestat́ıstica , com a Profa. Dra. Cláudia Pio Ferreira e co-orientado por Thomas Nogueira Vilches e Wesley Cota, no tema de análise de dados. Durante o estágio o aluno se familiarizou com o processador de texto LATEX e aprimorou seus conhecimentos na Linguagem de Programação R. É bolsista PIBIC-CNPq desde Outubro de 2023 sob a responsabilidade de Profa. Dra. Claúdia Pio Ferreira. Resultados parciais do traba- lho foram apresentados em congressos, (Congrebio) - XII Congresso de Biociências - em Agosto de 2023 (Botucatu-SP), CIC - Congresso de Iniciação Cient́ıfica - em Outubro de 2023 (Botucatu - SP). 2 Objetivo Estudar a associação entre variáveis climáticas, demográficas e socioeconômicas com a incidência de dengue nas diferentes cidades do Estado de São Paulo. Objetivos espećıficos: • Calcular o ı́ndice P, potencial de transmissão do v́ırus, o qual depende dos fatores abióticos (temperatura e umidade). • Executar uma análise de componentes principais. • Executar uma análise de agrupamento entre as cidades conforme as caracteŕısticas climáticas, demográficas e socioeconômicas. • Analisar a incidência de dengue entre os diferentes grupos e sua associação com as variáveis de interesse. 3 Metodologia 3.1 Índice P O potencial de transmissão de um patógeno pode ser medido pelo número de re- produção básico (R0) ou efetivo (Re). O R0 do patógeno mede o número de casos secundários gerado, em média, por um único hospedeiro infectado que chega em uma população totalmente suscet́ıvel. No caso de v́ırus transmitido por mosquito, R0 é dado pela soma do potencial reprodutivo (transmissão) de cada mosquito fêmea adulta, P(u,t), onde u será a umidade e t a temperatura, multiplicado pela razão entre o número total de mosquitos fêmeas e o número total de indiv́ıduos humanos, M . Já o Re é medido/inter- pretado de maneira similar, mas leva em consideração a presença de hospedeiros imunes (Sh e Sv medem, respectivamente, o número de indiv́ıduos humanos e vetores suscet́ıveis em cada instante de tempo), o que dificulta transmissão da doença [5], R0 = MP(u,t), Re = R0ShSv , (1) com P(u,t) = aνu ϕ ν→h (t) ϕh→ν γν (t)γ h µν (u,t)(σ h + µh) (γh + µh) (γν (t) + µν (u,t)) . (2) Neste modelo, há um total de oito parâmetros na expressão de R0, quatro não depen- dem de fatores abióticos (o tempo de vida humano 1/µh, a probabilidade de transmissão do humano infectado para o mosquito ϕh→ν , o peŕıodo infeccioso humano 1/σh e tempo de incubação intŕınseco do v́ırus 1/γh) e quatro dependem de fatores abióticos (o tempo de vida dos mosquito adultos 1/µν (u,t), o tempo de incubação extŕınseco 1/γν (t), a taxa de picada diária aν(u) e a probabilidade de transmissão do mosquito infectado para o indiv́ıduo humano ϕν→h (t) ). Os parâmetros influenciados pelos fatores abióticos (umidade e tempe- ratura), são funções previamente determinas em estudos experimentais por estimativas laboratoriais de dados entomológicos do mosquito sob diversas condições de temperatura e umidade. Portanto, R0 := R0(u,t), Re := Re(u,t), Sh := Sh(t) e Sv := Sv(t). 3.2 Correlação linear A correlação linear é uma medida estat́ıstica que informa se existe uma relação linear entre duas variáveis, X1 e X2. Para isso é calculado o coeficiente de correlação (ρ12) que indica a força e a direção da relação entre essas variáveis. Dadas J variáveis Xj(j = 1,2,3, · · · , k) de interesse, cada uma com n observações, podemos definir a matriz de correlações ρ como [7] ρ =  1 ρ12 . . . ρ1k ρ21 1 . . . ρ2k ... ... . . . ... ρk1 ρk2 . . . 1  , (3) a qual é simétrica em relação à diagonal principal que, tem valores iguais a 1. Dadas as variáveis Xi e Xj, o coeficiente de correlação linear ρij pode ser calculado com base na expressão ρij = σij σi × σj (4) em que X i e Xj representam, respectivamente, os valores médios das variáveis Xi e Xj, dados por Xj = ∑n m=1 Xjm n , j = 1,..., k. (5) Com relação à força do coeficiente de correlação linear tem-se que [8]: • Se |ρ| ≥ 0.9 a correlação é muito forte; • Se |ρ| ∈ (0.7; 0.9) a correlação é forte; • Se |ρ| ∈ (0.5; 0.7] a correlação é moderada; • Se |ρ| ∈ (0.3; 0.5] a correlação é fraca; e • Se |ρ| < 0.3 a correlação é despreźıvel. A correlação pode ser direta ou inversamente proporcional. Dessa forma, se o valor da correlação é positivo, a relação é direta, ou seja, quando uma variável aumenta a outra também aumenta. Se a correlação for negativa, isso indica que as variáveis são inversamente proporcionais, ou seja, enquanto uma variável aumenta a outra diminui. 3.3 Análise de Componentes Principais A análise de componentes principais (ACP) é uma técnica estat́ıstica de análise mul- tivariada que transforma linearmente um conjunto original de variáveis, inicialmente cor- relacionadas entre si, num conjunto de variáveis de mesma dimensão denominada de componentes principais. Esse novo conjunto tem propriedades importantes como: cada componente principal é uma combinação linear de todas as variáveis originais; as novas variáveis formadas são independentes entre si e possuem o máximo de informação em ter- mos da variação total contida nos dados [7]. Essa técnica pode ser utilizada para reduzir o número de dimensões dos dados originais com a menor perda posśıvel de informação [9]. Entre as vantagens tem-se: • Retirada da multicolinearidade das variáveis, uma vez que permite transformar um conjunto de variáveis originais inter-relacionadas em um novo conjunto de variáveis não correlacionadas (Componentes Principais). • Reduzir muitas variáveis a eixos que representam algumas variáveis (Componentes principais), sendo estes eixos perpendiculares (ortogonais) explicando a variação dos dados de forma decrescente. Entre as desvantagens tem-se: • Se baseia em relações lineares, então, se as relações obedecem outra métrica não será útil; • São senśıveis a dados com valores discrepantes; • Não é adequada o seu uso dados ausências; • Não é útil o uso da técnica quando o número de variáveis é maior do que o número de observações. • Não é posśıvel o uso destas na construção de modelos de predição. Sejam as variáveis X1,X2, · · · , XJ , cada um com n medidas. Este conjunto pode ser representado em um matriz X(n× k) [10]: X =  x11 · · · x1k ... . . . ... xn1 · · · xnk  , (6) e tem matriz de covariância Σ dada por Σ =  σ11, · · · σ1k ... . . . ... σk1 · · · σkk  , com σij = n∑ m=1 (Xim −X i)(Xjm −Xj) (n− 1) . (7) Calcula-se então os autovalores e autovetores da matriz Σ, que é semi-positiva defi- nida, o que garante a não-negatividade de seus autovalores. Encontram-se os pares de autovalores e autovetores (λ1,e1),(λ2,e2), · · · ,(λk,ek), em que λ1 ≥ λ2 ≥ · · · ≥ λk, associ- ados à matriz de covariância. Os autovetores tem k elementos, i.e., ei = (ei1,ei2,...,eik), portanto o i-ésimo componente principal é definido por [10] Zi = ei1X1 + ei2X2 + · · ·+ eikXk . (8) Utilizando a decomposição espectral da matriz de covariância (matriz simétrica), dada por Σ = PΛP t, em que P é a matriz ortonormal, i.e., P t = P−1, composta pelos auto- vetores de Σ em suas colunas, e Λ é a matriz diagonal formada pelos autovalores de Σ, tem-se que tr(Σ) = tr(PΛP t) = tr(ΛP−1P ) = tr(ΛI) = tr(Λ) = k∑ i=1 λi , (9) portanto, a variabilidade total contida nas variáveis originais é igual a soma dos autova- lores contida nos componentes. A contribuição de cada componente principal (Zi) é expressa em porcentagem, e a explicação individual de cada componente pode ser calculada, da seguinte forma: Ci = λi∑k i=1 λi × 100 = λi tr(Σ) × 100 . (10) Para a seleção das componentes principais a serem utilizadas, pode-se aplicar o critério de Kaiser (ou critério das ráızes latentes). Com esse critério retêm-se as componentes principais com autovalores maiores do que a unidade (λi > 1) e garante-se que essas explicam a maior parte da variação dos dados. 3.4 Análise de agrupamentos A análise de agrupamentos representa um conjunto de técnicas exploratórias que po- dem ser aplicadas quando há a intenção de se verificar a existência de comportamentos semelhantes entre observações em relação a determinadas variáveis, visando a criação de grupos de forma que os elementos de um mesmo grupo sejam homogêneos e os elementos em grupos diferentes sejam heterogêneos. Para isso, uma medida de distância ou de se- melhança, que servirá de base para que as observações sejam consideradas menos ou mais próximas, é escolhida, assim como um algoritmo de formação de grupos, que deverá ser definido entre os métodos hierárquicos e não hierárquicos [7]. Os métodos hierárquicos permitem a identificação do ordenamento e da alocação das observações, oferecendo possibilidades para que o pesquisador estude, avalie e decida sobre o número de grupos a serem formados. Já nos métodos não-hierárquicos, parte-se de uma quantidade conhecida de grupos e, a partir de então, é elaborada a alocação das observações nesses grupos, com posterior avaliação da representatividade de cada variável na formação dos grupos. A formação de grupos é bastante senśıvel à presença de valores discrepantes, e a exclusão ou a retenção desses valores na base de dados depende dos objetivos de pesquisa e da natureza dos dados [7]. As técnicas de análise de agrupamentos são consideradas exploratórias, ou de inter- dependência, uma vez que suas aplicações não apresentam caráter preditivo para outras observações não presentes inicialmente na amostra. Assim, os métodos de análise de agrupamentos são chamados de procedimentos estáticos e não-supervisionados, uma vez que a inclusão de novas observações no banco de dados torna necessária a reaplicação da modelagem para que, sejam gerados novos agrupamentos [7]. Inicialmente é feito uma padronização das variáveis. O método padrão é o procedi- mento de z-scores, em que, para cada observação i, o valor de uma nova variável padro- nizada ZXj é obtido pela subtração do correspondente valor da variável original Xj, pela sua média Xj e, prosseguindo, o valor resultante é dividido pelo desvio-padrão sj. Zjm = Xjm −Xj sj com sj = √∑n i=1(Xji −Xj)2 N − 1 . (11) Tal procedimento é necessário, uma vez que as variáveis podem apresentar magnitudes dos valores e da natureza das unidades de medida muito distintas; todas as respectivas variáveis padronizadas pelo procedimento citado acima terão média igual a 0 e desvio- padrão igual a 1. 3.4.1 Agrupamentos hierárquicos e não-hierárquicos Agrupamento hierárquico é uma técnica que pode ser classificada em aglomerativa ou divisiva. No método aglomerativo, inicialmente, cada elemento é considerado ser um grupo individual e ao longo das etapas os elementos vão se agrupando até que no fim exista somente um grupo com todos os elementos. O método divisivo consiste em considerar todos os elementos inicialmente em um único grupo e, ao longo das etapas, os grupos vão se dividindo, até que na última etapa cada grupo terá um único elemento. Em geral, os métodos aglomerativos exigem uma capacidade computacional menor que os divisivos [7]. A medida de distância (dissimilaridade) mais comum é a distância euclidiana, embora, dependendo do tipo de dados, existam outras métricas como a distância quadrática eu- clidiana, Minkowski, Manhattan, Chebychev e Canberra, isso dependendo dos dados. A distância euclidiana pode ser definida como: dpq = √√√√ k∑ j=1 (ZXpj − ZXqj)2 (12) onde ZXjp representa a caracteŕıstica do indiv́ıduo p, ZXjq representa a caracteŕıstica do indiv́ıduo q, e k representa o número de variáveis na amostra. Entre os esquemas hierárquicos aglomerativos, cita-se o método de encadeamento. Nesse, dois grupos sofrem fusão com base na distância média entre todos os pares de observações pertencentes a esses grupos, a qual é dada por d(MN)W = ∑m+n p=1 ∑w q=1 dpq (m+ n)w (13) em que dpq representa a distância entre qualquer observação p do agrupamento MN e qualquer observação q do agrupamento W , e m+ n e w representam, respectivamente, a quantidade de observações nos agrupamentos MN e W . Dentre os esquemas de aglomeração não-hierárquicos, a técnica do K-means é am- plamente utilizada. Nesta, a quantidade de grupos K é definida de maneira prévia pelo pesquisador. A técnica busca minimizar as distâncias entre os elementos e o centroide do grupo a que ele é atribúıdo [11]. 3.5 Descrição dos Dados Os presente trabalho utilizou quatro banco de dados: (i) incidência de dengue, (ii) caracteŕısticas demográficas da população, (iii) caracteŕısticas geográficas das cidades, e (iv) dados climáticos. O banco formado é referente a todas as cidades do estado de São Paulo e contempla o peŕıodo de 2007 a 2019. Neste trabalho consideramos apenas o peŕıodo de 01 de janeiro de 2015 até 31 de dezembro de 2019. O banco de dados de incidência de dengue contém informações anonimizada de mais de quatro milhões de notificações de casos de dengue. Esse banco é um recorte da base de dados de Doenças de Agravo e Notificação do Ministério da Saúde feita pela Secre- taria de Saúde do Estado de São Paulo. Informações como data de notificação, data de primeiros sintomas, evolução do caso, idade, sexo, cor, ńıvel de educação formal, cidade de notificação e residência constam nesse banco. As bases de dados sobre caracteŕısticas demográficas da população e da cidade foram obtidas do censo demográfico do IBGE de 2010, e os dados climáticos das cidades do Estado de São Paulo foram obtidos do Instituto Nacional de Meteorologia. Os bancos de dados foram acessados por meio do sistema computacional do Laboratório de Epidemiologia de Doenças Infecciosas do De- partamento de Infectologia (LEDI) da Faculdade de Medicina de Botucatu, coordenado pelo Prof. Dr. Carlos M. C. B. Fortaleza (FMB-Unesp). A série temporal de dengue foi obtida por intermédio da Profa. Dra. Ester Sabino (IMT-USP), e tratados pelo Dr. Wesley Cota (IMT-USP & FMB-Unesp) e fazem parte de um banco de dados maior per- tencente ao Centro Conjunto Brasil-Reino Unido para Descoberta, Diagnóstico, Genômica e Epidemiologia de Arbov́ırus (CADDE). 4 Resultados e Discussão 4.1 O ı́ndice P A Figura 1 mostra a média do ı́ndice P em cada munićıpio do estado de São Paulo no peŕıodo de 01 de janeiro de 2015 a 31 de dezembro de 2019 e a incidência acumulada de dengue observada no mesmo peŕıodo. Figura 1: (A) Média do ı́ndice potencial de transmissão de arboviroses no Estado de São Paulo, e (B) Incidência de dengue acumulada por 100 mil habitantes. Os dados contemplam o peŕıodo de 01 de janeiro de 2015 a 31 de dezembro de 2019. Cores quentes (amarelo e vermelho) indicam os munićıpios com potencial de trans- missão de dengue maior, enquanto as frias (azul e verde) mostram os locais com ı́ndice P menor e, portanto, menor potencial de transmissão da dengue. Podemos observar uma maior concentração de cidades com ı́ndice P maior do que 1 na região oeste e noroeste do estado de São Paulo. Figura 2 mostra a relação não linear entre a incidência acumulada de dengue e o ı́ndice P médio. Observa-se que conforme o potencial de transmissão de arboviroses aumenta, a incidência acumulada de dengue aumenta também (o mesmo padrão é observado se utilizarmos a média da incidência de dengue no peŕıodo). Figura 2: Incidência acumulada de dengue por 100 mil habitantes em função do ı́ndice P médio, calculado no peŕıodo de 01 de janeiro de 2015 a 31 de dezembro de 2019. 4.2 Correlação entre as variáveis As variáveis climáticas estudadas foram: temperatura (T), umidade (H) e pluviosidade (R). Utilizou-se para cada uma dessas variáveis, as médias dos valores máximos, mı́nimos e médios mensais observados em cada cidade do Estado de São Paulo durante o peŕıodo estudado (01/2015 a 12/2019). Já as variáveis demográficas selecionadas foram: número médio de indiv́ıduos por domićılios, renda média por domićılios, quantidade média de esgoto gerado por domićılios, quantidade média de lixo gerado por domićılios e quantidade de água média consumida por domićılios. Acrescentou-se o potencial de transmissão de arboviroses (P) diário a esse estudo. Como mostrado na Figura 3, a temperatura (média, máxima e mı́nima) apresenta uma correlação forte e positiva com o ı́ndice P (máximo e mı́nimo). Já outras variáveis como, pluviosidade e umidade, a correlação entre elas e o ı́ndice P é forte e nega- tiva. Observa-se ainda que as variáveis demográficas apresentam correlação fraca com as variáveis climáticas, como esperado. Contudo, as variáveis sociodemográficas apresen- tam correlação positiva muito forte entre si. Figura 3: Correlação entre os dados climáticos, dados sociodemográficos e casos de in- cidência acumulada de dengue dos munićıpios do Estado de São Paulo no peŕıodo de 01 de janeiro de 2015 a 31 de dezembro de 2019. 4.3 Análise de componentes principais A Figura 4 mostra a porcentagem da variância explicada por cada componente prin- cipal. Podemos observar que a dimensão 1 e 2 conseguem explicar juntas 55,48% da variância dos dados. Utilizando o critério de Kaiser, verificou-se que as 15 dimensões iniciais podem ser reduzidas a cinco, as quais explicam 80,31% da variância dos dados originais. 41.51 13.97 9.3 8.04 7.49 5.31 3.47 2.95 2.14 1.9 1.77 1.45 0.37 0.33 00 10 20 30 40 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Dimensões V ar iâ nc ia P er ce nt ua l Porcentagem representada por cada componente Figura 4: Porcentagem da variância explicada por cada componente principal. A Figura 4 exibe as porcentagens da variância explicada por cada uma das compo- nentes. Nota-se que a componente principal 1 (PC1) está mais associada às variáveis climáticas. No caso da temperatura média (Tmean), temperatura máxima (Tmax), tempe- ratura mı́nima (Tmin), ı́ndice P máximo (Pmax) e ı́ndice P mı́nimo, (Pmin) a correlação é forte e diretamente proporcional. Em contrapartida, ao que ocorre com a umidade média (Hmean), pluviosidade média (Rmean) e umidade máxima (Hmax) onde a correlação é inversamente proporcional. Já a dimensão 2 e 3 estão correlacionadas com as variáveis sociodemográficas, a dimensão 2 com a quantidade de esgoto gerada por domićılios (es- goto) e a quantidade de lixo gerada por domićılios (lixo) e a dimensão 3 com a renda média por domićılios (renda média) e a quantidade de água consumida por domićılios (água) onde para ambas as correlações são positivas. A dimensão 4 possui correlação com a pluviosidade máxima (Rmax) e a dimensão 5 com a variável que representa a quantidade de habitantes por domićılio (habdom). Figura 5: Correlação entre as componentes principais calculadas e as variáveis estudadas. 4.4 Análise de agrupamento Utilizando as cinco primeiras componentes principais selecionadas utilizando o critério de Kaiser, foi realizado um agrupamento não hierárquico, através da técnica de K-means. Utilizando o método do cotovelo, o qual testa várias quantidades diferentes de grupos e diz, qual representa o número ótimo de agrupamentos, foi selecionado a quantidade de agrupamentos a partir do qual o ”ganho”para minimizar a soma dos quadrados da distância entre as observações e o centroide do grupo ao qual elas pertencem apresenta diminuição significativa (ver Figura 6). Por exemplo, podemos observar na Figura 6 que a inclinação da melhor reta ajustada no intervalo número de agrupamento entre 1 e 5 é maior que a obtida no intervalo entre 5 e 10. Portanto, para o problema proposto, cinco agrupamentos foram escolhidos, pois parece razoável. Figura 6: Soma dos quadrados da distância entre as observações e o centroide do grupo ao qual elas pertencem. O número de agrupamentos ideal é 5. A Figura 7 mostra os grupos formados através do procedimento de K-médias. Nota-se que a representação apresenta sobreposição entre os grupos, resultado da projeção das cinco dimensões utilizadas nas duas dimensões representadas. Figura 7: Agrupamento obtido pelo Método Não Hierárquico (K-means). Logo após ser realizado o agrupamento não-hierárquico através do método K-means, foi realizado o agrupamento hierárquico. Com esta técnica, ao ser aplicada a distância eu- clidiana entre os dados e, através do coeficiente de correlação cofenético, que mede o grau de preservação das distâncias emparelhadas pelo dendograma em relação às distâncias originais, verificou-se que o método do encadeamento médio era o melhor a ser utilizado [7]. Em seguida, utilizou-se um corte para observar cinco grupos e comparar estes com os obtidos no método não-hierárquico (ver Figura 8). B al bi no s Ilh ab el a M on ga gu á H or to lâ nd ia Ita pe ce ric a da S er ra S an to A nt ôn io d e P os se S an to s Á gu as d e S ão P ed ro S ão C ae ta no d o S ul B er tio ga O ur o V er de M ira nt e do P ar an ap an em a P iq ue ro bi P ar iq ue ra − A çu S ão S eb as tiã o R io G ra nd e da S er ra Ita nh aé m P er uí be C an an éi a Ita rir i P ra ci nh a P ot im M ar ab á P au lis ta Ia ra s R eg in óp ol is S er ra A zu l Á lv ar o de C ar va lh o La ví ni a C am po s do J or dã o G ua ru já P ra ia G ra nd e S ão V ic en te Ig ua pe Ilh a C om pr id a C ub at ão R eg is tr o Itu ve ra va V ot up or an ga Li ns Tu pã S ão P au lo S an to A nd ré S ão B er na rd o do C am po B au ru P ira ci ca ba P ira tin in ga R ib ei rã o P ire s Ja rin u M ira ss ol ân di a C aj am ar F ra nc is co M or at o G ua re í Ip er ó C ar ag ua ta tu ba Ita qu aq ue ce tu ba F er ra z de V as co nc el os S uz an o E m bu d as A rt es Ita pe vi F ra nc o da R oc ha M on te M or S an to A nt ôn io d o P in ha l S ão B en to d o S ap uc aí S an ta Is ab el G ua ra re m a S an ta B ra nc a Jo an óp ol is P ira ca ia Ig ar at á Ja m be iro S oc or ro M on te iro L ob at o V ar ge m P ed ra B el a Q ua dr a N az ar é P au lis ta N at iv id ad e da S er ra R ed en çã o da S er ra S ilv ei ra s Ib iú na P in ha lz in ho La go in ha Tu iu ti C un ha B ar ão d e A nt on in a Ju qu iti ba P ie da de Ita pi ra pu ã P au lis ta A pi aí C aj at i B ar ra d o Tu rv o Ita be rá S al es óp ol is S et e B ar ra s Ja cu pi ra ng a S ão M ig ue l A rc an jo B iri tib a M iri m P ed ro d e To le do Ju qu iá M ira ca tu N ov a C am pi na R ib ei ra Ip or an ga B ar ra d o C ha pé u E ld or ad o G ua pi ar a Ta qu ar iv aí B om S uc es so d e Ita ra ré R ib ei rã o B ra nc o Ita oc a R ib ei rã o G ra nd e A sp ás ia N ov a C an aã P au lis ta Á lv ar es F lo re nc e S an ta S al et e A rc o− Ír is C ai uá E uc lid es d a C un ha P au lis ta S an do va lin a A re ió po lis M ac at ub a A gu do s Ig ar aç u do T ie tê Ta ra ba i Á lv ar es M ac ha do S an to A na st ác io M in ei ro s do T ie tê P ira po zi nh o P re si de nt e E pi tá ci o V al pa ra ís o B eb ed ou ro D ra ce na P re si de nt e V en ce sl au B ar ra B on ita P re si de nt e P ru de nt e G ua iç ar a H er cu lâ nd ia Te od or o S am pa io Ir ap ur u P ac ae m bu G ua rá C af el ân di a B en to d e A br eu V al en tim G en til R os an a R ib ei rã o do s Ín di os E m ili an óp ol is S an to E xp ed ito A lfr ed o M ar co nd es P re si de nt e B er na rd es P au lic éi a Jú lio M es qu ita F ló rid a P au lis ta G ua ra nt ã E st re la d o N or te G et ul in a G ua im bê M ar iá po lis C ai ab u F lo ra R ic a R ub iá ce a S al m ou rã o P ro m is sã o N ov a In de pe nd ên ci a S an ta M er ce de s N ar an di ba A nh um as Ita ju Q ui nt an a Ia cr i M ar tin óp ol is B as to s Ta ci ba Ita pu ra M ira nd óp ol is P an or am a C ás si a do s C oq ue iro s S an ta C ru z da E sp er an ça P al es tin a B an an al Ip ig uá S uz an áp ol is M ira ss ol M on te A pr az ív el B ál sa m o N ev es P au lis ta A lti nó po lis S al es O liv ei ra R ifa in a A ra m in a Ig ar ap av a N up or an ga Ir ap uã G ua ra ci Ic ém G ua pi aç u Ja ci A lta ir O nd a V er de C ol ôm bi a U ba ra na C ed ra l A do lfo M en do nç a N ov a A lia nç a M ar ap oa m a U ch oa N ov o H or iz on te P ot ire nd ab a U ru pê s B ad y B as si tt Ib irá S al es N ov a Lu zi tâ ni a P au lo d e Fa ria G as tã o V id ig al S ud M en nu cc i N ov a G ra na da Ita jo bi O rin di úv a Jo sé B on ifá ci o P en áp ol is A va nh an da va R io lâ nd ia P al m ar es P au lis ta N ov ai s S ev er ín ia D ob ra da Lu ís A nt ôn io S an ta E rn es tin a Ito bi Ta ia çu G ua rib a C on ch al G ua ta pa rá P ira ju í D um on t P on ta l C ol in a Ta m ba ú E sp ír ito S an to d o Tu rv o R in cã o S an ta M ar ia d a S er ra R es tin ga Iti ra pu ã A lv in lâ nd ia Lu pé rc io A gu aí E st iv a G er bi Ja bo ra nd i P re si de nt e A lv es C aj ur u S an ta R ita d o P as sa Q ua tr o B at at ai s B ro do w sk i O rlâ nd ia P ira ss un un ga S er ra na V is ta A le gr e do A lto P or to F er re ira Ta qu ar iti ng a C ra vi nh os M oc oc a S an ta R os a de V ite rb o S ão S im ão G ar ça Itá po lis F er na nd o P re st es S an ta A dé lia G ua ír a M on te A zu l P au lis ta P ira ng i A rir an ha P in do ra m a E m ba úb a P ar aí so Ja rd in óp ol is M or ro A gu do B or bo re m a C ân di do R od rig ue s E lis iá rio C aj ob i C at ig uá P er ei ra B ar re to O lím pi a Ta ba pu ã C at an du va A ra ça tu ba Ilh a S ol te ira A da m an tin a G ua ra ra pe s Ip uã O sv al do C ru z Ta iú va V ira do ur o B iri gu i S an ta F é do S ul B ila c S ão J oa qu im d a B ar ra Ita pi ra M og i M iri m M ar íli a M og i G ua çu P om pé ia B ur iti za l F er na nd óp ol is Ja le s C as til ho A nd ra di na S ab in o C le m en tin a P ia ca tu S an tó po lis d o A gu ap eí Q ue iro z Lu iz iâ ni a V er a C ru z M ig ue ló po lis S ão J os é da B el a V is ta U ru O rie nt e Te rr a R ox a B ra ún a P on ga í S an to A nt ôn io d a A le gr ia C ris ta is P au lis ta P ed re gu lh o B re jo A le gr e N ip oã Lo ur de s U ni ão P au lis ta B ar bo sa G uz ol ân di a M ar in óp ol is P on ta lin da G lic ér io S an to A nt ôn io d o A ra ca ng uá A pa re ci da d 'O es te C or oa do s G ua ra ça í G ab rie l M on te iro Je riq ua ra R ib ei rã o C or re nt e U râ ni a D ol ci nó po lis P ar an ap uã N ov a G ua ta po ra ng a V itó ria B ra si l M on te C as te lo P la na lto P ar is i C os m or am a S ão J oã o do P au d 'A lh o M er id ia no R ub in éi a S an ta C la ra d 'O es te O ur oe st e P ol on i M ac au ba l Ta na bi A ur ifl am a B ur ita m a G en er al S al ga do In di ap or ã S an ta na d a P on te P en sa F lo re al M ag da M on çõ es Tu riú ba N ha nd ea ra S eb as tia nó po lis d o S ul P al m ei ra d 'O es te Tr ês F ro nt ei ra s E st re la d 'O es te P on te s G es ta l A m ér ic o de C am po s C ar do so G ua ra ni d 'O es te P op ul in a S an ta A lb er tin a A lto A le gr e S ão F ra nc is co D irc e R ei s M ur ut in ga d o S ul Z ac ar ia s S ão J oã o da s D ua s P on te s S ão J oã o de Ir ac em a N ov a C as til ho M es óp ol is S an ta R ita d 'O es te P ed ra nó po lis Tu rm al in a M ac ed ôn ia M ira E st re la C on ch as P er ei ra s Ju m iri m P or to F el iz Á gu as d e S an ta B ár ba ra P al m ita l P ira ju S an ta C ru z do R io P ar do M an du ri B er na rd in o de C am po s C ân di do M ot a C er qu ei ra C és ar Ta ru m ã P ed rin ha s P au lis ta P ar ag ua çu P au lis ta Q ua tá A na lâ nd ia D ua rt in a To rr in ha Ip au ss u C ha va nt es B oi tu va B ro ta s A rt ur N og ue ira S ão P ed ro Ta tu í V ot or an tim C ai ei ra s S al to Ja bo tic ab al M on te A lto S er tã oz in ho D es ca lv ad o V ar ge m G ra nd e do S ul La ra nj al P au lis ta S ão J os é do R io P ar do B ar iri Le m e M at ão C os m óp ol is S um ar é C er qu ilh o T ie tê A ra ra s N ov a O de ss a Iti ra pi na C an ita r P ra tâ ni a B or eb i C ab rá lia P au lis ta Lu cé lia Ta qu ar al P ita ng ue ira s Ta ba tin ga C as a B ra nc a Ju nq ue iró po lis Tu pi P au lis ta In di an a R eg en te F ei jó D oi s C ór re go s Ib iti ng a D ou ra do R ib ei rã o B on ito C or de iró po lis Ip eú na S an ta G er tr ud es Ir ac em áp ol is R io d as P ed ra s Ib at é C ha rq ue ad a S ão M an ue l B oc ai na M om bu ca G av iã o P ei xo to B oa E sp er an ça d o S ul Tr ab iju B ar rin ha S an ta C ru z da s P al m ei ra s N ov a E ur op a Ia ca ng a P ra dó po lis Ita pu í A m ér ic o B ra si lie ns e S an ta L úc ia Le nç ói s P au lis ta C ap iv ar i R af ar d B or ac éi a P ed er ne ira s A m er ic an a S ão C ar lo s A ra ra qu ar a R io C la ro F ra nc a O ur in ho s B ar re to s S al tin ho Ja ú Li m ei ra S an ta B ár ba ra d 'O es te P au lín ia In da ia tu ba B ot uc at u Itu S or oc ab a H ol am br a S an ta C ru z da C on ce iç ão A ss is Ja gu ar iú na S ão J oã o da B oa V is ta Á gu as d a P ra ta E sp ír ito S an to d o P in ha l P ed re ira C ap ão B on ito Ita pe va Tr em em bé M au á M og i d as C ru ze s Ita ra ré M ai rip or ã P in da m on ha ng ab a A va ré Ta ub at é Ita pe tin in ga G ua ru lh os D ia de m a P oá C an as La vr in ha s Q ue lu z B ur i P ila r do S ul C es ár io L an ge E lia s Fa us to P ira po ra d o B om J es us Ita tin ga Ta pi ra tib a S al to d e P ira po ra Ta gu aí U ba tu ba A ra ça rig ua m a P ar di nh o C ap el a do A lto Ita í Ita po ra ng a E m bu − G ua çu S ar ap uí B of et e S ão J os é do B ar re iro T im bu ri Fa rt ur a To rr e de P ed ra S ar ut ai á D iv in ol ân di a P or an ga ba P ar an ap an em a Ta qu ar itu ba C ac on de A la m ba ri C or on el M ac ed o R iv er su l S an to A nt ôn io d o Ja rd im S ão L ou re nç o da S er ra P ar ai bu na S ão L ui z do P ar ai tin ga Ta pi ra í A re ia s Te ju pá A nh em bi F er nã o A ra pe í S ão S eb as tiã o da G ra m a P au lis tâ ni a A va í M ot uc a E ng en he iro C oe lh o Lu ci an óp ol is S ag re s C or um ba ta í G ál ia E ch ap or ã O ca uç u U bi ra ja ra P ar ap uã P at ro cí ni o P au lis ta In úb ia P au lis ta R in óp ol is S al to G ra nd e A re al va Ib ira re m a C am po s N ov os P au lis ta Lu té ci a R ib ei rã o do S ul P la tin a S ão P ed ro d o Tu rv o O sc ar B re ss an e A ra ço ia ba d a S er ra Ó le o R an ch ar ia C ru zá lia M ar ac aí Ie pê A ng at ub a C am pi na d o M on te A le gr e F lo rí ne a Jo ão R am al ho A ra nd u B or á N an te s C ab re úv a V ár ze a P au lis ta Itu pe va C am po L im po P au lis ta C ar ap ic uí ba A tib ai a B ar ue ri C ot ia Ja nd ira A ru já O sa sc o Ta bo ão d a S er ra M on te A le gr e do S ul A m pa ro S er ra N eg ra Á gu as d e Li nd ói a Li nd ói a P iq ue te G ua ra tin gu et á A pa re ci da C ac ho ei ra P au lis ta C ru ze iro Lo re na R os ei ra S ão R oq ue M ai rin qu e A lu m ín io M or un ga ba Ita tib a Lo uv ei ra C aç ap av a Ja ca re í B ra ga nç a P au lis ta B om J es us d os P er dõ es V ar ge m G ra nd e P au lis ta S ão J os é do R io P re to S ão J os é do s C am po s S an ta na d e P ar na íb a V in he do Ju nd ia í V al in ho s C am pi na s R ib ei rã o P re to0 4 8 12 D is tâ nc ia Dendograma Figura 8: Dendrograma constrúıdo a partir da técnica de agrupamento hierárquica utili- zando a distância euclidiana entre as observações e o método de ligação média. Figura 9 mostra a comparação entre os dois métodos. O método não-hierárquico promove uma partição mais igualitária entre os grupos no quesito número de cidades em cada grupo. Figura 9: Mapa do Estado de São Paulo com os diferentes grupos encontrados através dos (a) método não-hierárquico e (b) método hierárquico. 4.5 Incidência de dengue nos diferentes grupos A Figura 10 apresenta a comparação entre a incidência de dengue acumulada no peŕıodo de 01 de janeiro de 2015 a 31 de dezembro de 2019 nos cinco grupos formados a partir do método não-hierárquico. Também traz os valores médios de algumas variáveis originais do estudo em cada grupo, são elas temperatura máxima, ı́ndice P mı́nimo, tem- peratura média, temperatura mı́nima, ı́ndice P máximo, umidade mı́nima, umidade média , pluviosidade média. Nota-se que o ı́ndice P e a temperatura têm comportamento seme- lhante ao observado nos dados de incidência de dengue, enquanto unidade e pluviosidade tem comportamento inverso. 0 10000 20000 30000 1 2 3 4 5 Grupos In ci dê nc ia A) 25.0 27.5 30.0 32.5 1 2 3 4 5 Grupos Te m p. m áx B) 0.0 0.1 0.2 0.3 0.4 1 2 3 4 5 Grupos Ín di ce P m in . C) 17.5 20.0 22.5 25.0 1 2 3 4 5 Grupos Te m p. m éd ia D) 4 6 8 10 12 1 2 3 4 5 Grupos Te m p. m ín E) 1 2 3 1 2 3 4 5 Grupos Ín di ce P m áx . F) 10 20 30 40 50 60 1 2 3 4 5 Grupos U m id .M in . G) 70 80 1 2 3 4 5 Grupos U m id .M éd ia H) 0.10 0.15 0.20 0.25 1 2 3 4 5 Grupos P lu v. M éd ia I) Figura 10: (A) Incidência de dengue acumulada por 100 mil habitantes, (B) Temperatura máxima, (C) Índice P mı́nimo, (D) Temperatura média, (E) Temperatura mı́nima, (F) Índice P máximo, (G) Umidade mı́nima, (H) Umidade média , (I) Pluviosidade média. Os dados são de cidades do Estado de São Paulo e compreendem o peŕıodo de 2015 a 2019. 5 Conclusão O estudo mostra que ı́ndice P, como mostrado pelos critérios que foram colocados, apresenta uma correlação moderada com a incidência acumulada de casos de dengue nas cidades do estado de São Paulo. As variáveis climáticas capturaram melhor o padrão de distribuição geográfica dos casos de dengue utilizadas nos agrupamentos ao contrário do que foi exibido para as sociodemográficas. Portanto, é posśıvel utilizar os métodos aqui apresentados para a identificação de cidades alvo para a implementação de poĺıticas públicas para o controle da dengue. Bibliografia 1 NUNES, Priscila Conrado Guerra et al. 30 years of fatal dengue cases in Brazil: a review. BMC public health, BioMed Central, v. 19, n. 1, p. 1–11, 2019. 2 MINISTÉRIO DA SAÚDE. São Paulo registrou 201 mil casos prováveis de dengue em 2023, entre janeiro e abril. [S.l.: s.n.], mai. 2023. https://www.gov.br/saude/pt-br/assuntos/noticias-para-os-estados/sao- paulo/2023/maio/sao-paulo-registrou-201-mil-casos-provaveis-de-dengue-em-2023-e. (Acessado em 27/05/2023). 3 SINGHI, Sunit; KISSOON, Niranjan; BANSAL, Arun. Dengue e dengue hemorrágico: aspectos do manejo na unidade de terapia intensiva. Jornal de Pediatria, Sociedade Brasileira de Pediatria, v. 83, n. 2, s22–s35, mai. 2007. DOI: 10.1590/S0021-75572007000300004. 4 BRITO, Anderson Fernandes et al. Lying in wait: the resurgence of dengue virus after the Zika epidemic in Brazil. Nature communications, Nature Publishing Group UK London, v. 12, n. 1, p. 2619, 2021. 5 OBOLSKI, Uri et al. MVSE: An R-package that estimates a climate-driven mosquito-borne viral suitability index. Methods in ecology and evolution, Wiley Online Library, v. 10, n. 8, p. 1357–1370, 2019. 6 KRAEMER, Moritz UG et al. Big city, small world: density, contact rates, and transmission of dengue across Pakistan. Journal of the Royal Society Interface, The Royal Society, v. 12, n. 111, p. 20150468, 2015. 7 FÁVERO, Luiz Paulo; BELFIORE, Patŕıcia. Manual de análise de dados: estat́ıstica e modelagem multivariada com Excel®, SPSS® e Stata®. [S.l.]: Elsevier Brasil, 2017. 8 ZAR, Jerrold H. Biostatistical analysis. [S.l.]: Pearson Education India, 1999. 9 QUINN, Gerald Peter; KEOUGH, Michael J. Experimental design and data analysis for biologists. [S.l.]: Cambridge university press, 2002. https://doi.org/10.1590/S0021-75572007000300004 10 HONGYU, Kuang; SANDANIELO, Vera Lúcia Martins; OLIVEIRA JUNIOR, Gilmar Jorge de. Análise de componentes principais: resumo teórico, aplicação e interpretação. E&S Engineering and science, v. 5, n. 1, p. 83–90, 2016. 11 LINDEN, Ricardo. Técnicas de agrupamento. Revista de Sistemas de Informação da FSMA, n, v. 4, n. 4, p. 18–36, 2009. 380b239c25f7be393d5a72f2f494101c96d5548fd776df775bdd5dc7f55cf16f.pdf 380b239c25f7be393d5a72f2f494101c96d5548fd776df775bdd5dc7f55cf16f.pdf 380b239c25f7be393d5a72f2f494101c96d5548fd776df775bdd5dc7f55cf16f.pdf Introdução Objetivo Metodologia Índice P Correlação linear Análise de Componentes Principais Análise de agrupamentos Agrupamentos hierárquicos e não-hierárquicos Descrição dos Dados Resultados e Discussão O índice P Correlação entre as variáveis Análise de componentes principais Análise de agrupamento Incidência de dengue nos diferentes grupos Conclusão Bibliografia