UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” FACULDADE DE ARQUITETURA, ARTES, COMUNICAÇÃO E DESIGN PROGRAMA DE PÓS-GRADUAÇÃO MESTRADO EM MÍDIA E TECNOLOGIA MARCELO JOSÉ DOS SANTOS DASHBOARD DE DADOS ABERTOS DE ÓBITOS POR COVID-19 NO BRASIL BAURU 2024 MARCELO JOSÉ DOS SANTOS DASHBOARD DE DADOS ABERTOS DE ÓBITOS POR COVID-19 NO BRASIL Relatório Técnico apresentado ao Programa de Pós-graduação em Mídia e Tecnologia (PPGMiT) – FAAC – UNESP – Bauru para obtenção do título de Mestre em Mídia e Tecnologia, sob a orientação do Prof. Associado João Pedro Albino. BAURU 2024 IMPACTO POTENCIAL DESTA PESQUISA O impacto potencial desta pesquisa vai além da disponibilização de dados. Ele se estende à transformação de dados brutos em informações relevantes, capacitando não apenas indivíduos e instituições, mas também a sociedade como um todo, a responder, entender e se adaptar de forma eficaz aos desafios impostos pela pandemia. Esta iniciativa demonstra a importância da análise de dados exploratória, aplicada por meio de técnicas computacionais, estatísticas e matemáticas, na compreensão das informações e no desenvolvimento de conhecimento a respeito do fenômeno da pandemia. Além disso, o Dashboard de Dados Abertos de Óbitos por COVID-19 no Brasil pode incentivar a utilização de dados abertos para a identificação de padrões e tendências, com o objetivo de embasar tomadas de decisões transparentes e assertivas. Essa abordagem não só permite uma compreensão mais profunda da propagação do vírus e seus impactos, mas também facilita o planejamento de estratégias eficazes de monitoramento e enfrentamento. Por fim, espera-se que esta pesquisa contribua significativamente para o conhecimento acadêmico em metodologias de Ciência de Dados, destacando a importância da utilização da linguagem de programação R como uma ferramenta poderosa para análise e visualização de dados. Ao promover o uso de práticas avançadas de análise de dados, esta iniciativa não apenas auxilia na compreensão da pandemia atual, mas também prepara o caminho para enfrentar desafios futuros com maior capacidade e eficiência. POTENTIAL IMPACT OF THIS RESEARCH The potential impact of this research goes beyond the provision of data. It extends to the transformation of raw data into relevant information, empowering not only individuals and institutions but also society as a whole to respond, understand, and adapt effectively to the challenges imposed by the pandemic. This initiative demonstrates the importance of exploratory data analysis, applied through computational, statistical, and mathematical techniques, in understanding information and in the development of knowledge regarding the phenomenon of the pandemic. Additionally, the Dashboard of Open Data on COVID-19 Deaths in Brazil may encourage the use of open data for identifying patterns and trends, with the aim of informing transparent and assertive decision-making. This approach not only allows for a deeper understanding of the virus's spread and its impacts but also facilitates the planning of effective monitoring and response strategies. Ultimately, it is hoped that this research will contribute significantly to academic knowledge in Data Science methodologies, highlighting the importance of using the R programming language as a powerful tool for data analysis and visualization. By promoting the use of advanced data analysis practices, this initiative not only aids in understanding the current pandemic but also paves the way for tackling future challenges with greater capacity and efficiency. MARCELO JOSÉ DOS SANTOS DASHBOARD DE DADOS ABERTOS DE ÓBITOS POR COVID-19 NO BRASIL Área de Concentração: Ambientes Midiáticos e Tecnológicos Linha de Pesquisa: Tecnologias Midiáticas Banca Examinadora: Presidente/Orientador: Prof Associado João Pedro Albino Instituição: Programa de Pós-graduação em Mídia e Tecnologia. Faculdade de Arquitetura,Artes, Comunicação e Design – FAAC/UNESP-Bauru Prof. 1: Prof. Dr. Marcos Américo Instituição: Programa de Pós-graduação em Mídia e Tecnologia. Faculdade de Arquitetura, Artes, Comunicação e Design – FAAC/UNESP-Bauru Prof. 2: Prof. Dr. Alan César Belo Angeluci Instituição: Universidade de São Paulo - USP/SP Resultado: Aprovado Bauru, 25 de Março de 2024. AGRADECIMENTOS À Deus, agradeço pelo dom da vida e por Sua constante presença, guiando- me em todas as etapas e ajudando-me a superar as dificuldades encontradas ao longo da realização deste trabalho. Deixo um agradecimento especial aos meus pais, Oswaldo (in memoriam) e Aparecida pelos ensinamentos, exemplos de vida e por não medirem esforços para me proporcionar uma educação de qualidade. À minha esposa e filhos, que são a base sólida na construção da minha vida e que são fundamentais ao longo da minha jornada. A razão dos meus objetivos são vocês! Agradeço imensamente ao meu orientador Professor Associado João Pedro Albino, que fez o papel de facilitador. Seu conhecimento, entusiasmo e direcionamento transformaram obstáculos em oportunidades de aprendizado. Aos colegas do grupo de pesquisa LInDa da Unesp de Bauru, expresso meus sinceros agradecimentos pelo companheirismo e cumplicidade demonstrados em nossas atividades. Ninguém constrói nada sozinho. À Casa da Fraternidade Santa Rita de Cássia de Bauru-SP, sou eternamente grato pela acolhida e pela oportunidade proporcionada como professor voluntário. Encontrei um ambiente de colaboração e incentivo à educação que contribuíram para minha formação. Ao Programa de Pós-Graduação em Mídia e Tecnologia da Faculdade de Arquitetura Artes, Comunicação e Design – FAAC Unesp Bauru-SP, principalmente ao seu corpo docente e direção que oportunizaram e contribuíram para esta etapa da minha formação acadêmica. Por fim, nada disso seria possível sem a intercessão de Nossa Senhora iluminando meus caminhos, e sem as bênçãos dos Santos aos quais sou devoto. “Amemos a DEUS, meus irmãos, amemos a DEUS, mas que isto seja a custa dos nossos braços, que isto seja com o suor dos nossos rostos” São Vicente de Paulo SANTOS, M. J. DASHBOARD DE DADOS ABERTOS DE ÓBITOS POR COVID-19 NO BRASIL, 2024, 93 f. Relatório Técnico-Científico (Mestrado em Mídia e Tecnologia) - FAAC - UNESP, sob a orientação do Professor Associado João Pedro Albino, Bauru, 2024. RESUMO O avanço tecnológico atual possibilita o processamento e transformação de grandes quantidades de dados em informações precisas e relevantes em todas as áreas do conhecimento. Durante a pandemia de COVID-19, essa proliferação de dados criou um ambiente propício para a realização de estudos e a aplicação de métodos científicos, como a análise exploratória de dados, para demonstrar e gerar resultados, fornecendo apoio essencial nas tomadas de decisões no combate a esse fenômeno sanitário global. A dúvida sobre a origem e a veracidade das informações apresentadas sobre a pandemia trouxeram desinformação, preocupação e insegurança para toda a sociedade. Diante desta problemática, este trabalho propõe o desenvolvimento de um painel de informações de acesso público, chamado dashboard, que apresenta dados abertos sobre os óbitos ocorridos durante a pandemia de COVID-19 no Brasil. Utilizou-se uma metodologia de Ciência de Dados e uma análise exploratória de um conjunto de dados abertos existente no repositório do Ministério da Saúde do Brasil. Este dashboard oferece uma exibição de dados abertos consolidados por meio de artefatos estatísticos e gráficos criados utilizando a linguagem de programação R. Concluiu-se que, utilizando-se da análise exploratória de dados e o dashboard por meio de técnicas estatísticas, computacionais e visuais, foram importantes para simplificar e apresentar, de forma efetiva, as informações compiladas, permitindo visualizar a identificação de evidências, padrões e oportunidades para embasar prováveis tomadas de decisões. Palavras-chave: dashboard; COVID-19; linguagem de programação R; análise de dados. SANTOS, M. J. DASHBOARD OF OPEN DATA ON DEATHS DUE TO COVID-19 IN BRAZIL, 2024, 93 f. Technical-Scientific Report (Master in Media and Technology) - FAAC - UNESP, under the guidance of Associate Professor João Pedro Albino, Bauru, 2024. ABSTRACT The current technological advancement enables the processing and transformation of large quantities of data into precise and relevant information across all areas of knowledge. During the COVID-19 pandemic, this proliferation of data created a conducive environment for conducting studies and applying scientific methods, such as exploratory data analysis, to demonstrate and generate results, providing essential support in decision-making in combating this global health phenomenon. Doubts about the origin and veracity of the information presented about the pandemic have brought misinformation, concern, and insecurity to society as a whole. Considering this problem, this work proposes the development of a publicly accessible information panel, called a dashboard, which presents open data on deaths that occurred during the COVID-19 pandemic in Brazil. A Data Science methodology and exploratory analysis of an existing open dataset in the repository of the Brazilian Ministry of Health were used. This dashboard offers a display of consolidated open data through statistical artifacts and graphics created using the R programming language. It was concluded that the use of exploratory data analysis and the dashboard, through statistical, computational, and visual techniques, were important for simplifying and effectively presenting the compiled information, allowing the visualization of the identification of evidence, patterns, and opportunities to support probable decision-making. Keywords: dashboard; COVID-19; R programming language; data analysis. LISTA DE FIGURAS Figura 1 – Objetivo de Desenvolvimento Sustentável 3 da ONU. Figura 2 – Monitoramento em tempo real dos casos e mortes pelo novo coronavírus. Figura 3 – RedMonk Top 20 Languages Over Time: January 2023. Figura 4 – Tela inicial do RStudio Desktop®. Figura 5 – Sobre a Linguagem R e RStudio Desktop®. Figura 6 – Metodologia de Ciência de Dados. Figura 7 – Conjunto de dados do openDataSUS. Figura 8 – Dados e Recursos do conjunto de dados SRAG 2021 a 2023. Figura 9 – Detalhes da pré-visualização do arquivo SRAG 2023 – 31/07.csv. Figura 10 – Informações Adicionais do conjunto de dados. Figura 11 – Os três arquivos texto do conjunto de dados. Figura 12 – Análise inicial do conjunto de dados SRAG 2021 a 2023. Figura 13 – Filtros, classificação, evolução do caso e data de óbito. Figura 14 – Ficha de Notificação – Sinais e sintomas. Figura 15 – Ficha de Notificação – Fatores de Risco/comorbidades. Figura 16 – Tela principal do dashboard. Figura 17 – Cabeçalho do dashboard. Figura 18 – Rodapé do dashboard. Figura 19 – Filtro do dashboard. Figura 20 – Informações de totais de notificações COVID-19 Figura 21 – Gráfico de Faixa Etária. Figura 22 – Gráfico de Gênero. Figura 23 – Gráfico de Etnia. Figura 24 – Gráfico de Escolaridade. Figura 25 – Gráfico de Sinais e Sintomas. Figura 26 – Gráfico de Fatores de Risco. Figura 27 – Ranking de Sinais e Sintomas e Fatores de Risco. Figura 28 – Informações gerais dos óbitos. LISTA DE ABREVIATURAS AED Análise Exploratória de Dados IBGE Instituto Brasileiro de Geografia e Estatística IEEE Instituto de Engenheiros Eletricistas e Eletrônicos LInDa Laboratório de Inteligência de Dados – Unesp Bauru-SP ODS Objetivos de Desenvolvimento Sustentável OMS Organização Mundial de Saúde ONU Organização das Nações Unidas OPAS Organização Pan-Americana da Saúde SRAG Síndrome Respiratória Aguda Grave SUS Sistema Único de Saúde UF Unidade federativa UTI Unidade de Terapia Intensiva SUMÁRIO 1 INTRODUÇÃO ...................................................................................................... 15 1.1 OBJETO .............................................................................................................. 18 1.2 PROBLEMA ........................................................................................................ 18 1.3 OBJETIVOS ........................................................................................................ 20 1.3.1 Objetivo Geral ................................................................................................... 20 1.3.2 Objetivos Específicos ........................................................................................ 20 1.4 JUSTIFICATIVA ................................................................................................ 21 2 REFERENCIAL TEÓRICO ................................................................................... 25 2.1 O fenômeno da COVID-19 no Brasil ................................................................... 25 2.2 A Ciência de Dados e a importância dos dados na tomada de decisão ............. 31 2.3 Dados Abertos no Brasil e o OpenDataSUS ....................................................... 33 2.4 A visualização de dados e os dashboards .......................................................... 35 2.5 A linguagem de programação R e o ambiente de desenvolvimento integrado RStudio® ................................................................................................................... 38 2.6 A plataforma GitHub e a reprodutibilidade do método científico ......................... 47 3 METODOLOGIA ................................................................................................... 49 4 DESENVOLVIMENTO .......................................................................................... 51 4.1 Identificar o problema e a abordagem para resolvê-lo ........................................ 51 4.2 Definir métodos de coleta e requisitos ................................................................ 52 4.3 Entender e preparar os dados ............................................................................ 56 4.4 Gerar os modelos ............................................................................................... 63 4.5 Implantar o modelo ............................................................................................. 63 5 RESULTADOS ALCANÇADOS ........................................................................... 65 6 CONSIDERAÇÕES FINAIS .................................................................................. 72 REFERÊNCIAS ......................................................................................................... 75 ANEXO A – Ficha de Registro Individual – Casos de SRAG-Hospitalizado ............. 80 ANEXO B – Dicionário de dados – Ficha de Registro Individual .............................. 82 15 1 INTRODUÇÃO A tecnologia da informação em constante evolução e desenvolvimento transforma a sociedade e impõe oportunidades e desafios no cotidiano das pessoas. A Internet como uma infraestrutura de conectividade global apresenta um ambiente interligado e colaborativo, resultando na geração de grandes quantidades de dados e informações. Segundo a Agência de Notícias do IBGE (2022), a Internet já era acessível em 90% dos domicílios do país em 2021 e teve um avanço considerável nos acessos tanto na zona rural quanto na zona urbana. Um cenário de descobertas e conhecimentos é gerado com este notável fluxo de informações. O fenômeno da pandemia COVID-19 impactou mundialmente não somente nas áreas biomédicas ou epidemiológicas, mas nas demais áreas como as sociais, econômicas, políticas, culturais etc. Consequentemente, durante este período, houve uma produção significativa de dados e informações de diferentes origens e formatos. No Brasil, a necessidade de políticas públicas, a definição de ações urgentes e os incentivos às pesquisas científicas tornaram-se essenciais para a investigação e definição das estratégias no enfrentamento à COVID-19 (FIOCRUZ, [s.d]). A geração e a análise dos dados relacionados à COVID-19 são processos desafiadores e fundamentais para o entendimento deste fenômeno. A Agência Senado (2020) citou a importância do levantamento e análise dos dados durante a pandemia: Quando a pandemia acabar, ou tiver arrefecido os órgãos sanitários, as universidades e os pesquisadores independentes terão ainda de fazer uma cuidadosa escavação para determinar de fato o quanto a pandemia afetou a população brasileira em seus mais variados contornos: desde a situação social até a aspectos como a cor, o gênero e as doenças pré-existentes. O que se têm como muito provável, até em razão do aumento incomum de casos de Síndrome Respiratória Aguda Grave (SRAG) é que há muita subnotificação. Neste sentido o fenômeno da pandemia COVID-19, demonstrou claramente que para o enfrentamento desta ameaça global, a sociedade e o poder público precisaram de mais Ciência. A extração, coleta e geração de informações com qualidade, transparência e são essenciais para que o poder público possa entender os fenômenos, monitorar e 16 priorizar a utilização de seus recursos escassos, decidir sobre as políticas públicas e para responder e explicar para a sociedade o que aconteceu neste período emergencial (Agência Senado, 2020). No entanto, segundo o Instituto Butantan (2022) com este ambiente colaborativo de dados, enfrentamos outra pandemia que é a grande quantidade e rápida disseminação das informações falsas. Essas informações são comparadas a um vírus ou mesmo a uma pandemia, afetando a sociedade como um todo e gerando confusão e transtornos. Nesta perspectiva, por meio de uma política de dados abertos no Brasil vários órgãos públicos já publicam seus dados na Internet demonstrando os resultados das ações do governo e gerando efeitos importantes nas políticas públicas como a transparência, a inclusão e a responsabilidade. O conceito de Governo Digital no Brasil foi instituído pelo Decreto nº 8.777, de 11 de maio de 2016 e a gestão desta política cabe à Controladoria-Geral da União, por meio da Infraestrutura Nacional de Dados Abertos – INDA (Decreto nº 9.903/2019) (Governo Digital – Dados Abertos, [s.d]). A utilização dos dados abertos na investigação de fenômenos e tomada de decisões públicas, se faz indispensável nos assuntos de extrema importância na sociedade. Além disso, é imprescindível uma maior atenção com uma política de dados que garanta não apenas quantidade, mas também qualidade visando à eficiência do Estado (Agência Senado, 2020). Em 2020, a pesquisadora da Universidade de São Paulo (USP) e Coordenadora da Rede de Pesquisa Solidária1 Lorena Barberia, citou a importância do poder público garantir dados abertos e detalhados para melhorar as medidas de combate a COVID-19 e salvar vidas. Os pesquisadores da Rede de Solidária já enfatizaram na época algumas lacunas como a demora na divulgação dos dados pelo poder público, a motivação política nas evidências deste fenômeno, a falta de padronização, qualidade e confiança nas informações coletadas e demais preocupações que resultaram em impactos severos na Ciência em relação ao entendimento deste fenômeno, na 1 A Rede de Pesquisa Solidária é uma iniciativa de pesquisadores pra calibrar o foco e aperfeiçoar a qualidade de políticas públicas dos governos, estaduais e municipais que procuram atua em meio à crise da COVID-19 para salvar vidas. Disponível em: . Acesso em: 24 jul. 2023. https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm https://jornal.usp.br/ciencias/rede-de-pesquisa-solidaria-acesse-as-ultimas-noticias/ https://jornal.usp.br/ciencias/rede-de-pesquisa-solidaria-acesse-as-ultimas-noticias/ 17 administração dos recursos do poder público, na definição de medidas adotadas em caráter de urgência pelo governo. Os pesquisadores concluíram que toda a sociedade precisa de mais Ciência e do estudo dos dados, sendo que as lições aprendidas nesta pandemia, devem se tornar respostas para a sociedade e auxiliar os gestores na definição de eficientes políticas públicas (Agência Senado, 2020). Visando atingir as características apontadas anteriormente de transparência, integridade e disponibilidade, o governo brasileiro oferece uma plataforma denominada openDataSUS2 que busca oferecer um repositório centralizado de dados abertos do Ministério da Saúde, com informações que podem subsidiar análises objetivas da situação sanitária, tomadas de decisão baseadas em evidências e elaboração de programas de ações de saúde. Nesta plataforma existem 30 conjuntos de dados disponíveis especificamente sobre a pandemia da COVID-19. Dessa forma, o principal objetivo deste estudo é desenvolver um painel visual, que forneça informações atualizadas e consolidadas sobre os óbitos relacionados à COVID-19 no Brasil, utilizando o conjunto de dados abertos disponibilizado e mantido pelo Ministério da Saúde. Esse painel visual, ou dashboard, oferece acesso público e gratuito às informações sobre os óbitos de COVID-19 compiladas, permitindo visualizar a identificação de evidências e padrões sobre a pandemia. Para viabilizar este estudo, será realizada uma Análise Exploratória de Dados (AED) com abordagem quantitativa e procedimentos estatísticos, seguindo a estrutura definida na Metodologia de Ciência de Dados apresentada em Siddiqi (2021). O dashboard será construído com métodos e procedimentos computacionais, estatísticos e gráficos existentes na linguagem de programação R3. Esta ferramenta visual conterá gráficos, tabelas, e informações claras e objetivas originadas de uma AED de um conjunto de dados abertos existente no repositório de dados abertos e licenciados do Ministério da Saúde do Brasil (“SRAG 2 https://opendatasus.saude.gov.br/. Acesso em: 27 jul. 2023. 3 É uma linguagem de programação e um ambiente para desenvolvimento de ferramentas computacionais que envolvem conceitos de estatísticas e apresentação de resultados em forma gráfica. (Silva; Peres; Boscarioli, 2021). https://opendatasus.saude.gov.br/ 18 2021 a 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19 - OPENDATASUS”, [s.d.]). Tratando-se do período pandêmico e da constante e rápida evolução da tecnologia da informação, este estudo contribuirá na meta do Objetivo 3 da Organização Mundial de Saúde (ONU). Este objetivo trata da Saúde e Bem-Estar e busca assegurar uma vida saudável e promover o bem-estar para todas as pessoas, em todas as idades. 1.1 OBJETO Um painel visual e dinâmico de acesso público e gratuito, composto de dados abertos4 consolidados. 1.2 PROBLEMA Ao longo do tempo, a Internet e a constante evolução de tecnologias de comunicação propiciaram um ambiente colaborativo e favorável à disseminação rápida de informações. Neste contexto desafiador, o mundo foi impactado pela pandemia COVID-19. A Organização Mundial de Saúde (OMS) declarou este fenômeno como uma emergência de saúde pública de importância internacional em 30 de janeiro de 2020, o mais alto nível desta organização (OPAS, [s.d.]). A COVID-19 afetou o mundo inteiro de forma sem precedentes, trazendo impactos significativos na economia, na saúde pública, na sociedade em geral e no bem-estar das pessoas. Trouxe um cenário de difícil controle para todas as esferas da sociedade e principalmente para os sistemas nacionais de saúde pública (FIOCRUZ, [s.d.]). O Ministério da Saúde do Brasil ([s.d]) define: A COVID-19 é uma infecção respiratória aguda causada pelo coronavírus SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de distribuição global. O SARS-CoV-2 é um betacoronavírus descoberto em amostras de lavado broncoalveolar obtidas de pacientes com pneumonia de causa desconhecida na cidade de Wuhan, província de Hubei, China, em dezembro de 2019. Pertence ao subgênero Sarbecovírus da família 4 Metodologia para a publicação de dados do governo em formatos reutilizáveis e sob uma licença aberta. (Governo Digital – Dados Abertos, [s.d.]). 19 Coronaviridae e é o sétimo coronavírus conhecido a infectar seres humanos. Uma das principais medidas para conter o contágio da COVID-19, foi o distanciamento social que trouxe uma desordem significativa na saúde mental das pessoas. Este impacto foi mitigado pela utilização da Internet e de softwares de comunicação que permitiram o contato das pessoas com seus amigos e família, além de possibilitarem o desenvolvimento do trabalho remoto e propiciarem reais transformações na sociedade (World Health Organization, 2022). Durante o período da pandemia, devido às restrições sanitárias, em diferentes partes do planeta tivemos muitos dispositivos conectados, gerando uma grande quantidade de dados. Com um ambiente propício para compartilhamentos, tais dados desempenharam um papel essencial na geração de informações e evidências importantes para monitoramento da propagação do vírus, além da identificação de grupos de risco, avaliação de intervenções direcionadas e pesquisas científicas. As informações assim compartilhadas serviram principalmente para apoiar as estratégias e tomada de decisões das autoridades de saúde pública e governos referentes à priorização e gerenciamento dos recursos de saúde pública em face da demanda urgente gerada pela pandemia (Agência Senado, 2020). As informações falsas ou desinformações já existem há muito tempo, porém, durante a pandemia foram tão ou mais destrutivas quanto o próprio vírus da COVID- 19. O excesso de informação dificultando a identificação das fontes, a agilidade das redes sociais, a resistência das plataformas digitais em combater as notícias falsas e as campanhas públicas de comunicação sobre a COVID-19 que caminharam a passos lentos, colaboraram para a disseminação de desinformação sobre a pandemia (Agência Senado, 2021). As informações falsas causaram pânico e confusão em toda a sociedade. Espalharam-se informações falsas sobre a origem da pandemia, os tratamentos e curas, os métodos de prevenção, as vacinas, os contágios e muitos outros aspectos (Instituto Butantan, 2022). No entanto, a relutância de alguns governos em divulgar dados precisos e oportunos destaca os desafios em alcançar práticas de dados verdadeiramente abertas e transparentes, especialmente durante momentos de crise. 20 Em resposta a esses desafios, organizações da sociedade civil, pesquisadores e ativistas de dados desempenharam um papel crucial na defesa dos princípios de dados abertos e na responsabilização dos governos por suas práticas de dados. Seus esforços destacaram a importância dos dados abertos não apenas no combate à pandemia da COVID-19, mas também na promoção de uma maior confiança, transparência e responsabilidade nas ações governamentais e nos processos de tomada de decisão. Em resposta a esses desafios, organizações da sociedade civil, pesquisadores e ativistas de dados desempenharam um papel crucial na defesa dos princípios de dados abertos e na responsabilização dos governos por suas práticas de dados. Seus esforços destacaram a importância dos dados abertos não apenas no combate à pandemia da COVID-19, mas também na promoção de uma maior confiança, transparência e responsabilidade nas ações governamentais e nos processos de tomada de decisão. Diante dessa problemática, esse trabalho propõe o desenvolvimento de uma ferramenta e/ou painel visual, de acesso público e gratuito, que conterá informações consolidadas e sistematizadas, originárias de dados abertos e licenciados, sobre óbitos no contexto da COVID-19 no Brasil, no período de 2021 a 2023, utilizando a Ciência de Dados e métodos científicos de Análise Exploratória de Dados. 1.3 OBJETIVOS 1.3.1 Objetivo Geral Desenvolver uma ferramenta sistematizada e visual de acesso público e gratuito, denominado dashboard, que disponibilizará informações consolidadas de um conjunto de dados abertos do Ministério da Saúde sobre os óbitos durante a COVID-19 no Brasil. 1.3.2 Objetivos Específicos 21  Desenvolver/sistematizar uma Análise Exploratória de Dados e uma metodologia de Ciência de Dados5 utilizando um conjunto de dados abertos sobre a COVID-19 disponível no repositório de dados abertos do Ministério da Saúde;  Estudar a linguagem de programação R e sua aplicação na Análise Exploratória de Dados e no desenvolvimento de dashboards;  Desenvolver um dashboard, composto de filtros, gráficos e tabelas, para visualização de informações originadas da Análise Exploratória de Dados;  Disponibilizar a documentação desse estudo e o código-fonte da linguagem de programação R, em um repositório online e público denominado GitHub6, para atender a reprodutibilidade da pesquisa;  Disponibilizar o dashboard na Internet para acesso público e gratuito. 1.4 JUSTIFICATIVA Os dados constituem a matéria-prima deste estudo. Segundo Amaral (2016), é fundamental compreender os conceitos de dados, informações e o conhecimento. Os dados representam fatos ou valores coletados e normalmente armazenados. As informações, por sua vez, são os dados que foram analisados, consolidados e adquiriram algum significado. Já o conhecimento é a informação entendida por meio de algum raciocínio e aplicada para alguma finalidade. Nos dias atuais, a tecnologia da informação está transformando nossa sociedade de forma rápida e abrangente, gerando dados em grande volume e por meio de uma variedade de dispositivos existentes. Para aproveitar os benefícios desta matéria-prima bruta, os dados devem ser coletados, analisados, preparados e visualizados de maneira a resultar em informações claras, objetivas e precisas para uma compreensão certeira dos fatos e para embasar tomadas de decisões eficazes (Favero et al, 2009). 5 Trata-se de uma Ciência para obter informação e conhecimento de forma sistemática, bem como normalizar e organizar este conhecimento. Estuda o dado em todo o seu ciclo de vida (AMARAL, 2021). 6 É uma plataforma mundial de hospedagem de código-fonte e arquivos com controle de versão Git. Permite que qualquer usuário cadastrado contribua em projetos privados. Utilizada para divulgação de trabalhos ou para prover um ambiente colaborativo para projetos. Disponível em (GITHUB, 2022). https://pt.wikipedia.org/wiki/Sistema_de_controle_de_vers%C3%B5es https://github.com/ 22 Neste contexto, a pandemia da COVID-19 evidenciou a necessidade de uma abordagem baseada na Ciência para enfrentar essa ameaça global. A geração de informações com qualidade, transparência e com rapidez torna-se fundamental para que o poder público compreenda este fenômeno, monitore e priorize a utilização de recursos escassos, decida sobre políticas públicas e possa responder adequadamente e explicar à sociedade o que ocorreu neste fenômeno emergencial (Agência Senado, 2020). Já uma grande oportunidade deste trabalho reside na utilização do repositório de dados do Ministério da Saúde do Brasil, para enfatizar a importância da utilização de dados abertos, certificados e públicos mantidos pelo governo e sob sua guarda. Este enfoque visa promover a transparência e a divulgação das informações, contribuindo para o combate à desinformação. Como observado pelo Instituto Butantan (2022), a rápida disseminação das informações falsas é compatível com um vírus ou até mesmo com uma pandemia. Esta pesquisa contribui para os Objetivos de Desenvolvimento Sustentável (ODS) da Organização das Nações Unidas (ONU). Alinha-se com o Objetivo Número 3 - Saúde e Bem-Estar da ONU, que visa garantir o acesso à saúde de qualidade e promover o bem-estar para todos, em todas as idades. No item 3.d deste objetivo, consta: “3.d Reforçar a capacidade de todos os países, particularmente os países em desenvolvimento, para o alerta precoce, redução de riscos e gerenciamento de riscos nacionais e globais de saúde” (ONU, [s.d.]). Ao utilizar dados abertos e públicos do Ministério da Saúde do Brasil para analisar e visualizar informações sobre a mortalidade relacionada à COVID-19, esta pesquisa contribui diretamente para fortalecer a capacidade de alerta precoce e gerenciamento de riscos de saúde em níveis nacionais e globais. Para avançar nesse objetivo, a pesquisa desenvolverá uma ferramenta visual de acesso público, transparente e objetiva. Esta ferramenta divulgará informações geradas por meio de uma metodologia de Ciência de Dados utilizando dados abertos e consistentes para a descoberta de padrões e tendências. Ao disponibilizar estas informações, este estudo visa apoiar prováveis tomadas de decisões e a formulação de políticas públicas urgentemente necessárias para a redução de riscos nacionais e globais de saúde. 23 Com o intuito de atrair atenção e garantir a qualidade da análise, a pesquisa será composta de uma Análise Exploratória de Dados, realizada utilizando a linguagem de programação R. De acordo com a Sage Campus (2019), essa linguagem é amplamente empregada nas universidades e oferece recursos computacionais avançados de visualização de dados, habilidades em Ciência de Dados e supercompatibilidade com outras tecnologias. Um dos pontos-chave que torna a linguagem de programação R tão valiosa é a possibilidade de garantir a reprodutibilidade dos resultados, um dos princípios fundamentais da pesquisa científica. Utilizando dados da Prefeitura de Bauru, cidade do interior do estado de São Paulo, no início de 2021, o Portal G1 (2021) divulgou que 47 pessoas haviam morrido na fila de espera por um leito de UTI ou enfermaria. Posto isso, também se faz necessário elencar que esta pesquisa comporta também uma motivação pessoal, pois, neste período citado da pandemia de COVID-19, um amigo perdeu a vida devido à falta de leitos no Sistema Único de Saúde no município. Este pesquisador mantinha próxima convivência semanal com este amigo, pois participamos de uma equipe esportiva amadora do Sport Club Corinthians Paulista, e frequentemente viajávamos para as competições. Esta perda pessoal, juntamente com outras vidas perdidas, destaca a urgência e a importância de compreender os desafios enfrentados pelo sistema de saúde durante a pandemia. Motivou o empenho em contribuir com soluções para enfrentar esses desafios. Deve-se ressaltar também que a pesquisa compõe um projeto maior chamado Impactos da COVID-19 no Ensino Superior do Brasil existente no Grupo de Pesquisa LInDa7. Ao fazer parte deste projeto, a presente pesquisa se beneficia do ambiente colaborativo e dos recursos disponíveis no grupo de pesquisa e no Programa de Pós-graduação em Mídia e Tecnologia da FAAC-UNESP/Bauru. Portanto, essas razões serão os principais pilares que guiaram este trabalho. Ao integrar a necessidade de compreender os desafios enfrentados durante a pandemia, bem como a motivação pessoal oriunda de uma experiência impactante, 7 O Laboratório de Inteligência de Dados – LinDa da Unesp de Bauru-SP, tem como objetivo realizar pesquisas relacionadas à Ciência de Dados, e em particular, estudar estruturas de dados onde seja possível extrair "inteligência". Disponível em < http://dgp.cnpq.br/dgp/espelhogrupo/379670>. Acesso em: 17 jul. 2023. http://dgp.cnpq.br/dgp/espelhogrupo/379670 24 a pesquisa busca contribuir significativamente para o conhecimento sobre a importância dos dados abertos na geração das informações para ações destinadas a enfrentar os desafios de saúde pública e de toda a sociedade. 25 2 REFERENCIAL TEÓRICO 2.1 O fenômeno da COVID-19 no Brasil No final de 2019, a OMS recebeu um alerta de vários casos de pneumonia na cidade de Wuhan, na República Popular da China. Uma semana após o alerta, os chineses identificaram esse novo tipo de coronavírus. Os coronavírus são a principal causa do resfriado comum e raramente causam doenças graves nos seres humanos. No entanto, esses casos foram atribuídos a um novo tipo de coronavírus, posteriormente chamado de SARS-Cov2, responsável pela COVID-19 (OPAS, [s.d.]). Em janeiro de 2020, a OMS declarou que o surto do novo coronavírus constituía uma emergência de saúde pública de importância internacional, o mais alto nível de alerta desta organização. No mês de março de 2020, a COVID-19 foi caracterizada como uma pandemia, este termo se refere à distribuição geográfica de uma doença e não a sua gravidade. Esta denominação refletiu na necessidade de ações coordenadas em nível internacional para enfrentar esta crise de saúde pública (OPAS, [s.d.]). Sobre o coronavírus e a COVID-19, o Ministério da Saúde do Brasil ([s.d.]) comentou: Os coronavírus são uma grande família de vírus comuns em muitas espécies diferentes de animais, incluindo o homem, camelos, gado, gatos e morcegos. Raramente os coronavírus de animais podem infectar pessoas e depois se espalhar entre seres humanos como já ocorreu com o MERS-CoV e o SARS-CoV-2. Até o momento, não foi definido o reservatório silvestre do SARS-CoV-2. A Covid-19 é uma infecção respiratória aguda causada pelo coronavírus SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de distribuição global. O SARS-CoV-2 é um betacoronavírus descoberto em amostras de lavado broncoalveolar obtidas de pacientes com pneumonia de causa desconhecida na cidade de Wuhan, província de Hubei, China, em dezembro de 2019. Pertence ao subgênero Sarbecovírus da família Coronaviridae e é o sétimo coronavírus conhecido a infectar seres humanos. No Brasil o fenômeno da pandemia de COVID-19 teve início em 26 de janeiro de 2020 com a confirmação do primeiro caso no Estado de São Paulo (“Pandemia de COVID-19 no Brasil”, 2022). Assim, na primeira semana de março de 2020 os casos de infecção foram confirmados em São Paulo, Bahia, Rio de Janeiro, Distrito Federal e Espírito Santo. 26 Quando da decretação oficial da pandemia pela Organização Mundial de Saúde, o Brasil já registrava mais de cem casos e em poucos dias o Ministério da Saúde do Brasil anunciou a transmissão comunitária em todo o território. A pandemia evoluiu em ondas ou fases, com o surgimento de novas variantes do vírus infeccioso que causaram uma aumento nos casos. O pico da primeira onda aconteceu em meados de 2020, enquanto uma nova onda, mais grave, atingiu o Brasil em março de 2021. Mesmo com o início das vacinações, ocorreu uma terceira escalada no início de 2022, devido a uma nova variante difundida no exterior. Após um período de diminuição da terceira onda, houve um aumento de casos e hospitalizações em outubro de 2022, relacionado a uma sub variante do vírus (“Pandemia de COVID-19 no Brasil”, 2022). Neste período desafiador, o sistema de saúde do Brasil em 2021 passou por uma séria crise sanitária devido a mortes em filas de espera por leitos, desabastecimentos de produtos de oxigênio e equipamentos para intubação. Durante esse período a FIOCRUZ ([s.d]) comentou: A estimativa de infectados e mortos concorre diretamente com o impacto sobre os sistemas de saúde, com a exposição de populações e grupos vulneráveis, a sustentação econômica do sistema financeiro e da população, a saúde mental das pessoas em tempos de confinamento e temor pelo risco de adoecimento e morte, acesso a bens essenciais como alimentação, medicamentos, transporte, entre outros. No âmbito da Saúde, neste período pandêmico afetou principalmente os profissionais, auxiliares ou técnicos de enfermagem, pois estavam na linha de frente do enfrentamento com carga de trabalho intensificada, problemas de saúde mental e exposição ao vírus (“Pandemia de COVID-19 no Brasil”, 2022). A falta de suprimentos, profissionais, leitos e equipamentos no contexto operacional gerou um caos hospitalar nacional e até mesmo impactou nos serviços funerários. Na primeira quinzena de março de 2021, 24 estados apresentaram taxas de ocupação de leitos de UTI superiores a 80% (“Pandemia de COVID-19 no Brasil”, 2022). Todo este fenômeno atingiu também a rotina diária da área da Saúde, atrasando e cancelando atendimentos, diagnósticos, calendário de vacinas e os 27 tratamentos das demais doenças, além de agravar seriamente a saúde mental de todas as pessoas. Na economia a pandemia impactou diretamente o emprego e a renda da população. As ações de combate à pandemia principalmente o distanciamento social resultaram em demissões nas empresas e reações em todo o mercado de trabalho (“Pandemia de COVID-19 no Brasil”, 2022). O Congresso Nacional do Brasil aprovou um programa emergencial de manutenção de empregos possibilitando: a suspensão do contrato de trabalho, a redução da jornada e dos salários (“Pandemia de COVID-19 no Brasil”, 2022). Também aprovou o auxílio emergencial, um programa de transferência de renda mínima aos mais vulneráveis, para aliviar os impactos do mercado de trabalho, das medidas sanitárias, da pressão inflacionária dos alimentos e o comprometimento do orçamento das famílias menos favorecidas. Tratando-se do governo, todas estas ações emergenciais executadas trouxeram despesas que resultaram em um aumento da dívida pública (“Pandemia de COVID-19 no Brasil”, 2022). A pandemia também alterou a rotina dos estudantes no Brasil, afetando o sistema educacional nos mais diversos níveis de aprendizado com a paralisação das aulas em todo o território nacional. O Brasil foi o país que manteve escolas por mais tempo fechadas em 2020 (“Pandemia de COVID-19 no Brasil”, 2022). Nas universidades públicas os calendários foram alterados e em muitas instituições privadas as férias foram antecipadas, porém com a impossibilidade de aulas presenciais as instituições educacionais adotaram a educação à distância. Esta modalidade de ensino resultou em uma continuidade da educação, porem evidenciou mais ainda a desigualdade social no Brasil. Os alunos mais prejudicados com a pandemia foram os alunos em fase de alfabetização (“Pandemia de COVID- 19 no Brasil”, 2022). Como os demais setores, a cultura e o turismo tiveram atividades paralisadas. Na cultura, o cancelamento de shows, estabelecimentos fechados e o distanciamento social resultaram em demissões, encerramento de empresas especializadas, queda de faturamento e principalmente o aumento da desigualdade social da sociedade brasileira (“Pandemia de COVID-19 no Brasil”, 2022). Quanto ao turismo, a pandemia diminuiu o número de turistas internacionais e resultou em certo aumento no turismo interno no decorrer deste período pandêmico. 28 Vale citar que o setor aéreo sofreu por ter a frota parada devido ao fechamento das fronteiras (“Pandemia de COVID-19 no Brasil”, 2022). Todos estes efeitos abalaram o setor do turismo e cultura, e principalmente repercutiram no capital humano envolvido nessas atividades (“Pandemia de COVID- 19 no Brasil”, 2022). A taxa de mortalidade ou coeficiente de mortalidade é um índice demográfico que indica o número de mortes registradas. Torna-se um indicador social importante, pois quanto piores as condições de vida, maior a taxa de mortalidade e consequentemente menor a esperança de vida das pessoas. Esta taxa é aplicada em conjunto com as causas de óbitos e o tamanho da população afetada por esta causa (Taxa de Mortalidade, 2023). A gravidade de uma doença pode ser descrita pela Taxa de Mortalidade por Infecção, que é um percentual calculado: dividir o número de mortes pela doença dividido pelo número de indivíduos infectados, esse resultado deve ser multiplicado por cem. O monitoramento em tempo real desta tendência de gravidade precisa ser realizado com os dados disponíveis e de forma prioritária (OPAS, 2020). Referente à COVID-19 e o excesso de mortalidade, a OPAS (2022) comenta: O excesso de mortalidade inclui mortes associadas diretamente à COVID- 19 (devido à doença) ou indiretamente (devido ao impacto da pandemia nos sistemas de saúde e na sociedade). As mortes ligadas indiretamente à doença são atribuíveis a outras condições de saúde para as quais as pessoas não tiveram acesso à prevenção e tratamento porque os sistemas de saúde foram sobrecarregados pela pandemia. O número estimado de mortes em excesso pode ser influenciado também pelas mortes evitadas durante a pandemia devido aos menores riscos de determinados eventos, como acidentes no trânsito ou acidentes de trabalho. O atendimento adequado para os casos confirmados ou suspeitos da COVID dependem do reconhecimento precoce das condições, fatores de risco e comorbidades. Estes aspectos foram constantemente mudando o cenário epidemiológico da COVID-19. O Ministério da Saúde (2021) citou: Em decorrência da pandemia da covid-19 e consequente aumento da demanda assistencial sobre o Sistema Único de Saúde (SUS), o MS reforça que a organização da rede de atenção e dos fluxos deve estar bem estabelecida tanto para pessoas com síndrome gripal (SG), causada ou não pela covid-19, quanto para as que necessitem de acompanhamento por outras condições e agravos de saúde, como outras doenças transmissíveis, doenças crônicas e situações de vulnerabilidade e sofrimento psíquico, garantindo a continuidade do cuidado pelos serviços de saúde. https://www.who.int/publications/i/item/WHO-2019-nCoV-EHS_continuity-survey-2022.1 https://www.who.int/publications/i/item/WHO-2019-nCoV-EHS_continuity-survey-2022.1 29 O tema “Saúde e Bem-Estar” citado no Objetivo Sustentável número 3 dos Objetivos de Desenvolvimento Sustentável (ODS) da Organização Mundial da Saúde foi evidentemente o mais impactado (Observatório do Futuro, 2021). Segundo o Observatório do Futuro (2021) essa crise sanitária que causou interrupções e lentidão nos serviços de saúde pode reverter décadas de avanços na qualidade de saúde da população mundial. Existe um consenso de que o Sistema Único de Saúde (SUS) atuou com maestria para o enfrentamento da trajetória desta pandemia. As consequências para este sistema demonstraram que investimentos em infraestrutura e capacitação devem ser repensados urgentemente, pois o acesso à saúde deve estar disponível para todos independente da doença e de eventuais fenômenos de emergência. O Objetivo Desenvolvimento Sustentável número 38 da ONU tem como objetivo principal: garantir o acesso à saúde de qualidade e promover o bem-estar para todos, em todas as idades e contém os seguintes itens: a) 3.1 Até 2030, reduzir a taxa de mortalidade materna global para menos de 70 mortes por 100.000 nascidos vivos; b) 3.2 Até 2030, acabar com as mortes evitáveis de recém-nascidos e crianças menores de 5 anos, com todos os países objetivando reduzir a mortalidade neonatal para pelo menos 12 por 1.000 nascidos vivos e a mortalidade de crianças menores de 5 anos para pelo menos 25 por 1.000 nascidos vivos; c) 3.3 Até 2030, acabar com as epidemias de AIDS, tuberculose, malária e doenças tropicais negligenciadas, e combater a hepatite, doenças transmitidas pela água, e outras doenças transmissíveis; d) 3.4 Até 2030, reduzir em um terço a mortalidade prematura por doenças não transmissíveis via prevenção e tratamento, e promover a saúde mental e o bem-estar; e) 3.5 Reforçar a prevenção e o tratamento do abuso de substâncias, incluindo o abuso de drogas entorpecentes e uso nocivo do álcool; f) 3.6 Até 2020, reduzir pela metade as mortes e os ferimentos globais por acidentes em estradas; 8 Disponível em: . Acesso em: 27 jul. 2023. https://brasil.un.org/pt-br/sdgs/3 30 g) 3.7 Até 2030, assegurar o acesso universal aos serviços de saúde sexual e reprodutiva, incluindo o planejamento familiar, informação e educação, bem como a integração da saúde reprodutiva em estratégias e programas nacionais; h) 3.8 Atingir a cobertura universal de saúde, incluindo a proteção do risco financeiro, o acesso a serviços de saúde essenciais de qualidade e o acesso a medicamentos e vacinas essenciais seguros, eficazes, de qualidade e a preços acessíveis para todos; i) 3.9 Até 2030, reduzir substancialmente o número de mortes e doenças por produtos químicos perigosos, contaminação e poluição do ar e água do solo j) 3.a Fortalecer a implementação da Convenção-Quadro para o Controle do Tabaco em todos os países, conforme apropriado; k) 3.b Apoiar a pesquisa e o desenvolvimento de vacinas e medicamentos para as doenças transmissíveis e não transmissíveis, que afetam principalmente os países em desenvolvimento, proporcionar o acesso a medicamentos e vacinas essenciais a preços acessíveis, de acordo com a Declaração de Doha, que afirma o direito dos países em desenvolvimento de utilizarem plenamente as disposições do acordo TRIPS sobre flexibilidades para proteger a saúde pública e, em particular, proporcionar o acesso a medicamentos para todos; l) 3.c Aumentar substancialmente o financiamento da saúde e o recrutamento, desenvolvimento e formação, e retenção do pessoal de saúde nos países em desenvolvimento, especialmente nos países menos desenvolvidos e nos pequenos Estados insulares em desenvolvimento; m) 3.d Reforçar a capacidade de todos os países, particularmente os países em desenvolvimento, para o alerta precoce, redução de riscos e gerenciamento de riscos nacionais e globais de saúde. 31 Figura 1: Objetivo de Desenvolvimento Sustentável número 3 da ONU. Fonte: Adaptação de ONU ([s.d.]). 2.2 A Ciência de Dados e a importância dos dados na tomada de decisão Os conceitos de dados, informação e conhecimento são confundidos como sinônimos, mas no contexto de Ciência de Dados, eles têm significados distintos. De acordo com Silva, Peres e Boscarioli (2021), os dados são fatos, valores ou resultados de uma medição. Quando estes dados são interpretados e um significado é atribuído a eles, gera-se a informação. Já o conhecimento é a informação interpretada e aplicada para um determinado fim. Esses conceitos formam as matérias-primas para a Ciência de Dados. Conforme observado por Gil (2008), os dados são de extrema importância em todas as etapas de um processo de investigação. Eles fornecem a base para a fundamentação teórica, a análise e interpretação dos resultados, a possibilidade para fazer inferências e identificar padrões.Os dados representam uma fonte relevante para tomada de decisões e, principalmente atuam como fonte de conhecimento, ao possibilitar correlações, evidências, teorias, hipóteses e direções de uma pesquisa. A Ciência de Dados é uma Ciência ou disciplina interdisciplinar, que estuda os dados em todo o seu ciclo de vida, desde a produção até o descarte. Este ciclo de vida do dado compreende as etapas de: produção, armazenamento, transformação, análise e descarte dos dados. A Ciência de Dados busca extrair informação e conhecimento por meio de processos, modelos e tecnologias, além de organizar este conhecimento (Amaral, 2016). Escovedo e Koshiyama (2020) comentaram: 32 O conceito de Data Science (ou Ciência de Dados), por sua vez, é mais amplo: refere-se à coleta de dados de várias fontes para fins de análise, com o objetivo de apoiar a tomada de decisões, utilizando geralmente grandes quantidades de dados, de forma sistematizada. Quase sempre, além de olhar para os dados passados para entender o comportamento dos mesmos (atividade conhecida como Business Intelligence - BI), deseja-se também realizar análises de forma preditiva, por exemplo, utilizando técnicas de Data Mining e/ou Machine Learning. Já a Análise Exploratória de Dados (AED) tem como principal objetivo gerar hipóteses, aplicar métodos estatísticos e descobrir padrões, correlações e tendências preliminares nos dados (Favero et al, 2009). Segundo IBM ([s.d.]), a AED possibilita um melhor entendimento dos dados, colaborando para a identificação de padrões, eventos anômalos e relações. Além disso, a AED pode garantir que os resultados produzidos sejam válidos e aplicáveis. Na AED, várias técnicas estatísticas podem ser usadas, incluindo agrupamentos, filtros, seleção, medidas estatísticas descritivas, correlação entre variáveis, regressão linear, modelos preditivos, entre outras. De acordo com IBM ([s.d.]) existem quatro tipos de análise exploratória de dados: a) Não gráfico univariado. É a forma mais simples, consiste em apenas uma variável e sem imagens; b) Gráfico univariado. Fornece imagens dos dados, com gráficos univariados como histograma, gráficos de caixa que representam mínimo, primeiro quartil, mediana, terceiro quartil e máximo; c) Não Gráfico multivariado. Utiliza mais de uma variável por meio de tabulação cruzada e estatística, não possui imagem; d) Gráfico Multivariado. Correlaciona dados de um ou mais conjunto de dados, utilizando gráficos de barras agrupadas ou nivelados por variáveis. Também pode conter gráficos de dispersão, gráfico de bolhas ou mapa de calor. Segundo o Blog Sirius Educação (2022), o processo de tomada de decisão envolve a definição de um plano para resolver um problema específico. Os responsáveis por essa definição precisam ter um amplo conhecimento para elaborar 33 planos mais assertivos e funcionais. Essa definição é dinâmica e requer a interpretação e a junção de muitas informações. A precipitação em um processo de tomada de decisões pode resultar em retrabalho, interrupção de projetos, prejuízo, desperdício de recursos e até mesmo afetar a motivação e a orientação das pessoas envolvidas no processo. Este processo possui cinco fases: identificação do problema; coleta de dados; análise de estratégias; definição de melhor alternativa; e a execução. A coleta, análise e visualização dos dados são essenciais neste processo, fornecendo informações concretas e certeiras que possibilitam a obtenção de conhecimentos, monitoramento, previsões e, principalmente, a identificação de oportunidades ou desafios. A Ciência de Dados desempenha um papel fundamental neste processo, ajudando na definição do plano a ser seguido. 2.3 Dados Abertos no Brasil e o OpenDataSUS Dados abertos é uma metodologia ou procedimento para divulgação de dados do governo em formatos digitais, permitindo que qualquer pessoa os utilize, reutilize e distribua sem a necessidade de restrições técnicas, legais ou sociais (Open Knowledge Foundation, [s.d]). A Open Knowledge Foundation ([s.d]) comenta que os dados podem ser considerados abertos quando: Qualquer pessoa pode acessar, usar, modificar e compartilhar livremente para qualquer finalidade (sujeito a, no máximo, a requisitos que preservem a proveniência e a sua abertura). Isso geralmente é satisfeito pela publicação dos dados em formato aberto e sob uma licença aberta. A OpenKnowledge Foundation9 é uma organização sem fins lucrativos fundada em 2004, que trabalha na intersecção de ferramentas digitais e uma rede distribuída de comunidades e movimentos para promover o conhecimento aberto. Sua missão é criar um futuro, justo, sustentável e aberto, promovendo o conhecimento aberto e desenvolvendo modelos, padrões e políticas de forma ética e ágil. Assim, acredita que o conhecimento aberto deve ser adotado por todos os governos, instituições e movimentos. Essa adoção garantirá o acesso às 9 https://okfn.org/. Acesso em: 27 jul. 2023. http://opendefinition.org/licenses/ https://okfn.org/ 34 informações para capacitar os seres humanos a resolver problemas urgentes no futuro (Open Knowledge Foundation, [s.d]). No Brasil o Poder Executivo definiu a política de Dados Abertos pelo Decreto nº 8.777, de 11 de maio de 201610. O gestor desta política federal a Controladoria- Geral da União por meio da Infraestrutura de Dados Abertos – INDA (Decreto nº 9.903/201911). Diversos órgãos da administração pública já adotam a metodologia de dados abertos para publicar suas informações na Internet (Governo Digital – Dados Abertos, [s.d.]). Alguns efeitos dos dados abertos governamentais nas políticas públicas são: a) Inclusão. Os dados disponibilizados em formatos padronizados permitem que qualquer pessoa utilize softwares para análises e demais necessidades; b) Transparência. As informações das políticas públicas abertas e acessíveis contribuem para a transparência e no uso adequado das informações; c) Responsabilidade: Os conjuntos de dados abertos, comunicam informações e opiniões sobre o cumprimento das políticas públicas e suas metas. De acordo com o Portal de Dados Abertos – Ministério da Saúde ([s.d]) no âmbito do Poder Executivo Federal, o órgão responsável pela organização e elaboração de planos e políticas públicas voltadas para a assistência à saúde dos brasileiros é o Ministério da Saúde. O Ministério da Saúde tem como principal função proporcionar uma melhor qualidade de vida à sociedade brasileira, mediante proteção e recuperação da saúde da população, redução de enfermidades, controle de doenças endêmicas e parasitárias, e aprimorar a vigilância à saúde. Sua missão é promover a saúde da população por meio da integração e parcerias com as unidades da Federação, os 10 https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm. Acesso em: 27 jul. 2023. 11 https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1.Acesso em: 27 jul. 2023. https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1 https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1 https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1 35 municípios, a iniciativa privada e a sociedade (Portal de Dados Abertos – MINISTÉRIO DA SAÚDE, [s.d]). O repositório ou plataforma online de dados abertos do Ministério da Saúde, chama-se openDataSUS12. Esta plataforma é uma iniciativa do Ministério da Saúde para disponibilizar informações com transparência, responsabilidade e inclusão. Nesta plataforma existem 30 conjuntos de dados disponíveis, abrangendo vários temas como saúde, epidemiologia, serviços e indicadores de saúde, entre outros. A plataforma openDataSUS tem como definição: O DATASUS disponibiliza informações que podem servir para subsidiar análises objetivas da situação sanitária, tomadas de decisão baseadas em evidências e elaboração de programas de ações de saúde. A mensuração do estado de saúde da população é uma tradição em saúde pública. Teve seu início com o registro sistemático de dados de mortalidade e de sobrevivência (Estatísticas Vitais – Mortalidade e Nascidos Vivos). Com os avanços no controle das doenças infecciosas (informações Epidemiológicas e Morbidade) e com a melhor compreensão do conceito de saúde e de seus determinantes populacionais, a análise da situação sanitária passou a incorporar outras dimensões do estado de saúde. Dados de morbidade, incapacidade, acesso a serviços, qualidade da atenção, condições de vida e fatores ambientais passaram a ser métricas utilizadas na construção de Indicadores de Saúde, que se traduzem em informação relevante para a quantificação e a avaliação das informações em saúde. Nesta seção também são encontradas informações sobre Assistência à Saúde da população, os cadastros (Rede Assistencial), das redes hospitalares e ambulatoriais, o cadastro dos estabelecimentos de saúde, além de informações sobre recursos financeiros e informações Demográficas e Socioeconômicas. Além disso, em Saúde Suplementar, são apresentados links para as páginas de informações da Agência Nacional de Saúde Suplementar – ANS (OPENDATASUS, [s.d]). 2.4 A visualização de dados e os dashboards Sobre visualização de dados, a Oracle (2014) comentou: Peneirar informações para entender o que importa e o que não importa está se tornando mais difícil. O visual torna a análise muito mais fácil e rápida e oferece a capacidade de ver de relance o que é importante. Além disso, a maioria das pessoas responde muito melhor aos recursos visuais do que ao texto - 90% das informações enviadas ao cérebro são visuais, e o cérebro processa os recursos visuais a 60.000 vezes a velocidade do texto. Esses pontos são um forte argumento para o uso da visualização de dados para analisar e transmitir informações. 12 https://opendatasus.saude.gov.br/. Acesso em: 27 jul. 2023. https://www.oracle.com/br/business-analytics/data-visualization/capabilities.html https://opendatasus.saude.gov.br/ 36 A visualização de dados é uma metodologia essencial para análises avançadas, conceituada pela Oracle (2014) como fundamental na inteligência de negócios. Para que as pessoas ou organizações compreendam todas as informações geradas, os dados podem ser representados de forma gráfica ou por meio de outras apresentações visuais. Uma visualização de dados bem elaborada não apenas comunica as informações de forma eficaz, mas também desperta a atenção e o interesse em um determinado assunto. Além disso, é fundamental para descobrir percepções que embasam um plano de tomada de decisão. A visualização de dados não é um conceito novo, mas tem evoluído com o advento de novas tecnologias, diversidade de dispositivos conectados, integração com grandes conjuntos de dados e com uma enorme variedade de interfaces. Essa evolução apresenta novos métodos e funcionalidades, tais como gráficos dinâmicos, mapas em tempo real e outras ferramentas interativas e personalizáveis. De acordo com Peng (2016), a visualização dos dados por meio de gráficos e demais funcionalidades visuais é muito importante nas etapas iniciais da análise dos dados, ajudando a compreender as propriedades básicas dos dados, identificar padrões e apontar possíveis estratégias para um modelo de tratamento dos dados. Além disso, durante as fases da análise, os métodos de visualização dos dados são úteis para depurar problemas e definir ajustes na preparação e tratamento dos resultados finais da análise de dados. Amaral (2015) discutiu a importância da visualização de dados por meio de um dashboard, destacando-a como um modelo analítico apropriado para a análise de dados: Dashboards são painéis visuais que mostram indicadores de um mesmo assunto. Trazem informação resumida, normalmente de cunho estratégico ou geral, mas também têm aplicações nas áreas operacionais. Oferece características de navegação de dados, como filtros, drill downs e drill ups. Embora não deva conter detalhes, pode trazer os melhores ou piores. Também pode conter indicadores de performance. Segundo Few (2013), dashboard é o novo nome dos sistemas de informações executivas desenvolvidos nos anos 1980. Esses sistemas eram baseados em painéis digitais que apresentavam indicadores ou medidas financeiras de fácil acesso para o entendimento dos executivos. 37 Desta forma, os dashboards oferecem a possibilidade de contar história por meio de dados gerados de diversas fontes e em grandes quantidades. Eles desempenham um papel fundamental na descoberta de padrões, informações anômalas ou discrepantes e até mesmo na previsão de tendências, conforme afirmado por Amaral (2015). Nos anos 1990, com o advento e popularização da Internet e o desenvolvimento de novas tecnologias, esses painéis digitais foram aperfeiçoados e amplamente utilizados no ambiente corporativo. A XP Educação (2022) descreve quatro tipos de dashboards: a) Dashboard Operacional que apresenta operações técnicas e processos e serve para demonstrar métricas das rotinas produtivas. Tem como principal objetivo diminuir os erros e aumentar a produtividade; b) Dashboard Analítico que fornece informações importantes para o estudo do cenário com um todo, onde a gestão é capaz de monitorar e identificar tendências e padrões; c) Dashboard Estratégico é usado pela diretoria na tomada de decisões de longo prazo. Também pode ser apresentado para a empresa toda em forma de ajudar a envolver todos os colabores nas decisões; d) Dashboard Tático usado pelos cargos de gestão e gerência, para a tomada de decisões no médio prazo na obtenção de vantagens competitivas. Resumidamente, os principais benefícios na utilização de um dashboard incluem: apoio na tomada de decisões com base em dados; transparência das informações apresentadas; melhoria na comunicação com a utilização de diferentes visualizações, cores e objetos gráficos; layout moderno e claro; otimização de tempo e recursos; alinhamento de estratégias; e integração dos dados relacionados a um determinado assunto. 38 Durante a pandemia, o site mais visitado para monitoramento em tempo real dos casos e mortes pelo novo coronavírus foi um dashboard denominado COVID-19 Dashboard13. Este site foi desenvolvido pelo Coronavirus Resource Center da Universidade John Hopkins14 em Maryland, Estados Unidos. As atualizações diárias deste mapa foram utilizadas pelos principais veículos de mídia, departamentos de saúde pública e agências governamentais no mundo durante a fase crítica da COVID-19 (CNN Brasil, 2020). Figura 2: Monitoramento em tempo real dos casos e mortes pelo novo coronavírus. Fonte: Adaptação de JOHN HOPKINS UNIVERSITY (2022). 2.5 A linguagem de programação R e o ambiente de desenvolvimento integrado RStudio® A linguagem de programação R é uma linguagem de programação computacional com um ambiente de software integrado para métodos estatísticos e apresentação de resultados em formas de gráficos. Seu ambiente de desenvolvimento permite coletar, processar, consolidar e visualizar os dados para atender as etapas de uma análise de dados (Matos, 2015). A linguagem de programação R foi criada originalmente por Ross Ihaka e Robert Gentleman na década de 1990 na Universidade de Auckland na Nova 13 https://coronavirus.jhu.edu/map.html. Acesso em: 27 jul. 2023. 14 https://coronavirus.jhu.edu/. Acesso em: 27 jul. 2023. https://coronavirus.jhu.edu/map.html https://coronavirus.jhu.edu/ 39 Zelândia. O nome da linguagem deriva das iniciais dos criadores e de um jogo configurado com a Linguagem S (Escovedo; Koshiyama, 2020). A linguagem é distribuída sob uma licença de software livre e de código- aberto chamada GNU General Public License (GPL)15. Esta licença garante aos usuários o direito de usar, modificar e distribuir o software R, bem como o acesso ao código-fonte. Segundo Amaral (2016), desde sua primeira versão em 1995, a linguagem tem evoluído nas comunidades de estatísticos e pesquisadores, tornando-se amplamente utilizada em Ciência de Dados e métodos científicos. O site oficial para instalação do software R é o CRAN-R (The Comprehensive R Archive Network - Rede abrangente de arquivos R)16 , cujo endereço eletrônico é mantido por uma comunidade de desenvolvedores em linguagem de programação R. Neste site, estão centralizadas informações importantes como eventos, manuais, guias de referência, versões, bibliotecas e outros links para fontes de suporte para a linguagem (Código Fonte TV, 2020). Segundo R (linguagem de programação) (2023), a linguagem de programação R possui como principais características: a) Software gratuito, executado nos principais sistemas operacionais: Linux, Windows® e macOS®; b) Fornece uma extensa variedade de técnicas computacionais, matemáticas, e estatísticas tais como: testes estatísticos clássicos, análise de séries temporais, agrupamento, classificação, regressão, agrupamento e outras; c) Contém uma ampla coleção de pacotes, que são bibliotecas de funções, o ambiente de programação pode ser estendido, oferecendo uma variedade de recursos específicos para várias áreas de pesquisa; 15 Representa uma designação da licença para software idealizada para o Projeto GNU de acordo com as definições de software livre da Free Software Foundation. Por ser uma licença copyleft (uma forma de usar a legislação de proteção dos direitos autorais com o objetivo de retirar barreiras à utilização, difusão e modificação de uma obra criativa), trabalhos derivados de um produto originalmente licenciado pela GPL só podem ser distribuídos se utilizarem a mesma licença. Fonte: GNU General Public License (2023). 16 O CRAN-R é uma rede de servidores espalhada pelo mundo que armazena versões idênticas e atualizadas de códigos e documentações para a linguagem de programação R e seu sítio está localizado em: https://cran.r-project.org/. Acesso em: 27 jul. 2023. https://cran.r-project.org/ 40 d) Ferramenta que oferece a capacidade de produzir gráficos estáticos, dinâmicos e interativos. Além disso, possibilita a geração de imagens com alta qualidade para publicações profissionais e científicas; e) Linguagem muito utilizada nos estudos estatísticos e na área de análise de dados; De acordo Stephens (2023), a empresa Redmonk17 elabora um ranking das 20 linguagens mais utilizadas no mundo, correlacionando o uso da linguagem e a quantidade de discussões e informações sobre elas na Internet. A linguagem de programação R ocupa a 12ª posição neste conceituado ranking, com informações atualizadas em janeiro de 2023. A Figura 3 demonstra o histórico do ranking de setembro de 2012 até janeiro de 2023. Figura 3: RedMonk Top 20 Languages Over Time: January 2023. Fonte: https://redmonk.com/rstephens/2023/05/16/top20-jan2023/. Acesso em: 28 jul. 2023. 17 https://redmonk.com/. Acesso em: 27 jul. 2023. https://redmonk.com/rstephens/2023/05/16/top20-jan2023/ https://redmonk.com/ 41 A linguagem de programação R tornou-se uma escolha comum para as pesquisas acadêmicas devido a uma série de razões. Principalmente, por ser gratuita, possibilitar funcionalidades para análise de dados e métodos estatísticos, permitir uma pesquisa reprodutível e produzir gráficos de qualidade. Por fim, sua ampla compatibilidade com outras ferramentas e tecnologias a torna uma escolha conveniente e versátil para pesquisadores (Sage Campus, 2019). Posto isso, Matos (2015) citou as principais vantagens para a utilização da linguagem de programação R: a) Linguagem gratuita com sintaxe intuitiva; b) Possui uma grande variedade de bibliotecas e pacotes estatísticos disponíveis para facilitar a análise de dados de diversas áreas; c) Recursos de alta qualidade na geração de gráficos estáticos e interativos; d) Ambiente colaborativo de procedimentos e métodos, garantidos por uma comunidade mundial ativa de pesquisadores e estatísticos; e) Disponibiliza funções para execução de uma análise exploratória de dados e também para análises estatísticas complexas; f) Ótimo desempenho na execução de relatórios, tabelas, mapas e gráficos; g) Garante o princípio básico de reprodutibilidade dos métodos e procedimentos aplicados em uma pesquisa científica; h)Possibilita a integração com outros softwares: de controle de versão, de renderização de arquivos HTML/PDF e até mesmo com outras linguagens. No entanto, de acordo com Matos (2015), existem aspectos importantes a serem analisados ao adotar a linguagem como solução: a) Falta de suporte comercial por ser um software livre; b) Curva de aprendizagem significativa, pois existem muitos métodos e funções possíveis a serem utilizados; 42 c) Pré-processamento dos dados diretamente na memória RAM do computador, o que gera uma limitação em relação aos recursos do computador local; d) Necessidade de conhecimentos básicos de lógica de programação para se utilizar a linguagem. As funções, dados ou coleções de códigos da linguagem de programação R estão disponíveis e organizadas nos chamados pacotes ou bibliotecas (Packages) e podem ser acessados e utilizados para estender a capacidade da linguagem. A partir do momento em que o pacote for instalado no ambiente e posteriormente carregado para a memória do computador, estas funções do pacote ficam disponíveis para uso. Os pacotes são desenvolvidos e mantidos pela Comunidade R e estão disponíveis para download no repositório The Comprehensive R Archive Network (CRAN) 18 existente na Internet (Silva et al., 2021). Deste modo, existem muitos pacotes poderosos e populares na linguagem de programação R que podem ser utilizados nas etapas de uma AED. Neste trabalho foram utilizadas as bibliotecas readr19, dplry20, ggplot221, flexdashboard22e shiny23, com suas principais funções resumidas nos parágrafos seguintes. Na etapa de coleta de dados, o pacote readr pode ser utilizado para importar dados de arquivos texto de diferentes formatos, principalmente arquivos texto separados por vírgula chamados: comma separated value (CSV). Uma das etapas mais importantes de uma análise de dados é a preparação dos dados, que consiste em selecionar, criar, alterar e resumir dados de forma eficiente. O pacote dplry, chamado de gramática da preparação de dados, é amplamente usado nesta etapa. O pacote ggplot2 é um dos muitos pacotes utilizados para a criação de objetos gráficos na linguagem de programação R, sendo o mais versátil e elegante. A visualização dos dados torna-se importante, pois é a comunicação visual e 18 https://cran.r-project.org/. Acesso em: 27 jul. 2023. 19 https://cran.r-project.org/web/packages/readr/index.html. Acesso em: 27 jul. 2023. 20 https://cran.r-project.org/web/packages/dplyr/index.html. Acesso em: 27 jul. 2023. 21 https://cran.r-project.org/web/packages/ggplot2/index.html. Acesso em: 27 jul. 2023. 22 https://cran.r-project.org/web/packages/flexdashboard/index.html . Acesso em: 27 jul. 2023. 23 https://cran.r-project.org/web/packages/shiny/index.html. Acesso em: 01 jan.2024. https://cran.r-project.org/ https://cran.r-project.org/web/packages/readr/index.html https://cran.r-project.org/web/packages/dplyr/index.html https://cran.r-project.org/web/packages/ggplot2/index.html https://cran.r-project.org/web/packages/flexdashboard/index.html https://cran.r-project.org/web/packages/shiny/index.html 43 apresenta descobertas, novas interpretações e questionamentos sobre os dados demonstrados (Wickham; Grolemund, 2017). Como discutido nos tópicos anteriores, o dashboard é uma maneira eficaz para comunicar e demonstrar uma grande quantidade de dados consolidados, de forma rápida e visual. O pacote flexdashboard, por sua vez, permite a criação de painéis por meio de elementos visuais como barras de rolagem, caixas de texto, objetos indicadores, abas e divisões para apresentação de gráficos, mapas, tabelas, imagens e demais objetos gráficos, resultando em uma experiência de visualização interativa e eficiente. O pacote shiny disponibiliza instruções para a criação de aplicativos dinâmicos na Internet, com muitas possibilidades e interfaces customizáveis. Aplicações dinâmicas criadas com este pacote podem ser disponibilizadas na Internet, através de um serviço integrado ao RStudio® denominado shinyapps.io24 Dentre os ambientes integrados existentes para desenvolvimento das rotinas da linguagem de programação R, o RStudio® é o que possui uma interface amigável, prática, simples e organizada para a utilização dos procedimentos e funções da linguagem afirma Noleto (2022). O RStudio® é uma IDE - Integrated Development Environment - ou um ambiente integrado de desenvolvimento de programas, utilizado para o uso da linguagem de programação R. Este software livre foi desenvolvido e é mantido pela Posit Software25. O RStudio® possui uma interface gráfica amigável e tem como principal objetivo facilitar uma melhor utilização da linguagem de programação R por meio de uma console para execução de programas e demais funcionalidades para monitoramento, visualização de resultados e debug de prováveis erros (Noleto ,2022). Na versão Desktop, isto é, para execução em computadores locais, este software está disponível gratuitamente e é chamado de RStudio Desktop ®. Também existe uma versão paga denominada RStudio Desktop Pro® (RSTUDIO, 2023). 24 Plataforma integrada ao RStudio®, que possibilita hospedar aplicações interativas na Internet. https://www.shinyapps.io/. Acesso em: 20 fev.2024 25 https://posit.co/. Acesso em: 27 jul. 2023. https://www.shinyapps.io/ https://posit.co/ 44 A ferramenta RStudio Desktop®26 pode ser executada nos sistemas operacionais: Windows®, macOS® e Linux, sendo projetada para facilitar o desenvolvimento de programas, a análise e a visualização de dados. Também, permite a integração com outros softwares como, por exemplo, o sistema de controle de alterações realizadas nos códigos, os softwares de renderização de documentos27 PDF e HTML, dentre outros. Além de ser o ambiente integrado mais utilizado e recomendado, Noleto (2022) cita: O RStudio® é uma das versões de software mais desenvolvidas para a utilização de uma linguagem de programação como o R, pois ele oferece uma série de funcionalidades e painéis que podem contribuir grandemente para a análise de Big Data 28 . Conforme mostrado na Figura 4, o RStudio Desktop® possui em sua tela inicial 4 divisões, denominadas quadrantes ou painéis , que podem ser organizadas conforme a preferência dos usuários. O painel EDITOR é onde são escritos os códigos da linguagem de programação R, também chamados de scripts. O RStudio Desktop® colore as palavras e símbolos para facilitar a leitura do código. Já no painel CONSOLE são exibidos os resultados da execução dos scripts dos programas criados em linguagem de programação R. Qualquer erro, na execução destes códigos, é mostrado em forma de destaque neste painel. O OUTPUT é um painel auxiliar que possui várias funções tais como: acessar pasta de arquivos (Files); mostrar objetos gráficos (Plot); exibir os pacotes instalados no ambiente e suas versões (Packages); acesso a uma importante ajuda da linguagem (Help) e a exibição de relatórios de dados (Viewer). Outro painel auxiliar é o AMBIENTE ou Environment, muito importante na visualização de todos os objetos criados na execução do código da linguagem. 26 O link para baixar a versão desktop é: https://posit.co/download/rstudio-desktop/. Acesso em: 27 jul. 2023. 27 Renderização é o processamento para combinação de um material bruto digitalizado como imagens, vídeos ou áudio num único resultado final, unificando esses elementos com objetivo de melhorar a experiência do usuário. Fonte: O que é renderização ou render?, ControleNet, s/d. Disponível em: . Acesso em: 27 jul. 2023. 28 Segundo Amaral (2016), trata-se de um fenômeno em que os dados são produzidos em vários formatos, grandes quantidades e armazenados por um grande número de dispositivos ou equipamentos. https://posit.co/download/rstudio-desktop/ https://www.controle.net/faq/renderizacao-ou-render-de-video-audio-e-imagens-3d 45 Figura 4: Tela inicial do RStudio Desktop® . Fonte: Elaborada pelo autor. Em busca de uma maior facilidade e apoio ao realizar uma análise de dados utilizando a linguagem de programação R e o RStudio®, Noleto (2022) destaca as seguintes vantagens: a) O RStudio® é compatível com os principais sistemas operacionais: Windows®, macOS® e Linux; b) A plataforma é um software gratuito e de código aberto, oferecendo muitas funcionalidades; c) Colabora com a facilidade de utilização da linguagem de programação R e possui interface amigável para interação com os objetos e métodos da linguagem; d) A comunidade que utiliza o RStudio® e a linguagem de programação R, é bastante ativa e colaborativa, disponibilizando documentações e muitas informações na Internet; e) Possui grande integração com demais softwares ou linguagens de programação no apoio às funcionalidades necessárias para as etapas de análise de dados e Ciência de dados. 46 A Figura 5 contém uma síntese das características, vantagens e alertas sobre a linguagem de programação R e o RStudio Desktop®. Figura 5: Sobre a linguagem de programação R e RStudio Desktop®. Fonte: Elaborada pelo autor 47 2.6 A plataforma GitHub e a reprodutibilidade do método científico O Git é um software livre para controle de versões de arquivos. Seu principal objetivo é manter um registro das alterações feitas nestes arquivos ao longo do tempo, permitindo que os usuários acompanhem o histórico de alterações. Este software é um sistema de controle de versões distribuído e colaborativo, onde cada usuário que trabalha em um projeto no Git terá uma cópia completa do repositório desse projeto, incluindo os arquivos e os históricos de alterações (GIT, 2022). O Git oferece uma série de vantagens para quem o utiliza: possibilita o controle das alterações, como desfazer ou recuperar uma versão do arquivo, permite a demonstração de um histórico das alterações, torna fácil documentar as alterações realizadas e traz confiança nas alterações desejadas. Essas vantagens tornam o Git uma ferramenta indispensável para o desenvolvimento de software moderno. A utilização do repositório em Git propicia um ambiente colaborativo com a possibilidade de dividir partes do projeto entre os integrantes, com a finalidade de atuar em funcionalidades distintas que serão combinadas quando estiverem concluídas. A interface online ou o site na Internet que disponibiliza um repositório Git é o GitHub29. Este local centralizado permite carregar uma cópia do repositório Git e disponibiliza demais funcionalidades que possibilitam o monitoramento das alterações, as atividades de uma equipe e a colaboração ou compartilhamento de arquivos de um projeto. Esta interface é utilizada mundialmente e chega a ter mais de 36 milhões de usuários ativos e milhões de projetos armazenados. As principais funcionalidades deste site são gratuitas (GitHub, 2022). Além de ser um local centralizado para armazenar os repositórios Git, o GitHub apresenta demais vantagens como: documentar requisitos do projeto, criar linhas de desenvolvimento do mesmo projeto visando colaborar ou compartilhar o mesmo projeto para equipes distintas na implementação de diferentes funcionalidades e principalmente monitorar por meio da interface web, as alterações dos arquivos e o andamento dos projetos (Bell; Beer, 2015). 29 https://github.com/. Acesso em: 27 jul. 2023. https://github.com/ 48 O GitHub é uma ferramenta que possibilita o armazenamento e organização de toda a documentação de um projeto científico em um repositório online Git, desta forma atendendo a reprodutibilidade como um princípio importante do método científico. O Git (2022) comentou: Cada diretório de trabalho do Git é um repositório com um histórico completo e habilidade total de acompanhamento das revisões, não dependente de acesso a uma rede ou a um servidor central. O Git também facilita a reprodutibilidade científica em uma ampla gama de disciplinas, da ecologia à bioinformática, arqueologia à zoologia. Um dos princípios básicos do método científico é a reprodutibilidade da pesquisa. Neste sentido, a execução do estudo ou pesquisa deve ser passível de reprodução em diferentes momentos e por diversos pesquisadores, resultando em conclusões semelhantes. Para assegurar a reprodutibilidade, é fundamental a disponibilização de dados brutos e registros detalhados dos passos realizados no estudo, assim como os protocolos da pesquisa em repositórios de acesso público (Ciência Aberta USP, [s.d.]). A reprodução dos resultados das pesquisas científicas e a maneira pelo qual esses resultados foram gerados são temas fundamentais para a produção das evidências mais robustas possíveis (Pilatti, 2019). https://pt.wikipedia.org/wiki/Diret%C3%B3rio_(computa%C3%A7%C3%A3o) https://pt.wikipedia.org/wiki/Reposit%C3%B3rio https://pt.wikipedia.org/wiki/Ecologia https://pt.wikipedia.org/wiki/Bioinform%C3%A1tica https://pt.wikipedia.org/wiki/Arqueologia https://pt.wikipedia.org/wiki/Zoologia 49 3 METODOLOGIA Este capítulo apresenta a metodologia utilizada neste estudo, visando atingir os objetivos propostos. Cita as etapas e processos executados, desde a pesquisa teórica seguida por uma Análise Exploratória de Dados (AED), embasada por uma metodologia de Ciência de Dados aplicada para a apuração dos resultados e culminando no desenvolvimento de um painel visual denominado dashboard. A IBM ([s.d]) destaca que a AED é principalmente utilizada para descobrir o que os dados podem revelar: seja uma característica, um teste de hipótese, um modelo ou um padrão. Seu resultado proporciona uma compreensão das variáveis e das relações dentro de um conjunto de dados. Essa análise é composta por funções técnicas estatísticas, computacionais, gráficas e matemáticas que auxiliam na solução de problemas em geral. Escovedo e Koshiyama (2020) definem Data Science ou Ciência de Dados como um conjunto de métodos com o propósito de apoiar decisões de negócio baseadas em dados. De maneira mais abrangente, essa Ciência diz respeito à coleta de dados em grande quantidade, provenientes de diversos formatos e fontes, com o propósito de análise, com o objetivo de descobrir padrões, hipóteses ou comportamentos relevantes para análises estatísticas e preditivas, planejamentos e tomadas de decisão. Este estudo utilizará como fonte de dados, um conjunto de dados do repositório de dados abertos do Ministério da Saúde openDataSUS. Além disso, empregará a linguagem de programação R e a plataforma GitHub para alcançar os resultados esperados. Para realizar a AED, será seguida a estrutura definida na metodologia de Ciência de Dados apresentada por Siddiqi (2021). Essa metodologia possui cinco etapas: a) A identificação do problema e a abordagem para resolvê-lo; b) A definição do método de coleta dos dados; c) A preparação e o processamento dos dados; d) A geração de modelos e finalmente a implantação. 50 A Figura 6 apresenta os principais elementos da metodologia definida por Siddiqi (2021). Figura 6: Metodologia de Ciência de Dados. Fonte: Elaborada pelo autor. 51 4 DESENVOLVIMENTO Este estudo disponibiliza os códigos-fonte da linguagem de programação R para análise de dados abertos e o desenvolvimento do dashboard, acessíveis no repositório público GitHub : https://github.com/DaInLab/PPGMiT-openDataSUS. A fonte de dados utilizada, juntamente com toda documentação auxiliar, está disponível no repositório do Ministério da Saúde do Brasil, openDataSUS, acessível no link: https://opendatasus.saude.gov.br/dataset/srag-2021-a-2023. Para acessar o painel visual e dinâmico na Internet, o dashboard, segue o link : https://ppgmitdashboardcovid.shinyapps.io/dashboard_covid_novo/ . 4.1 Identificar o problema e a abordagem para resolvê-lo O passo inicial se torna importante no entendimento do problema a resolver. Sendo importante responder as perguntas: o que vai resolver?; o que deu errado neste cenário?; o que vai acontecer a seguir?; o que eu preciso fazer? (Siddiqi, 2021). Essa fase inicial, que representa o primeiro passo, é importante para a compreensão do problema em questão e para determinar o rumo a ser tomado. Considerando a problemática abordada por este estudo, que envolve o cenário pandêmico no Brasil e a análise de dados para descobrir informações e conhecimentos, foi utilizado uma Análise Exploratória de Dados (AED) utilizando dados abertos juntamente com um dashboard. Toda essa escolha foi fundamentada na Metodologia de Ciência de Dados mencionada em Siddiqi (2021). Sobre a AED foi utilizada a linguagem de programação R aplicada com funções de objetos visuais, análise de dados e métodos matemáticos e estatísticos como seleção, filtro, contagem, médias, operações aritméticas, classificação e rankings. Quanto à análise dos dados nas atividades de coleta, preparação, processamento, visualização e desenvolvimento do dashboard foram utilizados os seguintes pacotes da linguagem: readr, dplyr, ggplot2, flexdashboard, shiny e demais pacotes auxiliares. https://github.com/DaInLab/PPGMiT-openDataSUS https://opendatasus.saude.gov.br/dataset/srag-2021-a-2023 https://ppgmitdashboardcovid.shinyapps.io/dashboard_covid_novo/ 52 4.2 Definir métodos de coleta e requisitos Nesta segunda etapa ocorre a definição sobre os dados que serão utilizados na resolução do problema, são os dados brutos. Sendo que se deve analisar o formato dos dados a serem coletados e quais dados específicos serão necessários. Torna-se importante também a forma de coleta e a tempestividade dos dados (Siddiqi, 2021). O conjunto de dados “SRAG 2021 a 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19” foi utilizado, conforme a Figura 7, como fonte de dados principal deste estudo. Figura 7: Conjunto de dados do openDataSUS. Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19 – OPENDATASUS ([s.d.]). Portanto, a temporalidade deste estudo, abrange o período pandêmico no Brasil, compreendendo os anos de 2021 a 2023. SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19 – OPENDATASUS ([s.d.]) cita: Esta página tem como finalidade disponibilizar o legado dos bancos de dados (BD) epidemiológicos de SRAG, da rede de vigilância da Influenza e outros vírus respiratórios, desde o início da sua implantação (2009) até os dias atuais (2023), com a incorporação da vigilância da covid-19. Atualmente, o sistema oficial para o registro dos casos e óbitos por SRAG é o Sistema de Informação da Vigilância Epidemiológica da Gripe (SIVEP- 53 Gripe). Ressaltamos que os dados da vigilância de SRAG no Brasil disponibilizados nesta página, estão sujeitos a alterações decorrentes da investigação, ou mesmo correções de erros de digitação, pelas equipes de vigilância epidemiológica que desenvolvem o serviço nas três esferas de gestão.Esclarece-se que as bases de dados de SRAG disponibilizadas neste portal passam por tratamento que envolve a anonimização, em cumprimento a Lei 13.709/2018. Os recursos e requisitos para este estudo incluíram os conceitos da Ciência de Dados, da Análise Exploratória de Dados, do uso da linguagem de programação R e dos documentos auxiliares disponibilizados no site do openDataSUS conforme a Figura 8 na área de “Dados e Recursos”. Figura 8: Dados e Recursos do conjunto de dados SRAG 2021 a 2023. Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19 – OPENDATASUS ([s.d.]). 54 A Ficha de Notificação30 é o formulário principal de entrada de dados, deste conjunto de dados “SRAG 2021 a 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19”, e consta no ANEXO A deste estudo. Este formulário é preenchido pelos funcionários do SUS para registro de cada paciente e contém 83 itens para preenchimento. O ANEXO B contém o documento Dicionário de Dados31, onde são descritas e detalhadas todas variáveis existentes no conjunto de dados. Torna-se um requisito muito importante no entendimento dos dados, pois contém todo o detalhamento dos itens da Ficha de Registro Individual, existente no ANEXO A, consequentemente detalham os dados e as variáveis que são os dados brutos do conjunto de dados. Os demais arquivos disponibilizados na área de “Dados e recursos” no repositório openDataSUS são os arquivos textos separados por vírgula (CSV) que contém os dados brutos anuais respectivos aos anos 2021, 2022 e 2023. Cada arquivo contém 173 colunas ou variáveis descritas no ANEXO B deste estudo. A Figura 9, exibe um trecho de um arquivo texto deste conjunto de dados. Figura 9: Detalhes da pré-visualização do arquivo SRAG 2023 – 31/07.csv. Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19 – OPENDATASUS ([s.d.]). As informações adicionais indicam características importantes da fonte de dados como a granularidade geográfica por município, a granularidade temporal por dia, a cobertura geográfica e a última atualização conforme mostra a Figura 10. 30 Disponível em: . Acesso em: 18 Fev. 2024. 31 Disponível em: . Acesso em: 18 Fev. 2024. https://opendatasus.saude.gov.br/dataset/39a4995f-4a6e-440f-8c8f-b00c81fae0d0/resource/9f0edb83-f8c2-4b53-99c1-099425ab634c/download/ficha_srag_hospitalizado_19.09.2022.pdf https://opendatasus.saude.gov.br/dataset/39a4995f-4a6e-440f-8c8f-b00c81fae0d0/resource/9f0edb83-f8c2-4b53-99c1-099425ab634c/download/ficha_srag_hospitalizado_19.09.2022.pdf https://opendatasus.saude.gov.br/dataset/39a4995f-4a6e-440f-8c8f-b00c81fae0d0/resource/9f0edb83-f8c2-4b53-99c1-099425ab634c/download/ficha_srag_hospitalizado_19.09.2022.pdf https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/pdfs/Dicionario_de_Dados_SRAG_Hospitalizado_19.09.2022.pdf https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/pdfs/Dicionario_de_Dados_SRAG_Hospitalizado_19.09.2022.pdf https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/pdfs/Dicionario_de_Dados_SRAG_Hospitalizado_19.09.2022.pdf 55 Figura 10: Informações Adicionais do conjunto de dados SRAG 2021 a 2023. Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo dados da COVID-19 – OPENDATASUS ([s.d.]). A presença de três arquivos neste conjunto de dados, como ilustrado na Figura 11, totalizam 1,48 Gigabytes de tamanho. Essa grandeza representa um alerta ou uma preocupação para as próximas etapas, que envolveram as operações de preparação e processamento dos dados. Figura 11: Os três arquivos texto do conjunto de dados. Fonte: Elaborada pelo autor. Os arquivos foram obtidos manualmente a partir do link do repositório online e posteriormente copiados para o diretório “dados” no repositório do projeto no ambiente da linguagem de programação R. Para esta etapa foram utilizadas as funções nativas da linguagem e principalmente um pacote para importação de dados para o ambiente, o pacote readr. 56 Após uma análise inicial (Figura 12) utilizando a linguagem de programação R devido à vasta quantidade de dados contidos nos arquivos em questão, que totalizam aproximadamente 2,6 milhões de registros gerais com 173 variáveis cada e por volta de 1,4 milhões de registros com 43 variáveis relacionadas ao COVID-19, optou-se por realizar a granularidade e o agrupamento com base na localização geográfica da notificação e no ano correspondente, os quais serão obtidos a partir da data de notificação. Figura 12: Análise inicial do conjunto de dados SRAG 2021 a 2023. Fonte: Elaborada pelo autor. 4.3 Entender e preparar os dados A compreensão dos dados gerados podem responder as perguntas elencadas no passo inicial desta metodologia (Siddiqi, 2021). Esta etapa demanda mais tempo e esforço dentro da metodologia adotada, uma vez que envolve a compreensão e a delimitação conforme a granularidade e o entendimento inicial dos dados existentes. Durante esta fase, são realizadas análises e operações como totalizações, seleção, filtragens, agrupamentos, tratamento de dados ausentes, além da criação de novos dados ou variáveis significativas a partir dos dados brutos. Todas estas atividades foram realizadas utilizando principalmente o pacote dplyr. A primeira atividade realizada neste conjunto de dados, após a importação citada no tópico anterior, foi a seleção de registros por meio de condições ou filtros para delimitar e identificar os registros correspondentes ao estudo: os óbitos no contexto da COVID-19 no período de 2021 a 2023. 57 Os itens do ANEXO A que compõem o filtro necessário para este estudo, estão na área Conclusão, conforme a Figura 13. Figura 13: Filtros, classificação final, evolução do caso e data de óbito. Fonte: Adaptação do ANEXO A. De acordo com o ANEXO A, as condições que compõe o filtro aplicado neste conjunto de dados são: a) Para os casos da COVID-19. 75 Classificação do Caso : valor 5- SRAG por COVID-19. b) Óbitos. 77 Evolução do Caso : valor 2-Óbito. c) Período. 78 Data da alta ou óbito : valor Anos 2021 a 2023 Ainda referente ao filtro, as variáveis necessárias para atender