UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO”
FACULDADE DE ARQUITETURA, ARTES, COMUNICAÇÃO E DESIGN
PROGRAMA DE PÓS-GRADUAÇÃO MESTRADO EM MÍDIA E TECNOLOGIA
MARCELO JOSÉ DOS SANTOS
DASHBOARD DE DADOS ABERTOS DE ÓBITOS
POR COVID-19 NO BRASIL
BAURU
2024
MARCELO JOSÉ DOS SANTOS
DASHBOARD DE DADOS ABERTOS DE ÓBITOS
POR COVID-19 NO BRASIL
Relatório Técnico apresentado ao
Programa de Pós-graduação em Mídia e
Tecnologia (PPGMiT) – FAAC – UNESP –
Bauru para obtenção do título de Mestre
em Mídia e Tecnologia, sob a orientação
do Prof. Associado João Pedro Albino.
BAURU
2024
IMPACTO POTENCIAL DESTA PESQUISA
O impacto potencial desta pesquisa vai além da disponibilização de dados. Ele se
estende à transformação de dados brutos em informações relevantes, capacitando
não apenas indivíduos e instituições, mas também a sociedade como um todo, a
responder, entender e se adaptar de forma eficaz aos desafios impostos pela
pandemia. Esta iniciativa demonstra a importância da análise de dados exploratória,
aplicada por meio de técnicas computacionais, estatísticas e matemáticas, na
compreensão das informações e no desenvolvimento de conhecimento a respeito do
fenômeno da pandemia. Além disso, o Dashboard de Dados Abertos de Óbitos por
COVID-19 no Brasil pode incentivar a utilização de dados abertos para a
identificação de padrões e tendências, com o objetivo de embasar tomadas de
decisões transparentes e assertivas. Essa abordagem não só permite uma
compreensão mais profunda da propagação do vírus e seus impactos, mas também
facilita o planejamento de estratégias eficazes de monitoramento e enfrentamento.
Por fim, espera-se que esta pesquisa contribua significativamente para o
conhecimento acadêmico em metodologias de Ciência de Dados, destacando a
importância da utilização da linguagem de programação R como uma ferramenta
poderosa para análise e visualização de dados. Ao promover o uso de práticas
avançadas de análise de dados, esta iniciativa não apenas auxilia na compreensão
da pandemia atual, mas também prepara o caminho para enfrentar desafios futuros
com maior capacidade e eficiência.
POTENTIAL IMPACT OF THIS RESEARCH
The potential impact of this research goes beyond the provision of data. It extends to
the transformation of raw data into relevant information, empowering not only
individuals and institutions but also society as a whole to respond, understand, and
adapt effectively to the challenges imposed by the pandemic. This initiative
demonstrates the importance of exploratory data analysis, applied through
computational, statistical, and mathematical techniques, in understanding information
and in the development of knowledge regarding the phenomenon of the pandemic.
Additionally, the Dashboard of Open Data on COVID-19 Deaths in Brazil may
encourage the use of open data for identifying patterns and trends, with the aim of
informing transparent and assertive decision-making. This approach not only allows
for a deeper understanding of the virus's spread and its impacts but also facilitates
the planning of effective monitoring and response strategies. Ultimately, it is hoped
that this research will contribute significantly to academic knowledge in Data Science
methodologies, highlighting the importance of using the R programming language as
a powerful tool for data analysis and visualization. By promoting the use of advanced
data analysis practices, this initiative not only aids in understanding the current
pandemic but also paves the way for tackling future challenges with greater capacity
and efficiency.
MARCELO JOSÉ DOS SANTOS
DASHBOARD DE DADOS ABERTOS DE ÓBITOS
POR COVID-19 NO BRASIL
Área de Concentração: Ambientes Midiáticos e Tecnológicos
Linha de Pesquisa: Tecnologias Midiáticas
Banca Examinadora:
Presidente/Orientador: Prof Associado João Pedro Albino
Instituição: Programa de Pós-graduação em Mídia e Tecnologia. Faculdade de
Arquitetura,Artes, Comunicação e Design – FAAC/UNESP-Bauru
Prof. 1: Prof. Dr. Marcos Américo
Instituição: Programa de Pós-graduação em Mídia e Tecnologia. Faculdade de
Arquitetura, Artes, Comunicação e Design – FAAC/UNESP-Bauru
Prof. 2: Prof. Dr. Alan César Belo Angeluci
Instituição: Universidade de São Paulo - USP/SP
Resultado: Aprovado
Bauru, 25 de Março de 2024.
AGRADECIMENTOS
À Deus, agradeço pelo dom da vida e por Sua constante presença, guiando-
me em todas as etapas e ajudando-me a superar as dificuldades encontradas ao
longo da realização deste trabalho.
Deixo um agradecimento especial aos meus pais, Oswaldo (in memoriam) e
Aparecida pelos ensinamentos, exemplos de vida e por não medirem esforços para
me proporcionar uma educação de qualidade.
À minha esposa e filhos, que são a base sólida na construção da minha vida
e que são fundamentais ao longo da minha jornada. A razão dos meus objetivos são
vocês!
Agradeço imensamente ao meu orientador Professor Associado João Pedro
Albino, que fez o papel de facilitador. Seu conhecimento, entusiasmo e
direcionamento transformaram obstáculos em oportunidades de aprendizado.
Aos colegas do grupo de pesquisa LInDa da Unesp de Bauru, expresso
meus sinceros agradecimentos pelo companheirismo e cumplicidade demonstrados
em nossas atividades. Ninguém constrói nada sozinho.
À Casa da Fraternidade Santa Rita de Cássia de Bauru-SP, sou
eternamente grato pela acolhida e pela oportunidade proporcionada como professor
voluntário. Encontrei um ambiente de colaboração e incentivo à educação que
contribuíram para minha formação.
Ao Programa de Pós-Graduação em Mídia e Tecnologia da Faculdade de
Arquitetura Artes, Comunicação e Design – FAAC Unesp Bauru-SP, principalmente
ao seu corpo docente e direção que oportunizaram e contribuíram para esta etapa
da minha formação acadêmica.
Por fim, nada disso seria possível sem a intercessão de Nossa Senhora
iluminando meus caminhos, e sem as bênçãos dos Santos aos quais sou devoto.
“Amemos a DEUS, meus irmãos, amemos a
DEUS, mas que isto seja a custa dos nossos
braços, que isto seja com o suor dos nossos
rostos”
São Vicente de Paulo
SANTOS, M. J. DASHBOARD DE DADOS ABERTOS DE ÓBITOS POR COVID-19
NO BRASIL, 2024, 93 f. Relatório Técnico-Científico (Mestrado em Mídia e
Tecnologia) - FAAC - UNESP, sob a orientação do Professor Associado João Pedro
Albino, Bauru, 2024.
RESUMO
O avanço tecnológico atual possibilita o processamento e transformação de grandes
quantidades de dados em informações precisas e relevantes em todas as áreas do
conhecimento. Durante a pandemia de COVID-19, essa proliferação de dados criou
um ambiente propício para a realização de estudos e a aplicação de métodos
científicos, como a análise exploratória de dados, para demonstrar e gerar
resultados, fornecendo apoio essencial nas tomadas de decisões no combate a esse
fenômeno sanitário global. A dúvida sobre a origem e a veracidade das informações
apresentadas sobre a pandemia trouxeram desinformação, preocupação e
insegurança para toda a sociedade. Diante desta problemática, este trabalho propõe
o desenvolvimento de um painel de informações de acesso público, chamado
dashboard, que apresenta dados abertos sobre os óbitos ocorridos durante a
pandemia de COVID-19 no Brasil. Utilizou-se uma metodologia de Ciência de Dados
e uma análise exploratória de um conjunto de dados abertos existente no repositório
do Ministério da Saúde do Brasil. Este dashboard oferece uma exibição de dados
abertos consolidados por meio de artefatos estatísticos e gráficos criados utilizando
a linguagem de programação R. Concluiu-se que, utilizando-se da análise
exploratória de dados e o dashboard por meio de técnicas estatísticas,
computacionais e visuais, foram importantes para simplificar e apresentar, de forma
efetiva, as informações compiladas, permitindo visualizar a identificação de
evidências, padrões e oportunidades para embasar prováveis tomadas de decisões.
Palavras-chave: dashboard; COVID-19; linguagem de programação R; análise de
dados.
SANTOS, M. J. DASHBOARD OF OPEN DATA ON DEATHS DUE TO COVID-19 IN
BRAZIL, 2024, 93 f. Technical-Scientific Report (Master in Media and Technology) -
FAAC - UNESP, under the guidance of Associate Professor João Pedro Albino,
Bauru, 2024.
ABSTRACT
The current technological advancement enables the processing and transformation
of large quantities of data into precise and relevant information across all areas of
knowledge. During the COVID-19 pandemic, this proliferation of data created a
conducive environment for conducting studies and applying scientific methods, such
as exploratory data analysis, to demonstrate and generate results, providing
essential support in decision-making in combating this global health phenomenon.
Doubts about the origin and veracity of the information presented about the
pandemic have brought misinformation, concern, and insecurity to society as a
whole. Considering this problem, this work proposes the development of a publicly
accessible information panel, called a dashboard, which presents open data on
deaths that occurred during the COVID-19 pandemic in Brazil. A Data Science
methodology and exploratory analysis of an existing open dataset in the repository of
the Brazilian Ministry of Health were used. This dashboard offers a display of
consolidated open data through statistical artifacts and graphics created using the R
programming language. It was concluded that the use of exploratory data analysis
and the dashboard, through statistical, computational, and visual techniques, were
important for simplifying and effectively presenting the compiled information, allowing
the visualization of the identification of evidence, patterns, and opportunities to
support probable decision-making.
Keywords: dashboard; COVID-19; R programming language; data analysis.
LISTA DE FIGURAS
Figura 1 – Objetivo de Desenvolvimento Sustentável 3 da ONU.
Figura 2 – Monitoramento em tempo real dos casos e mortes pelo novo coronavírus.
Figura 3 – RedMonk Top 20 Languages Over Time: January 2023.
Figura 4 – Tela inicial do RStudio Desktop®.
Figura 5 – Sobre a Linguagem R e RStudio Desktop®.
Figura 6 – Metodologia de Ciência de Dados.
Figura 7 – Conjunto de dados do openDataSUS.
Figura 8 – Dados e Recursos do conjunto de dados SRAG 2021 a 2023.
Figura 9 – Detalhes da pré-visualização do arquivo SRAG 2023 – 31/07.csv.
Figura 10 – Informações Adicionais do conjunto de dados.
Figura 11 – Os três arquivos texto do conjunto de dados.
Figura 12 – Análise inicial do conjunto de dados SRAG 2021 a 2023.
Figura 13 – Filtros, classificação, evolução do caso e data de óbito.
Figura 14 – Ficha de Notificação – Sinais e sintomas.
Figura 15 – Ficha de Notificação – Fatores de Risco/comorbidades.
Figura 16 – Tela principal do dashboard.
Figura 17 – Cabeçalho do dashboard.
Figura 18 – Rodapé do dashboard.
Figura 19 – Filtro do dashboard.
Figura 20 – Informações de totais de notificações COVID-19
Figura 21 – Gráfico de Faixa Etária.
Figura 22 – Gráfico de Gênero.
Figura 23 – Gráfico de Etnia.
Figura 24 – Gráfico de Escolaridade.
Figura 25 – Gráfico de Sinais e Sintomas.
Figura 26 – Gráfico de Fatores de Risco.
Figura 27 – Ranking de Sinais e Sintomas e Fatores de Risco.
Figura 28 – Informações gerais dos óbitos.
LISTA DE ABREVIATURAS
AED Análise Exploratória de Dados
IBGE Instituto Brasileiro de Geografia e Estatística
IEEE Instituto de Engenheiros Eletricistas e Eletrônicos
LInDa Laboratório de Inteligência de Dados – Unesp Bauru-SP
ODS Objetivos de Desenvolvimento Sustentável
OMS Organização Mundial de Saúde
ONU Organização das Nações Unidas
OPAS Organização Pan-Americana da Saúde
SRAG Síndrome Respiratória Aguda Grave
SUS Sistema Único de Saúde
UF Unidade federativa
UTI Unidade de Terapia Intensiva
SUMÁRIO
1 INTRODUÇÃO ...................................................................................................... 15
1.1 OBJETO .............................................................................................................. 18
1.2 PROBLEMA ........................................................................................................ 18
1.3 OBJETIVOS ........................................................................................................ 20
1.3.1 Objetivo Geral ................................................................................................... 20
1.3.2 Objetivos Específicos ........................................................................................ 20
1.4 JUSTIFICATIVA ................................................................................................ 21
2 REFERENCIAL TEÓRICO ................................................................................... 25
2.1 O fenômeno da COVID-19 no Brasil ................................................................... 25
2.2 A Ciência de Dados e a importância dos dados na tomada de decisão ............. 31
2.3 Dados Abertos no Brasil e o OpenDataSUS ....................................................... 33
2.4 A visualização de dados e os dashboards .......................................................... 35
2.5 A linguagem de programação R e o ambiente de desenvolvimento integrado
RStudio® ................................................................................................................... 38
2.6 A plataforma GitHub e a reprodutibilidade do método científico ......................... 47
3 METODOLOGIA ................................................................................................... 49
4 DESENVOLVIMENTO .......................................................................................... 51
4.1 Identificar o problema e a abordagem para resolvê-lo ........................................ 51
4.2 Definir métodos de coleta e requisitos ................................................................ 52
4.3 Entender e preparar os dados ............................................................................ 56
4.4 Gerar os modelos ............................................................................................... 63
4.5 Implantar o modelo ............................................................................................. 63
5 RESULTADOS ALCANÇADOS ........................................................................... 65
6 CONSIDERAÇÕES FINAIS .................................................................................. 72
REFERÊNCIAS ......................................................................................................... 75
ANEXO A – Ficha de Registro Individual – Casos de SRAG-Hospitalizado ............. 80
ANEXO B – Dicionário de dados – Ficha de Registro Individual .............................. 82
15
1 INTRODUÇÃO
A tecnologia da informação em constante evolução e desenvolvimento
transforma a sociedade e impõe oportunidades e desafios no cotidiano das pessoas.
A Internet como uma infraestrutura de conectividade global apresenta um ambiente
interligado e colaborativo, resultando na geração de grandes quantidades de dados
e informações.
Segundo a Agência de Notícias do IBGE (2022), a Internet já era acessível
em 90% dos domicílios do país em 2021 e teve um avanço considerável nos
acessos tanto na zona rural quanto na zona urbana. Um cenário de descobertas e
conhecimentos é gerado com este notável fluxo de informações.
O fenômeno da pandemia COVID-19 impactou mundialmente não somente
nas áreas biomédicas ou epidemiológicas, mas nas demais áreas como as sociais,
econômicas, políticas, culturais etc. Consequentemente, durante este período,
houve uma produção significativa de dados e informações de diferentes origens e
formatos.
No Brasil, a necessidade de políticas públicas, a definição de ações urgentes
e os incentivos às pesquisas científicas tornaram-se essenciais para a investigação
e definição das estratégias no enfrentamento à COVID-19 (FIOCRUZ, [s.d]).
A geração e a análise dos dados relacionados à COVID-19 são processos
desafiadores e fundamentais para o entendimento deste fenômeno. A Agência
Senado (2020) citou a importância do levantamento e análise dos dados durante a
pandemia:
Quando a pandemia acabar, ou tiver arrefecido os órgãos sanitários, as
universidades e os pesquisadores independentes terão ainda de fazer uma
cuidadosa escavação para determinar de fato o quanto a pandemia afetou a
população brasileira em seus mais variados contornos: desde a situação
social até a aspectos como a cor, o gênero e as doenças pré-existentes. O
que se têm como muito provável, até em razão do aumento incomum de
casos de Síndrome Respiratória Aguda Grave (SRAG) é que há muita
subnotificação.
Neste sentido o fenômeno da pandemia COVID-19, demonstrou claramente
que para o enfrentamento desta ameaça global, a sociedade e o poder público
precisaram de mais Ciência.
A extração, coleta e geração de informações com qualidade, transparência e
são essenciais para que o poder público possa entender os fenômenos, monitorar e
16
priorizar a utilização de seus recursos escassos, decidir sobre as políticas públicas e
para responder e explicar para a sociedade o que aconteceu neste período
emergencial (Agência Senado, 2020).
No entanto, segundo o Instituto Butantan (2022) com este ambiente
colaborativo de dados, enfrentamos outra pandemia que é a grande quantidade e
rápida disseminação das informações falsas. Essas informações são comparadas a
um vírus ou mesmo a uma pandemia, afetando a sociedade como um todo e
gerando confusão e transtornos.
Nesta perspectiva, por meio de uma política de dados abertos no Brasil vários
órgãos públicos já publicam seus dados na Internet demonstrando os resultados das
ações do governo e gerando efeitos importantes nas políticas públicas como a
transparência, a inclusão e a responsabilidade.
O conceito de Governo Digital no Brasil foi instituído pelo Decreto nº 8.777, de
11 de maio de 2016 e a gestão desta política cabe à Controladoria-Geral da União,
por meio da Infraestrutura Nacional de Dados Abertos – INDA (Decreto nº
9.903/2019) (Governo Digital – Dados Abertos, [s.d]).
A utilização dos dados abertos na investigação de fenômenos e tomada de
decisões públicas, se faz indispensável nos assuntos de extrema importância na
sociedade. Além disso, é imprescindível uma maior atenção com uma política de
dados que garanta não apenas quantidade, mas também qualidade visando à
eficiência do Estado (Agência Senado, 2020).
Em 2020, a pesquisadora da Universidade de São Paulo (USP) e
Coordenadora da Rede de Pesquisa Solidária1 Lorena Barberia, citou a importância
do poder público garantir dados abertos e detalhados para melhorar as medidas de
combate a COVID-19 e salvar vidas.
Os pesquisadores da Rede de Solidária já enfatizaram na época algumas
lacunas como a demora na divulgação dos dados pelo poder público, a motivação
política nas evidências deste fenômeno, a falta de padronização, qualidade e
confiança nas informações coletadas e demais preocupações que resultaram em
impactos severos na Ciência em relação ao entendimento deste fenômeno, na
1
A Rede de Pesquisa Solidária é uma iniciativa de pesquisadores pra calibrar o foco e aperfeiçoar a
qualidade de políticas públicas dos governos, estaduais e municipais que procuram atua em meio à
crise da COVID-19 para salvar vidas. Disponível em: . Acesso em: 24 jul. 2023.
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm
https://jornal.usp.br/ciencias/rede-de-pesquisa-solidaria-acesse-as-ultimas-noticias/
https://jornal.usp.br/ciencias/rede-de-pesquisa-solidaria-acesse-as-ultimas-noticias/
17
administração dos recursos do poder público, na definição de medidas adotadas em
caráter de urgência pelo governo.
Os pesquisadores concluíram que toda a sociedade precisa de mais Ciência e
do estudo dos dados, sendo que as lições aprendidas nesta pandemia, devem se
tornar respostas para a sociedade e auxiliar os gestores na definição de eficientes
políticas públicas (Agência Senado, 2020).
Visando atingir as características apontadas anteriormente de transparência,
integridade e disponibilidade, o governo brasileiro oferece uma plataforma
denominada openDataSUS2 que busca oferecer um repositório centralizado de
dados abertos do Ministério da Saúde, com informações que podem subsidiar
análises objetivas da situação sanitária, tomadas de decisão baseadas em
evidências e elaboração de programas de ações de saúde. Nesta plataforma
existem 30 conjuntos de dados disponíveis especificamente sobre a pandemia da
COVID-19.
Dessa forma, o principal objetivo deste estudo é desenvolver um painel visual,
que forneça informações atualizadas e consolidadas sobre os óbitos relacionados à
COVID-19 no Brasil, utilizando o conjunto de dados abertos disponibilizado e
mantido pelo Ministério da Saúde.
Esse painel visual, ou dashboard, oferece acesso público e gratuito às
informações sobre os óbitos de COVID-19 compiladas, permitindo visualizar a
identificação de evidências e padrões sobre a pandemia.
Para viabilizar este estudo, será realizada uma Análise Exploratória de Dados
(AED) com abordagem quantitativa e procedimentos estatísticos, seguindo a
estrutura definida na Metodologia de Ciência de Dados apresentada em Siddiqi
(2021).
O dashboard será construído com métodos e procedimentos computacionais,
estatísticos e gráficos existentes na linguagem de programação R3.
Esta ferramenta visual conterá gráficos, tabelas, e informações claras e
objetivas originadas de uma AED de um conjunto de dados abertos existente no
repositório de dados abertos e licenciados do Ministério da Saúde do Brasil (“SRAG
2
https://opendatasus.saude.gov.br/. Acesso em: 27 jul. 2023.
3
É uma linguagem de programação e um ambiente para desenvolvimento de ferramentas
computacionais que envolvem conceitos de estatísticas e apresentação de resultados em forma
gráfica. (Silva; Peres; Boscarioli, 2021).
https://opendatasus.saude.gov.br/
18
2021 a 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave - incluindo
dados da COVID-19 - OPENDATASUS”, [s.d.]).
Tratando-se do período pandêmico e da constante e rápida evolução da
tecnologia da informação, este estudo contribuirá na meta do Objetivo 3 da
Organização Mundial de Saúde (ONU). Este objetivo trata da Saúde e Bem-Estar e
busca assegurar uma vida saudável e promover o bem-estar para todas as pessoas,
em todas as idades.
1.1 OBJETO
Um painel visual e dinâmico de acesso público e gratuito, composto de dados
abertos4 consolidados.
1.2 PROBLEMA
Ao longo do tempo, a Internet e a constante evolução de tecnologias de
comunicação propiciaram um ambiente colaborativo e favorável à disseminação
rápida de informações. Neste contexto desafiador, o mundo foi impactado pela
pandemia COVID-19.
A Organização Mundial de Saúde (OMS) declarou este fenômeno como uma
emergência de saúde pública de importância internacional em 30 de janeiro de 2020,
o mais alto nível desta organização (OPAS, [s.d.]).
A COVID-19 afetou o mundo inteiro de forma sem precedentes, trazendo
impactos significativos na economia, na saúde pública, na sociedade em geral e no
bem-estar das pessoas. Trouxe um cenário de difícil controle para todas as esferas
da sociedade e principalmente para os sistemas nacionais de saúde pública
(FIOCRUZ, [s.d.]).
O Ministério da Saúde do Brasil ([s.d]) define:
A COVID-19 é uma infecção respiratória aguda causada pelo coronavírus
SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de
distribuição global. O SARS-CoV-2 é um betacoronavírus descoberto em
amostras de lavado broncoalveolar obtidas de pacientes com pneumonia de
causa desconhecida na cidade de Wuhan, província de Hubei, China, em
dezembro de 2019. Pertence ao subgênero Sarbecovírus da família
4
Metodologia para a publicação de dados do governo em formatos reutilizáveis e sob uma licença
aberta. (Governo Digital – Dados Abertos, [s.d.]).
19
Coronaviridae e é o sétimo coronavírus conhecido a infectar seres
humanos.
Uma das principais medidas para conter o contágio da COVID-19, foi o
distanciamento social que trouxe uma desordem significativa na saúde mental das
pessoas. Este impacto foi mitigado pela utilização da Internet e de softwares de
comunicação que permitiram o contato das pessoas com seus amigos e família,
além de possibilitarem o desenvolvimento do trabalho remoto e propiciarem reais
transformações na sociedade (World Health Organization, 2022).
Durante o período da pandemia, devido às restrições sanitárias, em
diferentes partes do planeta tivemos muitos dispositivos conectados, gerando uma
grande quantidade de dados. Com um ambiente propício para compartilhamentos,
tais dados desempenharam um papel essencial na geração de informações e
evidências importantes para monitoramento da propagação do vírus, além da
identificação de grupos de risco, avaliação de intervenções direcionadas e pesquisas
científicas.
As informações assim compartilhadas serviram principalmente para apoiar as
estratégias e tomada de decisões das autoridades de saúde pública e governos
referentes à priorização e gerenciamento dos recursos de saúde pública em face da
demanda urgente gerada pela pandemia (Agência Senado, 2020).
As informações falsas ou desinformações já existem há muito tempo, porém,
durante a pandemia foram tão ou mais destrutivas quanto o próprio vírus da COVID-
19. O excesso de informação dificultando a identificação das fontes, a agilidade das
redes sociais, a resistência das plataformas digitais em combater as notícias falsas e
as campanhas públicas de comunicação sobre a COVID-19 que caminharam a
passos lentos, colaboraram para a disseminação de desinformação sobre a
pandemia (Agência Senado, 2021).
As informações falsas causaram pânico e confusão em toda a sociedade.
Espalharam-se informações falsas sobre a origem da pandemia, os tratamentos e
curas, os métodos de prevenção, as vacinas, os contágios e muitos outros aspectos
(Instituto Butantan, 2022).
No entanto, a relutância de alguns governos em divulgar dados precisos e
oportunos destaca os desafios em alcançar práticas de dados verdadeiramente
abertas e transparentes, especialmente durante momentos de crise.
20
Em resposta a esses desafios, organizações da sociedade civil,
pesquisadores e ativistas de dados desempenharam um papel crucial na defesa dos
princípios de dados abertos e na responsabilização dos governos por suas práticas
de dados.
Seus esforços destacaram a importância dos dados abertos não apenas no
combate à pandemia da COVID-19, mas também na promoção de uma maior
confiança, transparência e responsabilidade nas ações governamentais e nos
processos de tomada de decisão.
Em resposta a esses desafios, organizações da sociedade civil,
pesquisadores e ativistas de dados desempenharam um papel crucial na defesa dos
princípios de dados abertos e na responsabilização dos governos por suas práticas
de dados. Seus esforços destacaram a importância dos dados abertos não apenas
no combate à pandemia da COVID-19, mas também na promoção de uma maior
confiança, transparência e responsabilidade nas ações governamentais e nos
processos de tomada de decisão.
Diante dessa problemática, esse trabalho propõe o desenvolvimento de uma
ferramenta e/ou painel visual, de acesso público e gratuito, que conterá informações
consolidadas e sistematizadas, originárias de dados abertos e licenciados, sobre
óbitos no contexto da COVID-19 no Brasil, no período de 2021 a 2023, utilizando a
Ciência de Dados e métodos científicos de Análise Exploratória de Dados.
1.3 OBJETIVOS
1.3.1 Objetivo Geral
Desenvolver uma ferramenta sistematizada e visual de acesso público e
gratuito, denominado dashboard, que disponibilizará informações consolidadas de
um conjunto de dados abertos do Ministério da Saúde sobre os óbitos durante a
COVID-19 no Brasil.
1.3.2 Objetivos Específicos
21
Desenvolver/sistematizar uma Análise Exploratória de Dados e uma
metodologia de Ciência de Dados5 utilizando um conjunto de dados
abertos sobre a COVID-19 disponível no repositório de dados abertos
do Ministério da Saúde;
Estudar a linguagem de programação R e sua aplicação na Análise
Exploratória de Dados e no desenvolvimento de dashboards;
Desenvolver um dashboard, composto de filtros, gráficos e tabelas,
para visualização de informações originadas da Análise Exploratória de
Dados;
Disponibilizar a documentação desse estudo e o código-fonte da
linguagem de programação R, em um repositório online e público
denominado GitHub6, para atender a reprodutibilidade da pesquisa;
Disponibilizar o dashboard na Internet para acesso público e gratuito.
1.4 JUSTIFICATIVA
Os dados constituem a matéria-prima deste estudo. Segundo Amaral (2016),
é fundamental compreender os conceitos de dados, informações e o conhecimento.
Os dados representam fatos ou valores coletados e normalmente armazenados. As
informações, por sua vez, são os dados que foram analisados, consolidados e
adquiriram algum significado. Já o conhecimento é a informação entendida por meio
de algum raciocínio e aplicada para alguma finalidade.
Nos dias atuais, a tecnologia da informação está transformando nossa
sociedade de forma rápida e abrangente, gerando dados em grande volume e por
meio de uma variedade de dispositivos existentes. Para aproveitar os benefícios
desta matéria-prima bruta, os dados devem ser coletados, analisados, preparados e
visualizados de maneira a resultar em informações claras, objetivas e precisas para
uma compreensão certeira dos fatos e para embasar tomadas de decisões eficazes
(Favero et al, 2009).
5
Trata-se de uma Ciência para obter informação e conhecimento de forma sistemática, bem como
normalizar e organizar este conhecimento. Estuda o dado em todo o seu ciclo de vida (AMARAL,
2021).
6
É uma plataforma mundial de hospedagem de código-fonte e arquivos com controle de versão
Git. Permite que qualquer usuário cadastrado contribua em projetos privados. Utilizada para
divulgação de trabalhos ou para prover um ambiente colaborativo para projetos. Disponível em
(GITHUB, 2022).
https://pt.wikipedia.org/wiki/Sistema_de_controle_de_vers%C3%B5es
https://github.com/
22
Neste contexto, a pandemia da COVID-19 evidenciou a necessidade de uma
abordagem baseada na Ciência para enfrentar essa ameaça global. A geração de
informações com qualidade, transparência e com rapidez torna-se fundamental para
que o poder público compreenda este fenômeno, monitore e priorize a utilização de
recursos escassos, decida sobre políticas públicas e possa responder
adequadamente e explicar à sociedade o que ocorreu neste fenômeno emergencial
(Agência Senado, 2020).
Já uma grande oportunidade deste trabalho reside na utilização do repositório
de dados do Ministério da Saúde do Brasil, para enfatizar a importância da utilização
de dados abertos, certificados e públicos mantidos pelo governo e sob sua guarda.
Este enfoque visa promover a transparência e a divulgação das informações,
contribuindo para o combate à desinformação.
Como observado pelo Instituto Butantan (2022), a rápida disseminação das
informações falsas é compatível com um vírus ou até mesmo com uma pandemia.
Esta pesquisa contribui para os Objetivos de Desenvolvimento Sustentável
(ODS) da Organização das Nações Unidas (ONU). Alinha-se com o Objetivo Número
3 - Saúde e Bem-Estar da ONU, que visa garantir o acesso à saúde de qualidade e
promover o bem-estar para todos, em todas as idades. No item 3.d deste objetivo,
consta: “3.d Reforçar a capacidade de todos os países, particularmente os países
em desenvolvimento, para o alerta precoce, redução de riscos e gerenciamento de
riscos nacionais e globais de saúde” (ONU, [s.d.]).
Ao utilizar dados abertos e públicos do Ministério da Saúde do Brasil para
analisar e visualizar informações sobre a mortalidade relacionada à COVID-19, esta
pesquisa contribui diretamente para fortalecer a capacidade de alerta precoce e
gerenciamento de riscos de saúde em níveis nacionais e globais.
Para avançar nesse objetivo, a pesquisa desenvolverá uma ferramenta visual
de acesso público, transparente e objetiva. Esta ferramenta divulgará informações
geradas por meio de uma metodologia de Ciência de Dados utilizando dados
abertos e consistentes para a descoberta de padrões e tendências.
Ao disponibilizar estas informações, este estudo visa apoiar prováveis
tomadas de decisões e a formulação de políticas públicas urgentemente necessárias
para a redução de riscos nacionais e globais de saúde.
23
Com o intuito de atrair atenção e garantir a qualidade da análise, a pesquisa
será composta de uma Análise Exploratória de Dados, realizada utilizando a
linguagem de programação R.
De acordo com a Sage Campus (2019), essa linguagem é amplamente
empregada nas universidades e oferece recursos computacionais avançados de
visualização de dados, habilidades em Ciência de Dados e supercompatibilidade
com outras tecnologias. Um dos pontos-chave que torna a linguagem de
programação R tão valiosa é a possibilidade de garantir a reprodutibilidade dos
resultados, um dos princípios fundamentais da pesquisa científica.
Utilizando dados da Prefeitura de Bauru, cidade do interior do estado de São
Paulo, no início de 2021, o Portal G1 (2021) divulgou que 47 pessoas haviam
morrido na fila de espera por um leito de UTI ou enfermaria.
Posto isso, também se faz necessário elencar que esta pesquisa comporta
também uma motivação pessoal, pois, neste período citado da pandemia de
COVID-19, um amigo perdeu a vida devido à falta de leitos no Sistema Único de
Saúde no município.
Este pesquisador mantinha próxima convivência semanal com este amigo,
pois participamos de uma equipe esportiva amadora do Sport Club Corinthians
Paulista, e frequentemente viajávamos para as competições.
Esta perda pessoal, juntamente com outras vidas perdidas, destaca a
urgência e a importância de compreender os desafios enfrentados pelo sistema de
saúde durante a pandemia. Motivou o empenho em contribuir com soluções para
enfrentar esses desafios.
Deve-se ressaltar também que a pesquisa compõe um projeto maior chamado
Impactos da COVID-19 no Ensino Superior do Brasil existente no Grupo de
Pesquisa LInDa7. Ao fazer parte deste projeto, a presente pesquisa se beneficia do
ambiente colaborativo e dos recursos disponíveis no grupo de pesquisa e no
Programa de Pós-graduação em Mídia e Tecnologia da FAAC-UNESP/Bauru.
Portanto, essas razões serão os principais pilares que guiaram este trabalho.
Ao integrar a necessidade de compreender os desafios enfrentados durante a
pandemia, bem como a motivação pessoal oriunda de uma experiência impactante,
7
O Laboratório de Inteligência de Dados – LinDa da Unesp de Bauru-SP, tem como objetivo realizar
pesquisas relacionadas à Ciência de Dados, e em particular, estudar estruturas de dados onde seja
possível extrair "inteligência". Disponível em < http://dgp.cnpq.br/dgp/espelhogrupo/379670>. Acesso
em: 17 jul. 2023.
http://dgp.cnpq.br/dgp/espelhogrupo/379670
24
a pesquisa busca contribuir significativamente para o conhecimento sobre a
importância dos dados abertos na geração das informações para ações destinadas a
enfrentar os desafios de saúde pública e de toda a sociedade.
25
2 REFERENCIAL TEÓRICO
2.1 O fenômeno da COVID-19 no Brasil
No final de 2019, a OMS recebeu um alerta de vários casos de pneumonia na
cidade de Wuhan, na República Popular da China. Uma semana após o alerta, os
chineses identificaram esse novo tipo de coronavírus. Os coronavírus são a principal
causa do resfriado comum e raramente causam doenças graves nos seres
humanos. No entanto, esses casos foram atribuídos a um novo tipo de coronavírus,
posteriormente chamado de SARS-Cov2, responsável pela COVID-19 (OPAS,
[s.d.]).
Em janeiro de 2020, a OMS declarou que o surto do novo coronavírus
constituía uma emergência de saúde pública de importância internacional, o mais
alto nível de alerta desta organização. No mês de março de 2020, a COVID-19 foi
caracterizada como uma pandemia, este termo se refere à distribuição geográfica de
uma doença e não a sua gravidade. Esta denominação refletiu na necessidade de
ações coordenadas em nível internacional para enfrentar esta crise de saúde pública
(OPAS, [s.d.]).
Sobre o coronavírus e a COVID-19, o Ministério da Saúde do Brasil ([s.d.])
comentou:
Os coronavírus são uma grande família de vírus comuns em muitas
espécies diferentes de animais, incluindo o homem, camelos, gado, gatos e
morcegos. Raramente os coronavírus de animais podem infectar pessoas e
depois se espalhar entre seres humanos como já ocorreu com o MERS-CoV
e o SARS-CoV-2. Até o momento, não foi definido o reservatório silvestre do
SARS-CoV-2.
A Covid-19 é uma infecção respiratória aguda causada pelo coronavírus
SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de
distribuição global. O SARS-CoV-2 é um betacoronavírus descoberto em
amostras de lavado broncoalveolar obtidas de pacientes com pneumonia de
causa desconhecida na cidade de Wuhan, província de Hubei, China, em
dezembro de 2019. Pertence ao subgênero Sarbecovírus da família
Coronaviridae e é o sétimo coronavírus conhecido a infectar seres
humanos.
No Brasil o fenômeno da pandemia de COVID-19 teve início em 26 de janeiro
de 2020 com a confirmação do primeiro caso no Estado de São Paulo (“Pandemia
de COVID-19 no Brasil”, 2022).
Assim, na primeira semana de março de 2020 os casos de infecção foram
confirmados em São Paulo, Bahia, Rio de Janeiro, Distrito Federal e Espírito Santo.
26
Quando da decretação oficial da pandemia pela Organização Mundial de Saúde, o
Brasil já registrava mais de cem casos e em poucos dias o Ministério da Saúde do
Brasil anunciou a transmissão comunitária em todo o território.
A pandemia evoluiu em ondas ou fases, com o surgimento de novas variantes
do vírus infeccioso que causaram uma aumento nos casos. O pico da primeira onda
aconteceu em meados de 2020, enquanto uma nova onda, mais grave, atingiu o
Brasil em março de 2021.
Mesmo com o início das vacinações, ocorreu uma terceira escalada no início
de 2022, devido a uma nova variante difundida no exterior. Após um período de
diminuição da terceira onda, houve um aumento de casos e hospitalizações em
outubro de 2022, relacionado a uma sub variante do vírus (“Pandemia de COVID-19
no Brasil”, 2022).
Neste período desafiador, o sistema de saúde do Brasil em 2021 passou por
uma séria crise sanitária devido a mortes em filas de espera por leitos,
desabastecimentos de produtos de oxigênio e equipamentos para intubação.
Durante esse período a FIOCRUZ ([s.d]) comentou:
A estimativa de infectados e mortos concorre diretamente
com o impacto sobre os sistemas de saúde, com a
exposição de populações e grupos vulneráveis, a
sustentação econômica do sistema financeiro e da
população, a saúde mental das pessoas em tempos de
confinamento e temor pelo risco de adoecimento e morte,
acesso a bens essenciais como alimentação,
medicamentos, transporte, entre outros.
No âmbito da Saúde, neste período pandêmico afetou principalmente os
profissionais, auxiliares ou técnicos de enfermagem, pois estavam na linha de frente
do enfrentamento com carga de trabalho intensificada, problemas de saúde mental e
exposição ao vírus (“Pandemia de COVID-19 no Brasil”, 2022).
A falta de suprimentos, profissionais, leitos e equipamentos no contexto
operacional gerou um caos hospitalar nacional e até mesmo impactou nos serviços
funerários. Na primeira quinzena de março de 2021, 24 estados apresentaram taxas
de ocupação de leitos de UTI superiores a 80% (“Pandemia de COVID-19 no Brasil”,
2022).
Todo este fenômeno atingiu também a rotina diária da área da Saúde,
atrasando e cancelando atendimentos, diagnósticos, calendário de vacinas e os
27
tratamentos das demais doenças, além de agravar seriamente a saúde mental de
todas as pessoas.
Na economia a pandemia impactou diretamente o emprego e a renda da
população. As ações de combate à pandemia principalmente o distanciamento social
resultaram em demissões nas empresas e reações em todo o mercado de trabalho
(“Pandemia de COVID-19 no Brasil”, 2022).
O Congresso Nacional do Brasil aprovou um programa emergencial de
manutenção de empregos possibilitando: a suspensão do contrato de trabalho, a
redução da jornada e dos salários (“Pandemia de COVID-19 no Brasil”, 2022).
Também aprovou o auxílio emergencial, um programa de transferência de renda
mínima aos mais vulneráveis, para aliviar os impactos do mercado de trabalho, das
medidas sanitárias, da pressão inflacionária dos alimentos e o comprometimento do
orçamento das famílias menos favorecidas.
Tratando-se do governo, todas estas ações emergenciais executadas
trouxeram despesas que resultaram em um aumento da dívida pública (“Pandemia
de COVID-19 no Brasil”, 2022).
A pandemia também alterou a rotina dos estudantes no Brasil, afetando o
sistema educacional nos mais diversos níveis de aprendizado com a paralisação das
aulas em todo o território nacional. O Brasil foi o país que manteve escolas por mais
tempo fechadas em 2020 (“Pandemia de COVID-19 no Brasil”, 2022).
Nas universidades públicas os calendários foram alterados e em muitas
instituições privadas as férias foram antecipadas, porém com a impossibilidade de
aulas presenciais as instituições educacionais adotaram a educação à distância.
Esta modalidade de ensino resultou em uma continuidade da educação, porem
evidenciou mais ainda a desigualdade social no Brasil. Os alunos mais prejudicados
com a pandemia foram os alunos em fase de alfabetização (“Pandemia de COVID-
19 no Brasil”, 2022).
Como os demais setores, a cultura e o turismo tiveram atividades paralisadas.
Na cultura, o cancelamento de shows, estabelecimentos fechados e o
distanciamento social resultaram em demissões, encerramento de empresas
especializadas, queda de faturamento e principalmente o aumento da desigualdade
social da sociedade brasileira (“Pandemia de COVID-19 no Brasil”, 2022).
Quanto ao turismo, a pandemia diminuiu o número de turistas internacionais e
resultou em certo aumento no turismo interno no decorrer deste período pandêmico.
28
Vale citar que o setor aéreo sofreu por ter a frota parada devido ao fechamento das
fronteiras (“Pandemia de COVID-19 no Brasil”, 2022).
Todos estes efeitos abalaram o setor do turismo e cultura, e principalmente
repercutiram no capital humano envolvido nessas atividades (“Pandemia de COVID-
19 no Brasil”, 2022).
A taxa de mortalidade ou coeficiente de mortalidade é um índice demográfico
que indica o número de mortes registradas. Torna-se um indicador social importante,
pois quanto piores as condições de vida, maior a taxa de mortalidade e
consequentemente menor a esperança de vida das pessoas. Esta taxa é aplicada
em conjunto com as causas de óbitos e o tamanho da população afetada por esta
causa (Taxa de Mortalidade, 2023).
A gravidade de uma doença pode ser descrita pela Taxa de Mortalidade por
Infecção, que é um percentual calculado: dividir o número de mortes pela doença
dividido pelo número de indivíduos infectados, esse resultado deve ser multiplicado
por cem. O monitoramento em tempo real desta tendência de gravidade precisa ser
realizado com os dados disponíveis e de forma prioritária (OPAS, 2020).
Referente à COVID-19 e o excesso de mortalidade, a OPAS (2022) comenta:
O excesso de mortalidade inclui mortes associadas diretamente à COVID-
19 (devido à doença) ou indiretamente (devido ao impacto da pandemia nos
sistemas de saúde e na sociedade). As mortes ligadas indiretamente à
doença são atribuíveis a outras condições de saúde para as quais as
pessoas não tiveram acesso à prevenção e tratamento porque os sistemas
de saúde foram sobrecarregados pela pandemia. O número estimado de
mortes em excesso pode ser influenciado também pelas mortes evitadas
durante a pandemia devido aos menores riscos de determinados eventos,
como acidentes no trânsito ou acidentes de trabalho.
O atendimento adequado para os casos confirmados ou suspeitos da COVID
dependem do reconhecimento precoce das condições, fatores de risco e
comorbidades. Estes aspectos foram constantemente mudando o cenário
epidemiológico da COVID-19. O Ministério da Saúde (2021) citou:
Em decorrência da pandemia da covid-19 e consequente aumento da
demanda assistencial sobre o Sistema Único de Saúde (SUS), o MS reforça
que a organização da rede de atenção e dos fluxos deve estar bem
estabelecida tanto para pessoas com síndrome gripal (SG), causada ou não
pela covid-19, quanto para as que necessitem de acompanhamento por
outras condições e agravos de saúde, como outras doenças transmissíveis,
doenças crônicas e situações de vulnerabilidade e sofrimento psíquico,
garantindo a continuidade do cuidado pelos serviços de saúde.
https://www.who.int/publications/i/item/WHO-2019-nCoV-EHS_continuity-survey-2022.1
https://www.who.int/publications/i/item/WHO-2019-nCoV-EHS_continuity-survey-2022.1
29
O tema “Saúde e Bem-Estar” citado no Objetivo Sustentável número 3 dos
Objetivos de Desenvolvimento Sustentável (ODS) da Organização Mundial da
Saúde foi evidentemente o mais impactado (Observatório do Futuro, 2021).
Segundo o Observatório do Futuro (2021) essa crise sanitária que causou
interrupções e lentidão nos serviços de saúde pode reverter décadas de avanços na
qualidade de saúde da população mundial. Existe um consenso de que o Sistema
Único de Saúde (SUS) atuou com maestria para o enfrentamento da trajetória desta
pandemia. As consequências para este sistema demonstraram que investimentos
em infraestrutura e capacitação devem ser repensados urgentemente, pois o acesso
à saúde deve estar disponível para todos independente da doença e de eventuais
fenômenos de emergência.
O Objetivo Desenvolvimento Sustentável número 38 da ONU tem como
objetivo principal: garantir o acesso à saúde de qualidade e promover o bem-estar
para todos, em todas as idades e contém os seguintes itens:
a) 3.1 Até 2030, reduzir a taxa de mortalidade materna global para
menos de 70 mortes por 100.000 nascidos vivos;
b) 3.2 Até 2030, acabar com as mortes evitáveis de recém-nascidos e
crianças menores de 5 anos, com todos os países objetivando reduzir
a mortalidade neonatal para pelo menos 12 por 1.000 nascidos vivos e
a mortalidade de crianças menores de 5 anos para pelo menos 25 por
1.000 nascidos vivos;
c) 3.3 Até 2030, acabar com as epidemias de AIDS, tuberculose, malária
e doenças tropicais negligenciadas, e combater a hepatite, doenças
transmitidas pela água, e outras doenças transmissíveis;
d) 3.4 Até 2030, reduzir em um terço a mortalidade prematura por
doenças não transmissíveis via prevenção e tratamento, e promover a
saúde mental e o bem-estar;
e) 3.5 Reforçar a prevenção e o tratamento do abuso de substâncias,
incluindo o abuso de drogas entorpecentes e uso nocivo do álcool;
f) 3.6 Até 2020, reduzir pela metade as mortes e os ferimentos globais
por acidentes em estradas;
8
Disponível em: . Acesso em: 27 jul. 2023.
https://brasil.un.org/pt-br/sdgs/3
30
g) 3.7 Até 2030, assegurar o acesso universal aos serviços de saúde
sexual e reprodutiva, incluindo o planejamento familiar, informação e
educação, bem como a integração da saúde reprodutiva em
estratégias e programas nacionais;
h) 3.8 Atingir a cobertura universal de saúde, incluindo a proteção do
risco financeiro, o acesso a serviços de saúde essenciais de qualidade
e o acesso a medicamentos e vacinas essenciais seguros, eficazes,
de qualidade e a preços acessíveis para todos;
i) 3.9 Até 2030, reduzir substancialmente o número de mortes e doenças
por produtos químicos perigosos, contaminação e poluição do ar e
água do solo
j) 3.a Fortalecer a implementação da Convenção-Quadro para o
Controle do Tabaco em todos os países, conforme apropriado;
k) 3.b Apoiar a pesquisa e o desenvolvimento de vacinas e
medicamentos para as doenças transmissíveis e não transmissíveis,
que afetam principalmente os países em desenvolvimento,
proporcionar o acesso a medicamentos e vacinas essenciais a preços
acessíveis, de acordo com a Declaração de Doha, que afirma o direito
dos países em desenvolvimento de utilizarem plenamente as
disposições do acordo TRIPS sobre flexibilidades para proteger a
saúde pública e, em particular, proporcionar o acesso a medicamentos
para todos;
l) 3.c Aumentar substancialmente o financiamento da saúde e o
recrutamento, desenvolvimento e formação, e retenção do pessoal de
saúde nos países em desenvolvimento, especialmente nos países
menos desenvolvidos e nos pequenos Estados insulares em
desenvolvimento;
m) 3.d Reforçar a capacidade de todos os países, particularmente os
países em desenvolvimento, para o alerta precoce, redução de riscos
e gerenciamento de riscos nacionais e globais de saúde.
31
Figura 1: Objetivo de Desenvolvimento Sustentável número 3 da ONU.
Fonte: Adaptação de ONU ([s.d.]).
2.2 A Ciência de Dados e a importância dos dados na tomada de decisão
Os conceitos de dados, informação e conhecimento são confundidos como
sinônimos, mas no contexto de Ciência de Dados, eles têm significados distintos. De
acordo com Silva, Peres e Boscarioli (2021), os dados são fatos, valores ou
resultados de uma medição. Quando estes dados são interpretados e um significado
é atribuído a eles, gera-se a informação. Já o conhecimento é a informação
interpretada e aplicada para um determinado fim. Esses conceitos formam as
matérias-primas para a Ciência de Dados.
Conforme observado por Gil (2008), os dados são de extrema importância em
todas as etapas de um processo de investigação. Eles fornecem a base para a
fundamentação teórica, a análise e interpretação dos resultados, a possibilidade
para fazer inferências e identificar padrões.Os dados representam uma fonte
relevante para tomada de decisões e, principalmente atuam como fonte de
conhecimento, ao possibilitar correlações, evidências, teorias, hipóteses e direções
de uma pesquisa.
A Ciência de Dados é uma Ciência ou disciplina interdisciplinar, que estuda os
dados em todo o seu ciclo de vida, desde a produção até o descarte. Este ciclo de
vida do dado compreende as etapas de: produção, armazenamento, transformação,
análise e descarte dos dados. A Ciência de Dados busca extrair informação e
conhecimento por meio de processos, modelos e tecnologias, além de organizar
este conhecimento (Amaral, 2016).
Escovedo e Koshiyama (2020) comentaram:
32
O conceito de Data Science (ou Ciência de Dados), por sua vez, é mais
amplo: refere-se à coleta de dados de várias fontes para fins de análise,
com o objetivo de apoiar a tomada de decisões, utilizando geralmente
grandes quantidades de dados, de forma sistematizada. Quase sempre,
além de olhar para os dados passados para entender o comportamento dos
mesmos (atividade conhecida como Business Intelligence - BI), deseja-se
também realizar análises de forma preditiva, por exemplo, utilizando
técnicas de Data Mining e/ou Machine Learning.
Já a Análise Exploratória de Dados (AED) tem como principal objetivo gerar
hipóteses, aplicar métodos estatísticos e descobrir padrões, correlações e
tendências preliminares nos dados (Favero et al, 2009).
Segundo IBM ([s.d.]), a AED possibilita um melhor entendimento dos dados,
colaborando para a identificação de padrões, eventos anômalos e relações. Além
disso, a AED pode garantir que os resultados produzidos sejam válidos e aplicáveis.
Na AED, várias técnicas estatísticas podem ser usadas, incluindo
agrupamentos, filtros, seleção, medidas estatísticas descritivas, correlação entre
variáveis, regressão linear, modelos preditivos, entre outras.
De acordo com IBM ([s.d.]) existem quatro tipos de análise exploratória de
dados:
a) Não gráfico univariado. É a forma mais simples, consiste em apenas
uma variável e sem imagens;
b) Gráfico univariado. Fornece imagens dos dados, com gráficos
univariados como histograma, gráficos de caixa que representam
mínimo, primeiro quartil, mediana, terceiro quartil e máximo;
c) Não Gráfico multivariado. Utiliza mais de uma variável por meio de
tabulação cruzada e estatística, não possui imagem;
d) Gráfico Multivariado. Correlaciona dados de um ou mais conjunto de
dados, utilizando gráficos de barras agrupadas ou nivelados por
variáveis. Também pode conter gráficos de dispersão, gráfico de
bolhas ou mapa de calor.
Segundo o Blog Sirius Educação (2022), o processo de tomada de decisão
envolve a definição de um plano para resolver um problema específico. Os
responsáveis por essa definição precisam ter um amplo conhecimento para elaborar
33
planos mais assertivos e funcionais. Essa definição é dinâmica e requer a
interpretação e a junção de muitas informações.
A precipitação em um processo de tomada de decisões pode resultar em
retrabalho, interrupção de projetos, prejuízo, desperdício de recursos e até mesmo
afetar a motivação e a orientação das pessoas envolvidas no processo. Este
processo possui cinco fases: identificação do problema; coleta de dados; análise de
estratégias; definição de melhor alternativa; e a execução.
A coleta, análise e visualização dos dados são essenciais neste processo,
fornecendo informações concretas e certeiras que possibilitam a obtenção de
conhecimentos, monitoramento, previsões e, principalmente, a identificação de
oportunidades ou desafios. A Ciência de Dados desempenha um papel fundamental
neste processo, ajudando na definição do plano a ser seguido.
2.3 Dados Abertos no Brasil e o OpenDataSUS
Dados abertos é uma metodologia ou procedimento para divulgação de dados
do governo em formatos digitais, permitindo que qualquer pessoa os utilize, reutilize
e distribua sem a necessidade de restrições técnicas, legais ou sociais (Open
Knowledge Foundation, [s.d]).
A Open Knowledge Foundation ([s.d]) comenta que os dados podem ser
considerados abertos quando:
Qualquer pessoa pode acessar, usar, modificar e compartilhar
livremente para qualquer finalidade (sujeito a, no máximo, a
requisitos que preservem a proveniência e a sua abertura). Isso
geralmente é satisfeito pela publicação dos dados em formato
aberto e sob uma licença aberta.
A OpenKnowledge Foundation9 é uma organização sem fins lucrativos
fundada em 2004, que trabalha na intersecção de ferramentas digitais e uma rede
distribuída de comunidades e movimentos para promover o conhecimento aberto.
Sua missão é criar um futuro, justo, sustentável e aberto, promovendo o
conhecimento aberto e desenvolvendo modelos, padrões e políticas de forma ética e
ágil. Assim, acredita que o conhecimento aberto deve ser adotado por todos os
governos, instituições e movimentos. Essa adoção garantirá o acesso às
9
https://okfn.org/. Acesso em: 27 jul. 2023.
http://opendefinition.org/licenses/
https://okfn.org/
34
informações para capacitar os seres humanos a resolver problemas urgentes no
futuro (Open Knowledge Foundation, [s.d]).
No Brasil o Poder Executivo definiu a política de Dados Abertos pelo Decreto
nº 8.777, de 11 de maio de 201610. O gestor desta política federal a Controladoria-
Geral da União por meio da Infraestrutura de Dados Abertos – INDA (Decreto nº
9.903/201911).
Diversos órgãos da administração pública já adotam a metodologia de dados
abertos para publicar suas informações na Internet (Governo Digital – Dados
Abertos, [s.d.]).
Alguns efeitos dos dados abertos governamentais nas políticas públicas são:
a) Inclusão. Os dados disponibilizados em formatos padronizados
permitem que qualquer pessoa utilize softwares para análises e
demais necessidades;
b) Transparência. As informações das políticas públicas abertas e
acessíveis contribuem para a transparência e no uso adequado das
informações;
c) Responsabilidade: Os conjuntos de dados abertos, comunicam
informações e opiniões sobre o cumprimento das políticas públicas e
suas metas.
De acordo com o Portal de Dados Abertos – Ministério da Saúde ([s.d]) no
âmbito do Poder Executivo Federal, o órgão responsável pela organização e
elaboração de planos e políticas públicas voltadas para a assistência à saúde dos
brasileiros é o Ministério da Saúde.
O Ministério da Saúde tem como principal função proporcionar uma melhor
qualidade de vida à sociedade brasileira, mediante proteção e recuperação da saúde
da população, redução de enfermidades, controle de doenças endêmicas e
parasitárias, e aprimorar a vigilância à saúde. Sua missão é promover a saúde da
população por meio da integração e parcerias com as unidades da Federação, os
10
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm. Acesso em: 27 jul.
2023.
11
https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1.Acesso em: 27
jul. 2023.
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm
https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1
https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm
https://www.planalto.gov.br/ccivil_03/_Ato2019-2022/2019/Decreto/D9903.htm#art1
35
municípios, a iniciativa privada e a sociedade (Portal de Dados Abertos –
MINISTÉRIO DA SAÚDE, [s.d]).
O repositório ou plataforma online de dados abertos do Ministério da Saúde,
chama-se openDataSUS12. Esta plataforma é uma iniciativa do Ministério da Saúde
para disponibilizar informações com transparência, responsabilidade e inclusão.
Nesta plataforma existem 30 conjuntos de dados disponíveis, abrangendo
vários temas como saúde, epidemiologia, serviços e indicadores de saúde, entre
outros. A plataforma openDataSUS tem como definição:
O DATASUS disponibiliza informações que podem servir para subsidiar
análises objetivas da situação sanitária, tomadas de decisão baseadas em
evidências e elaboração de programas de ações de saúde.
A mensuração do estado de saúde da população é uma tradição em saúde
pública. Teve seu início com o registro sistemático de dados de mortalidade
e de sobrevivência (Estatísticas Vitais – Mortalidade e Nascidos Vivos).
Com os avanços no controle das doenças infecciosas (informações
Epidemiológicas e Morbidade) e com a melhor compreensão do conceito de
saúde e de seus determinantes populacionais, a análise da situação
sanitária passou a incorporar outras dimensões do estado de saúde. Dados
de morbidade, incapacidade, acesso a serviços, qualidade da atenção,
condições de vida e fatores ambientais passaram a ser métricas utilizadas
na construção de Indicadores de Saúde, que se traduzem em informação
relevante para a quantificação e a avaliação das informações em saúde.
Nesta seção também são encontradas informações sobre Assistência à
Saúde da população, os cadastros (Rede Assistencial), das redes
hospitalares e ambulatoriais, o cadastro dos estabelecimentos de saúde,
além de informações sobre recursos financeiros e informações
Demográficas e Socioeconômicas. Além disso, em Saúde Suplementar, são
apresentados links para as páginas de informações da Agência Nacional de
Saúde Suplementar – ANS (OPENDATASUS, [s.d]).
2.4 A visualização de dados e os dashboards
Sobre visualização de dados, a Oracle (2014) comentou:
Peneirar informações para entender o que importa e o que não importa está
se tornando mais difícil. O visual torna a análise muito mais fácil e rápida e
oferece a capacidade de ver de relance o que é importante. Além disso, a
maioria das pessoas responde muito melhor aos recursos visuais do que ao
texto - 90% das informações enviadas ao cérebro são visuais, e o cérebro
processa os recursos visuais a 60.000 vezes a velocidade do texto. Esses
pontos são um forte argumento para o uso da visualização de dados para
analisar e transmitir informações.
12
https://opendatasus.saude.gov.br/. Acesso em: 27 jul. 2023.
https://www.oracle.com/br/business-analytics/data-visualization/capabilities.html
https://opendatasus.saude.gov.br/
36
A visualização de dados é uma metodologia essencial para análises
avançadas, conceituada pela Oracle (2014) como fundamental na inteligência de
negócios. Para que as pessoas ou organizações compreendam todas as
informações geradas, os dados podem ser representados de forma gráfica ou por
meio de outras apresentações visuais. Uma visualização de dados bem elaborada
não apenas comunica as informações de forma eficaz, mas também desperta a
atenção e o interesse em um determinado assunto. Além disso, é fundamental para
descobrir percepções que embasam um plano de tomada de decisão.
A visualização de dados não é um conceito novo, mas tem evoluído com o
advento de novas tecnologias, diversidade de dispositivos conectados, integração
com grandes conjuntos de dados e com uma enorme variedade de interfaces. Essa
evolução apresenta novos métodos e funcionalidades, tais como gráficos dinâmicos,
mapas em tempo real e outras ferramentas interativas e personalizáveis.
De acordo com Peng (2016), a visualização dos dados por meio de gráficos e
demais funcionalidades visuais é muito importante nas etapas iniciais da análise dos
dados, ajudando a compreender as propriedades básicas dos dados, identificar
padrões e apontar possíveis estratégias para um modelo de tratamento dos dados.
Além disso, durante as fases da análise, os métodos de visualização dos dados são
úteis para depurar problemas e definir ajustes na preparação e tratamento dos
resultados finais da análise de dados.
Amaral (2015) discutiu a importância da visualização de dados por meio de
um dashboard, destacando-a como um modelo analítico apropriado para a análise
de dados:
Dashboards são painéis visuais que mostram
indicadores de um mesmo assunto. Trazem informação
resumida, normalmente de cunho estratégico ou geral,
mas também têm aplicações nas áreas operacionais.
Oferece características de navegação de dados, como
filtros, drill downs e drill ups. Embora não deva conter
detalhes, pode trazer os melhores ou piores. Também
pode conter indicadores de performance.
Segundo Few (2013), dashboard é o novo nome dos sistemas de informações
executivas desenvolvidos nos anos 1980. Esses sistemas eram baseados em
painéis digitais que apresentavam indicadores ou medidas financeiras de fácil
acesso para o entendimento dos executivos.
37
Desta forma, os dashboards oferecem a possibilidade de contar história por
meio de dados gerados de diversas fontes e em grandes quantidades. Eles
desempenham um papel fundamental na descoberta de padrões, informações
anômalas ou discrepantes e até mesmo na previsão de tendências, conforme
afirmado por Amaral (2015).
Nos anos 1990, com o advento e popularização da Internet e o
desenvolvimento de novas tecnologias, esses painéis digitais foram aperfeiçoados e
amplamente utilizados no ambiente corporativo.
A XP Educação (2022) descreve quatro tipos de dashboards:
a) Dashboard Operacional que apresenta operações técnicas e
processos e serve para demonstrar métricas das rotinas produtivas.
Tem como principal objetivo diminuir os erros e aumentar a
produtividade;
b) Dashboard Analítico que fornece informações importantes para o
estudo do cenário com um todo, onde a gestão é capaz de monitorar e
identificar tendências e padrões;
c) Dashboard Estratégico é usado pela diretoria na tomada de decisões
de longo prazo. Também pode ser apresentado para a empresa toda
em forma de ajudar a envolver todos os colabores nas decisões;
d) Dashboard Tático usado pelos cargos de gestão e gerência, para a
tomada de decisões no médio prazo na obtenção de vantagens
competitivas.
Resumidamente, os principais benefícios na utilização de um dashboard
incluem: apoio na tomada de decisões com base em dados; transparência das
informações apresentadas; melhoria na comunicação com a utilização de diferentes
visualizações, cores e objetos gráficos; layout moderno e claro; otimização de tempo
e recursos; alinhamento de estratégias; e integração dos dados relacionados a um
determinado assunto.
38
Durante a pandemia, o site mais visitado para monitoramento em tempo real
dos casos e mortes pelo novo coronavírus foi um dashboard denominado COVID-19
Dashboard13.
Este site foi desenvolvido pelo Coronavirus Resource Center da Universidade
John Hopkins14 em Maryland, Estados Unidos.
As atualizações diárias deste mapa foram utilizadas pelos principais veículos
de mídia, departamentos de saúde pública e agências governamentais no mundo
durante a fase crítica da COVID-19 (CNN Brasil, 2020).
Figura 2: Monitoramento em tempo real dos casos e mortes pelo novo coronavírus.
Fonte: Adaptação de JOHN HOPKINS UNIVERSITY (2022).
2.5 A linguagem de programação R e o ambiente de desenvolvimento integrado
RStudio®
A linguagem de programação R é uma linguagem de programação
computacional com um ambiente de software integrado para métodos estatísticos e
apresentação de resultados em formas de gráficos. Seu ambiente de
desenvolvimento permite coletar, processar, consolidar e visualizar os dados para
atender as etapas de uma análise de dados (Matos, 2015).
A linguagem de programação R foi criada originalmente por Ross Ihaka e
Robert Gentleman na década de 1990 na Universidade de Auckland na Nova
13
https://coronavirus.jhu.edu/map.html. Acesso em: 27 jul. 2023.
14
https://coronavirus.jhu.edu/. Acesso em: 27 jul. 2023.
https://coronavirus.jhu.edu/map.html
https://coronavirus.jhu.edu/
39
Zelândia. O nome da linguagem deriva das iniciais dos criadores e de um jogo
configurado com a Linguagem S (Escovedo; Koshiyama, 2020).
A linguagem é distribuída sob uma licença de software livre e de código-
aberto chamada GNU General Public License (GPL)15. Esta licença garante aos
usuários o direito de usar, modificar e distribuir o software R, bem como o acesso ao
código-fonte. Segundo Amaral (2016), desde sua primeira versão em 1995, a
linguagem tem evoluído nas comunidades de estatísticos e pesquisadores,
tornando-se amplamente utilizada em Ciência de Dados e métodos científicos.
O site oficial para instalação do software R é o CRAN-R (The Comprehensive
R Archive Network - Rede abrangente de arquivos R)16 , cujo endereço eletrônico é
mantido por uma comunidade de desenvolvedores em linguagem de programação
R. Neste site, estão centralizadas informações importantes como eventos, manuais,
guias de referência, versões, bibliotecas e outros links para fontes de suporte para a
linguagem (Código Fonte TV, 2020).
Segundo R (linguagem de programação) (2023), a linguagem de
programação R possui como principais características:
a) Software gratuito, executado nos principais sistemas operacionais:
Linux, Windows® e macOS®;
b) Fornece uma extensa variedade de técnicas computacionais,
matemáticas, e estatísticas tais como: testes estatísticos clássicos,
análise de séries temporais, agrupamento, classificação, regressão,
agrupamento e outras;
c) Contém uma ampla coleção de pacotes, que são bibliotecas de
funções, o ambiente de programação pode ser estendido, oferecendo
uma variedade de recursos específicos para várias áreas de pesquisa;
15
Representa uma designação da licença para software idealizada para o Projeto GNU de acordo
com as definições de software livre da Free Software Foundation. Por ser uma licença copyleft (uma
forma de usar a legislação de proteção dos direitos autorais com o objetivo de retirar barreiras à
utilização, difusão e modificação de uma obra criativa), trabalhos derivados de um produto
originalmente licenciado pela GPL só podem ser distribuídos se utilizarem a mesma licença. Fonte:
GNU General Public License (2023).
16
O CRAN-R é uma rede de servidores espalhada pelo mundo que armazena versões idênticas e
atualizadas de códigos e documentações para a linguagem de programação R e seu sítio está
localizado em: https://cran.r-project.org/. Acesso em: 27 jul. 2023.
https://cran.r-project.org/
40
d) Ferramenta que oferece a capacidade de produzir gráficos estáticos,
dinâmicos e interativos. Além disso, possibilita a geração de imagens
com alta qualidade para publicações profissionais e científicas;
e) Linguagem muito utilizada nos estudos estatísticos e na área de
análise de dados;
De acordo Stephens (2023), a empresa Redmonk17 elabora um ranking das
20 linguagens mais utilizadas no mundo, correlacionando o uso da linguagem e a
quantidade de discussões e informações sobre elas na Internet. A linguagem de
programação R ocupa a 12ª posição neste conceituado ranking, com informações
atualizadas em janeiro de 2023. A Figura 3 demonstra o histórico do ranking de
setembro de 2012 até janeiro de 2023.
Figura 3: RedMonk Top 20 Languages Over Time: January 2023.
Fonte: https://redmonk.com/rstephens/2023/05/16/top20-jan2023/. Acesso em: 28 jul. 2023.
17
https://redmonk.com/. Acesso em: 27 jul. 2023.
https://redmonk.com/rstephens/2023/05/16/top20-jan2023/
https://redmonk.com/
41
A linguagem de programação R tornou-se uma escolha comum para as
pesquisas acadêmicas devido a uma série de razões. Principalmente, por ser
gratuita, possibilitar funcionalidades para análise de dados e métodos estatísticos,
permitir uma pesquisa reprodutível e produzir gráficos de qualidade. Por fim, sua
ampla compatibilidade com outras ferramentas e tecnologias a torna uma escolha
conveniente e versátil para pesquisadores (Sage Campus, 2019).
Posto isso, Matos (2015) citou as principais vantagens para a utilização da
linguagem de programação R:
a) Linguagem gratuita com sintaxe intuitiva;
b) Possui uma grande variedade de bibliotecas e pacotes estatísticos
disponíveis para facilitar a análise de dados de diversas áreas;
c) Recursos de alta qualidade na geração de gráficos estáticos e
interativos;
d) Ambiente colaborativo de procedimentos e métodos, garantidos por
uma comunidade mundial ativa de pesquisadores e estatísticos;
e) Disponibiliza funções para execução de uma análise exploratória de
dados e também para análises estatísticas complexas;
f) Ótimo desempenho na execução de relatórios, tabelas, mapas e
gráficos;
g) Garante o princípio básico de reprodutibilidade dos métodos e
procedimentos aplicados em uma pesquisa científica;
h)Possibilita a integração com outros softwares: de controle de versão,
de renderização de arquivos HTML/PDF e até mesmo com outras
linguagens.
No entanto, de acordo com Matos (2015), existem aspectos importantes a
serem analisados ao adotar a linguagem como solução:
a) Falta de suporte comercial por ser um software livre;
b) Curva de aprendizagem significativa, pois existem muitos métodos e
funções possíveis a serem utilizados;
42
c) Pré-processamento dos dados diretamente na memória RAM do
computador, o que gera uma limitação em relação aos recursos do
computador local;
d) Necessidade de conhecimentos básicos de lógica de programação
para se utilizar a linguagem.
As funções, dados ou coleções de códigos da linguagem de programação R
estão disponíveis e organizadas nos chamados pacotes ou bibliotecas (Packages) e
podem ser acessados e utilizados para estender a capacidade da linguagem.
A partir do momento em que o pacote for instalado no ambiente e
posteriormente carregado para a memória do computador, estas funções do pacote
ficam disponíveis para uso.
Os pacotes são desenvolvidos e mantidos pela Comunidade R e estão
disponíveis para download no repositório The Comprehensive R Archive Network
(CRAN) 18 existente na Internet (Silva et al., 2021).
Deste modo, existem muitos pacotes poderosos e populares na linguagem de
programação R que podem ser utilizados nas etapas de uma AED. Neste trabalho
foram utilizadas as bibliotecas readr19, dplry20, ggplot221, flexdashboard22e shiny23,
com suas principais funções resumidas nos parágrafos seguintes.
Na etapa de coleta de dados, o pacote readr pode ser utilizado para importar
dados de arquivos texto de diferentes formatos, principalmente arquivos texto
separados por vírgula chamados: comma separated value (CSV).
Uma das etapas mais importantes de uma análise de dados é a preparação
dos dados, que consiste em selecionar, criar, alterar e resumir dados de forma
eficiente. O pacote dplry, chamado de gramática da preparação de dados, é
amplamente usado nesta etapa.
O pacote ggplot2 é um dos muitos pacotes utilizados para a criação de
objetos gráficos na linguagem de programação R, sendo o mais versátil e elegante.
A visualização dos dados torna-se importante, pois é a comunicação visual e
18
https://cran.r-project.org/. Acesso em: 27 jul. 2023.
19
https://cran.r-project.org/web/packages/readr/index.html. Acesso em: 27 jul. 2023.
20
https://cran.r-project.org/web/packages/dplyr/index.html. Acesso em: 27 jul. 2023.
21
https://cran.r-project.org/web/packages/ggplot2/index.html. Acesso em: 27 jul. 2023.
22
https://cran.r-project.org/web/packages/flexdashboard/index.html . Acesso em: 27 jul. 2023.
23
https://cran.r-project.org/web/packages/shiny/index.html. Acesso em: 01 jan.2024.
https://cran.r-project.org/
https://cran.r-project.org/web/packages/readr/index.html
https://cran.r-project.org/web/packages/dplyr/index.html
https://cran.r-project.org/web/packages/ggplot2/index.html
https://cran.r-project.org/web/packages/flexdashboard/index.html
https://cran.r-project.org/web/packages/shiny/index.html
43
apresenta descobertas, novas interpretações e questionamentos sobre os dados
demonstrados (Wickham; Grolemund, 2017).
Como discutido nos tópicos anteriores, o dashboard é uma maneira eficaz
para comunicar e demonstrar uma grande quantidade de dados consolidados, de
forma rápida e visual. O pacote flexdashboard, por sua vez, permite a criação de
painéis por meio de elementos visuais como barras de rolagem, caixas de texto,
objetos indicadores, abas e divisões para apresentação de gráficos, mapas, tabelas,
imagens e demais objetos gráficos, resultando em uma experiência de visualização
interativa e eficiente.
O pacote shiny disponibiliza instruções para a criação de aplicativos
dinâmicos na Internet, com muitas possibilidades e interfaces customizáveis.
Aplicações dinâmicas criadas com este pacote podem ser disponibilizadas na
Internet, através de um serviço integrado ao RStudio® denominado shinyapps.io24
Dentre os ambientes integrados existentes para desenvolvimento das rotinas
da linguagem de programação R, o RStudio® é o que possui uma interface
amigável, prática, simples e organizada para a utilização dos procedimentos e
funções da linguagem afirma Noleto (2022).
O RStudio® é uma IDE - Integrated Development Environment - ou um
ambiente integrado de desenvolvimento de programas, utilizado para o uso da
linguagem de programação R. Este software livre foi desenvolvido e é mantido pela
Posit Software25.
O RStudio® possui uma interface gráfica amigável e tem como principal
objetivo facilitar uma melhor utilização da linguagem de programação R por meio de
uma console para execução de programas e demais funcionalidades para
monitoramento, visualização de resultados e debug de prováveis erros (Noleto
,2022).
Na versão Desktop, isto é, para execução em computadores locais, este
software está disponível gratuitamente e é chamado de RStudio Desktop ®.
Também existe uma versão paga denominada RStudio Desktop Pro® (RSTUDIO,
2023).
24
Plataforma integrada ao RStudio®, que possibilita hospedar aplicações interativas na Internet.
https://www.shinyapps.io/. Acesso em: 20 fev.2024
25
https://posit.co/. Acesso em: 27 jul. 2023.
https://www.shinyapps.io/
https://posit.co/
44
A ferramenta RStudio Desktop®26 pode ser executada nos sistemas
operacionais: Windows®, macOS® e Linux, sendo projetada para facilitar o
desenvolvimento de programas, a análise e a visualização de dados. Também,
permite a integração com outros softwares como, por exemplo, o sistema de controle
de alterações realizadas nos códigos, os softwares de renderização de
documentos27 PDF e HTML, dentre outros.
Além de ser o ambiente integrado mais utilizado e recomendado, Noleto
(2022) cita:
O RStudio® é uma das versões de software mais desenvolvidas para a
utilização de uma linguagem de programação como o R, pois ele oferece
uma série de funcionalidades e painéis que podem contribuir grandemente
para a análise de Big Data
28
.
Conforme mostrado na Figura 4, o RStudio Desktop® possui em sua tela
inicial 4 divisões, denominadas quadrantes ou painéis , que podem ser organizadas
conforme a preferência dos usuários.
O painel EDITOR é onde são escritos os códigos da linguagem de
programação R, também chamados de scripts. O RStudio Desktop® colore as
palavras e símbolos para facilitar a leitura do código.
Já no painel CONSOLE são exibidos os resultados da execução dos scripts
dos programas criados em linguagem de programação R. Qualquer erro, na
execução destes códigos, é mostrado em forma de destaque neste painel.
O OUTPUT é um painel auxiliar que possui várias funções tais como: acessar
pasta de arquivos (Files); mostrar objetos gráficos (Plot); exibir os pacotes instalados
no ambiente e suas versões (Packages); acesso a uma importante ajuda da
linguagem (Help) e a exibição de relatórios de dados (Viewer).
Outro painel auxiliar é o AMBIENTE ou Environment, muito importante na
visualização de todos os objetos criados na execução do código da linguagem.
26
O link para baixar a versão desktop é: https://posit.co/download/rstudio-desktop/. Acesso em: 27 jul.
2023.
27
Renderização é o processamento para combinação de um material bruto digitalizado como
imagens, vídeos ou áudio num único resultado final, unificando esses elementos com objetivo de
melhorar a experiência do usuário. Fonte: O que é renderização ou render?, ControleNet, s/d.
Disponível em: .
Acesso em: 27 jul. 2023.
28
Segundo Amaral (2016), trata-se de um fenômeno em que os dados são produzidos em vários
formatos, grandes quantidades e armazenados por um grande número de dispositivos ou
equipamentos.
https://posit.co/download/rstudio-desktop/
https://www.controle.net/faq/renderizacao-ou-render-de-video-audio-e-imagens-3d
45
Figura 4: Tela inicial do RStudio Desktop® .
Fonte: Elaborada pelo autor.
Em busca de uma maior facilidade e apoio ao realizar uma análise de dados
utilizando a linguagem de programação R e o RStudio®, Noleto (2022) destaca as
seguintes vantagens:
a) O RStudio® é compatível com os principais sistemas operacionais:
Windows®, macOS® e Linux;
b) A plataforma é um software gratuito e de código aberto, oferecendo
muitas funcionalidades;
c) Colabora com a facilidade de utilização da linguagem de programação
R e possui interface amigável para interação com os objetos e
métodos da linguagem;
d) A comunidade que utiliza o RStudio® e a linguagem de programação
R, é bastante ativa e colaborativa, disponibilizando documentações e
muitas informações na Internet;
e) Possui grande integração com demais softwares ou linguagens de
programação no apoio às funcionalidades necessárias para as etapas
de análise de dados e Ciência de dados.
46
A Figura 5 contém uma síntese das características, vantagens e alertas sobre
a linguagem de programação R e o RStudio Desktop®.
Figura 5: Sobre a linguagem de programação R e RStudio Desktop®.
Fonte: Elaborada pelo autor
47
2.6 A plataforma GitHub e a reprodutibilidade do método científico
O Git é um software livre para controle de versões de arquivos. Seu principal
objetivo é manter um registro das alterações feitas nestes arquivos ao longo do
tempo, permitindo que os usuários acompanhem o histórico de alterações. Este
software é um sistema de controle de versões distribuído e colaborativo, onde cada
usuário que trabalha em um projeto no Git terá uma cópia completa do repositório
desse projeto, incluindo os arquivos e os históricos de alterações (GIT, 2022).
O Git oferece uma série de vantagens para quem o utiliza: possibilita o
controle das alterações, como desfazer ou recuperar uma versão do arquivo, permite
a demonstração de um histórico das alterações, torna fácil documentar as alterações
realizadas e traz confiança nas alterações desejadas. Essas vantagens tornam o Git
uma ferramenta indispensável para o desenvolvimento de software moderno.
A utilização do repositório em Git propicia um ambiente colaborativo com a
possibilidade de dividir partes do projeto entre os integrantes, com a finalidade de
atuar em funcionalidades distintas que serão combinadas quando estiverem
concluídas.
A interface online ou o site na Internet que disponibiliza um repositório Git é o
GitHub29. Este local centralizado permite carregar uma cópia do repositório Git e
disponibiliza demais funcionalidades que possibilitam o monitoramento das
alterações, as atividades de uma equipe e a colaboração ou compartilhamento de
arquivos de um projeto.
Esta interface é utilizada mundialmente e chega a ter mais de 36 milhões de
usuários ativos e milhões de projetos armazenados. As principais funcionalidades
deste site são gratuitas (GitHub, 2022).
Além de ser um local centralizado para armazenar os repositórios Git, o
GitHub apresenta demais vantagens como: documentar requisitos do projeto, criar
linhas de desenvolvimento do mesmo projeto visando colaborar ou compartilhar o
mesmo projeto para equipes distintas na implementação de diferentes
funcionalidades e principalmente monitorar por meio da interface web, as alterações
dos arquivos e o andamento dos projetos (Bell; Beer, 2015).
29
https://github.com/. Acesso em: 27 jul. 2023.
https://github.com/
48
O GitHub é uma ferramenta que possibilita o armazenamento e organização
de toda a documentação de um projeto científico em um repositório online Git, desta
forma atendendo a reprodutibilidade como um princípio importante do método
científico.
O Git (2022) comentou:
Cada diretório de trabalho do Git é um repositório com um histórico
completo e habilidade total de acompanhamento das revisões, não
dependente de acesso a uma rede ou a um servidor central. O Git também
facilita a reprodutibilidade científica em uma ampla gama de disciplinas,
da ecologia à bioinformática, arqueologia à zoologia.
Um dos princípios básicos do método científico é a reprodutibilidade da
pesquisa. Neste sentido, a execução do estudo ou pesquisa deve ser passível de
reprodução em diferentes momentos e por diversos pesquisadores, resultando em
conclusões semelhantes. Para assegurar a reprodutibilidade, é fundamental a
disponibilização de dados brutos e registros detalhados dos passos realizados no
estudo, assim como os protocolos da pesquisa em repositórios de acesso
público (Ciência Aberta USP, [s.d.]).
A reprodução dos resultados das pesquisas científicas e a maneira pelo qual
esses resultados foram gerados são temas fundamentais para a produção das
evidências mais robustas possíveis (Pilatti, 2019).
https://pt.wikipedia.org/wiki/Diret%C3%B3rio_(computa%C3%A7%C3%A3o)
https://pt.wikipedia.org/wiki/Reposit%C3%B3rio
https://pt.wikipedia.org/wiki/Ecologia
https://pt.wikipedia.org/wiki/Bioinform%C3%A1tica
https://pt.wikipedia.org/wiki/Arqueologia
https://pt.wikipedia.org/wiki/Zoologia
49
3 METODOLOGIA
Este capítulo apresenta a metodologia utilizada neste estudo, visando atingir
os objetivos propostos. Cita as etapas e processos executados, desde a pesquisa
teórica seguida por uma Análise Exploratória de Dados (AED), embasada por uma
metodologia de Ciência de Dados aplicada para a apuração dos resultados e
culminando no desenvolvimento de um painel visual denominado dashboard.
A IBM ([s.d]) destaca que a AED é principalmente utilizada para descobrir o
que os dados podem revelar: seja uma característica, um teste de hipótese, um
modelo ou um padrão. Seu resultado proporciona uma compreensão das variáveis e
das relações dentro de um conjunto de dados. Essa análise é composta por funções
técnicas estatísticas, computacionais, gráficas e matemáticas que auxiliam na
solução de problemas em geral.
Escovedo e Koshiyama (2020) definem Data Science ou Ciência de Dados
como um conjunto de métodos com o propósito de apoiar decisões de negócio
baseadas em dados. De maneira mais abrangente, essa Ciência diz respeito à
coleta de dados em grande quantidade, provenientes de diversos formatos e fontes,
com o propósito de análise, com o objetivo de descobrir padrões, hipóteses ou
comportamentos relevantes para análises estatísticas e preditivas, planejamentos e
tomadas de decisão.
Este estudo utilizará como fonte de dados, um conjunto de dados do
repositório de dados abertos do Ministério da Saúde openDataSUS. Além disso,
empregará a linguagem de programação R e a plataforma GitHub para alcançar os
resultados esperados.
Para realizar a AED, será seguida a estrutura definida na metodologia de
Ciência de Dados apresentada por Siddiqi (2021).
Essa metodologia possui cinco etapas:
a) A identificação do problema e a abordagem para resolvê-lo;
b) A definição do método de coleta dos dados;
c) A preparação e o processamento dos dados;
d) A geração de modelos e finalmente a implantação.
50
A Figura 6 apresenta os principais elementos da metodologia definida por
Siddiqi (2021).
Figura 6: Metodologia de Ciência de Dados.
Fonte: Elaborada pelo autor.
51
4 DESENVOLVIMENTO
Este estudo disponibiliza os códigos-fonte da linguagem de programação R
para análise de dados abertos e o desenvolvimento do dashboard, acessíveis no
repositório público GitHub : https://github.com/DaInLab/PPGMiT-openDataSUS.
A fonte de dados utilizada, juntamente com toda documentação auxiliar, está
disponível no repositório do Ministério da Saúde do Brasil, openDataSUS, acessível
no link: https://opendatasus.saude.gov.br/dataset/srag-2021-a-2023.
Para acessar o painel visual e dinâmico na Internet, o dashboard, segue o link
: https://ppgmitdashboardcovid.shinyapps.io/dashboard_covid_novo/ .
4.1 Identificar o problema e a abordagem para resolvê-lo
O passo inicial se torna importante no entendimento do problema a resolver.
Sendo importante responder as perguntas: o que vai resolver?; o que deu errado
neste cenário?; o que vai acontecer a seguir?; o que eu preciso fazer? (Siddiqi,
2021).
Essa fase inicial, que representa o primeiro passo, é importante para a
compreensão do problema em questão e para determinar o rumo a ser tomado.
Considerando a problemática abordada por este estudo, que envolve o
cenário pandêmico no Brasil e a análise de dados para descobrir informações e
conhecimentos, foi utilizado uma Análise Exploratória de Dados (AED) utilizando
dados abertos juntamente com um dashboard. Toda essa escolha foi fundamentada
na Metodologia de Ciência de Dados mencionada em Siddiqi (2021).
Sobre a AED foi utilizada a linguagem de programação R aplicada com
funções de objetos visuais, análise de dados e métodos matemáticos e estatísticos
como seleção, filtro, contagem, médias, operações aritméticas, classificação e
rankings.
Quanto à análise dos dados nas atividades de coleta, preparação,
processamento, visualização e desenvolvimento do dashboard foram utilizados os
seguintes pacotes da linguagem: readr, dplyr, ggplot2, flexdashboard, shiny e
demais pacotes auxiliares.
https://github.com/DaInLab/PPGMiT-openDataSUS
https://opendatasus.saude.gov.br/dataset/srag-2021-a-2023
https://ppgmitdashboardcovid.shinyapps.io/dashboard_covid_novo/
52
4.2 Definir métodos de coleta e requisitos
Nesta segunda etapa ocorre a definição sobre os dados que serão utilizados
na resolução do problema, são os dados brutos. Sendo que se deve analisar o
formato dos dados a serem coletados e quais dados específicos serão necessários.
Torna-se importante também a forma de coleta e a tempestividade dos dados
(Siddiqi, 2021).
O conjunto de dados “SRAG 2021 a 2023 - Banco de Dados de Síndrome
Respiratória Aguda Grave - incluindo dados da COVID-19” foi utilizado, conforme a
Figura 7, como fonte de dados principal deste estudo.
Figura 7: Conjunto de dados do openDataSUS.
Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave -
incluindo dados da COVID-19 – OPENDATASUS ([s.d.]).
Portanto, a temporalidade deste estudo, abrange o período pandêmico no
Brasil, compreendendo os anos de 2021 a 2023.
SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda
Grave - incluindo dados da COVID-19 – OPENDATASUS ([s.d.]) cita:
Esta página tem como finalidade disponibilizar o legado dos bancos de
dados (BD) epidemiológicos de SRAG, da rede de vigilância da Influenza e
outros vírus respiratórios, desde o início da sua implantação (2009) até os
dias atuais (2023), com a incorporação da vigilância da covid-19.
Atualmente, o sistema oficial para o registro dos casos e óbitos por SRAG é
o Sistema de Informação da Vigilância Epidemiológica da Gripe (SIVEP-
53
Gripe). Ressaltamos que os dados da vigilância de SRAG no Brasil
disponibilizados nesta página, estão sujeitos a alterações decorrentes da
investigação, ou mesmo correções de erros de digitação, pelas equipes de
vigilância epidemiológica que desenvolvem o serviço nas três esferas de
gestão.Esclarece-se que as bases de dados de SRAG disponibilizadas
neste portal passam por tratamento que envolve a anonimização, em
cumprimento a Lei 13.709/2018.
Os recursos e requisitos para este estudo incluíram os conceitos da Ciência
de Dados, da Análise Exploratória de Dados, do uso da linguagem de programação
R e dos documentos auxiliares disponibilizados no site do openDataSUS conforme a
Figura 8 na área de “Dados e Recursos”.
Figura 8: Dados e Recursos do conjunto de dados SRAG 2021 a 2023.
Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave -
incluindo dados da COVID-19 – OPENDATASUS ([s.d.]).
54
A Ficha de Notificação30 é o formulário principal de entrada de dados, deste
conjunto de dados “SRAG 2021 a 2023 - Banco de Dados de Síndrome Respiratória
Aguda Grave - incluindo dados da COVID-19”, e consta no ANEXO A deste estudo.
Este formulário é preenchido pelos funcionários do SUS para registro de cada
paciente e contém 83 itens para preenchimento.
O ANEXO B contém o documento Dicionário de Dados31, onde são
descritas e detalhadas todas variáveis existentes no conjunto de dados. Torna-se
um requisito muito importante no entendimento dos dados, pois contém todo o
detalhamento dos itens da Ficha de Registro Individual, existente no ANEXO A,
consequentemente detalham os dados e as variáveis que são os dados brutos do
conjunto de dados.
Os demais arquivos disponibilizados na área de “Dados e recursos” no
repositório openDataSUS são os arquivos textos separados por vírgula (CSV) que
contém os dados brutos anuais respectivos aos anos 2021, 2022 e 2023. Cada
arquivo contém 173 colunas ou variáveis descritas no ANEXO B deste estudo. A
Figura 9, exibe um trecho de um arquivo texto deste conjunto de dados.
Figura 9: Detalhes da pré-visualização do arquivo SRAG 2023 – 31/07.csv.
Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave -
incluindo dados da COVID-19 – OPENDATASUS ([s.d.]).
As informações adicionais indicam características importantes da fonte de
dados como a granularidade geográfica por município, a granularidade temporal por
dia, a cobertura geográfica e a última atualização conforme mostra a Figura 10.
30
Disponível em: . Acesso em: 18 Fev. 2024.
31
Disponível em: . Acesso em: 18 Fev. 2024.
https://opendatasus.saude.gov.br/dataset/39a4995f-4a6e-440f-8c8f-b00c81fae0d0/resource/9f0edb83-f8c2-4b53-99c1-099425ab634c/download/ficha_srag_hospitalizado_19.09.2022.pdf
https://opendatasus.saude.gov.br/dataset/39a4995f-4a6e-440f-8c8f-b00c81fae0d0/resource/9f0edb83-f8c2-4b53-99c1-099425ab634c/download/ficha_srag_hospitalizado_19.09.2022.pdf
https://opendatasus.saude.gov.br/dataset/39a4995f-4a6e-440f-8c8f-b00c81fae0d0/resource/9f0edb83-f8c2-4b53-99c1-099425ab634c/download/ficha_srag_hospitalizado_19.09.2022.pdf
https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/pdfs/Dicionario_de_Dados_SRAG_Hospitalizado_19.09.2022.pdf
https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/pdfs/Dicionario_de_Dados_SRAG_Hospitalizado_19.09.2022.pdf
https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/pdfs/Dicionario_de_Dados_SRAG_Hospitalizado_19.09.2022.pdf
55
Figura 10: Informações Adicionais do conjunto de dados SRAG 2021 a 2023.
Fonte: Adaptação de SRAG 2021 A 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave -
incluindo dados da COVID-19 – OPENDATASUS ([s.d.]).
A presença de três arquivos neste conjunto de dados, como ilustrado na
Figura 11, totalizam 1,48 Gigabytes de tamanho. Essa grandeza representa um
alerta ou uma preocupação para as próximas etapas, que envolveram as operações
de preparação e processamento dos dados.
Figura 11: Os três arquivos texto do conjunto de dados.
Fonte: Elaborada pelo autor.
Os arquivos foram obtidos manualmente a partir do link do repositório online e
posteriormente copiados para o diretório “dados” no repositório do projeto no
ambiente da linguagem de programação R. Para esta etapa foram utilizadas as
funções nativas da linguagem e principalmente um pacote para importação de dados
para o ambiente, o pacote readr.
56
Após uma análise inicial (Figura 12) utilizando a linguagem de programação R
devido à vasta quantidade de dados contidos nos arquivos em questão, que
totalizam aproximadamente 2,6 milhões de registros gerais com 173 variáveis cada
e por volta de 1,4 milhões de registros com 43 variáveis relacionadas ao COVID-19,
optou-se por realizar a granularidade e o agrupamento com base na localização
geográfica da notificação e no ano correspondente, os quais serão obtidos a partir
da data de notificação.
Figura 12: Análise inicial do conjunto de dados SRAG 2021 a 2023.
Fonte: Elaborada pelo autor.
4.3 Entender e preparar os dados
A compreensão dos dados gerados podem responder as perguntas elencadas
no passo inicial desta metodologia (Siddiqi, 2021).
Esta etapa demanda mais tempo e esforço dentro da metodologia adotada,
uma vez que envolve a compreensão e a delimitação conforme a granularidade e o
entendimento inicial dos dados existentes.
Durante esta fase, são realizadas análises e operações como totalizações,
seleção, filtragens, agrupamentos, tratamento de dados ausentes, além da criação
de novos dados ou variáveis significativas a partir dos dados brutos. Todas estas
atividades foram realizadas utilizando principalmente o pacote dplyr.
A primeira atividade realizada neste conjunto de dados, após a importação
citada no tópico anterior, foi a seleção de registros por meio de condições ou filtros
para delimitar e identificar os registros correspondentes ao estudo: os óbitos no
contexto da COVID-19 no período de 2021 a 2023.
57
Os itens do ANEXO A que compõem o filtro necessário para este estudo,
estão na área Conclusão, conforme a Figura 13.
Figura 13: Filtros, classificação final, evolução do caso e data de óbito.
Fonte: Adaptação do ANEXO A.
De acordo com o ANEXO A, as condições que compõe o filtro aplicado neste
conjunto de dados são:
a) Para os casos da COVID-19. 75 Classificação do Caso : valor 5-
SRAG por COVID-19.
b) Óbitos. 77 Evolução do Caso : valor 2-Óbito.
c) Período. 78 Data da alta ou óbito : valor Anos 2021 a 2023
Ainda referente ao filtro, as variáveis necessárias para atender