UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” Câmpus de Marília ALLAN FERREIRA Modelo de arquitetura para interoperabilidade de dados de saúde utilizando padrão FHIR Marília 2024 ALLAN FERREIRA Modelo de arquitetura para interoperabilidade de dados de saúde utilizando padrão FHIR Dissertação apresentada ao Programa de Pós- Graduação em Ciência da Informação como parte das exigências para a obtenção do título de Mestre em Ciência da Informação pela Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (UNESP), Campus de Marília. Área de Concentração: Informação, Tecnologia e Conhecimento Linha de Pesquisa: Informação e Tecnologia Orientador: Prof. Dr. Leonardo Castro Botega Coorientadora: Profa. Dra. Mariângela Spotti Lopes Fujita Marília 2024 Impacto potencial desta pesquisa O modelo FHIR-FLOW impacta diretamente na interoperabilidade entre sistemas de saúde, melhorando a comunicação entre diferentes plataformas de registros eletrônicos de saúde (EHR). Ele utiliza tecnologias avançadas como LLM e BERT dentro do padrão FHIR para análise e mapeamento precisos dos dados de saúde. Essa abordagem não apenas facilita diagnósticos mais precisos e tratamentos personalizados, mas também contribui significativamente para a Ciência da Informação, fornecendo uma base sólida para futuras pesquisas e práticas na área de interoperabilidade de dados de saúde. Potencial impact of this research The FHIR-FLOW model directly impacts interoperability between healthcare systems by improving communication between different electronic health records (EHR) platforms. It uses advanced technologies like LLM and BERT within the FHIR standard for accurate analysis and mapping of healthcare data. This approach not only facilitates more accurate diagnoses and personalized treatments, but also contributes significantly to Information Science by providing a solid foundation for future research and practice in the area of health data interoperability. Impacto potencial de esta investigación El modelo FHIR-FLOW impacta directamente la interoperabilidad entre los sistemas de salud al mejorar la comunicación entre diferentes plataformas de registros médicos electrónicos (EHR). Utiliza tecnologías avanzadas como LLM y BERT dentro del estándar FHIR para un análisis y mapeo precisos de datos de atención médica. Este enfoque no sólo facilita diagnósticos más precisos y tratamientos personalizados, sino que también contribuye significativamente a las Ciencias de la Información al proporcionar una base sólida para futuras investigaciones y prácticas en el área de la interoperabilidad de datos de salud. Allan Ferreira Modelo de arquitetura para interoperabilidade de dados de saúde utilizando padrão FHIR Dissertação apresentada ao Programa de Pós-graduação em Ciência da Informação da Universidade Estadual Paulista “Júlio de Mesquita Filho” (Unesp), como requisito parcial para a obtenção do título de Mestre em Ciência da Informação. Área de concentração: Informação, Tecnologia e Conhecimento Linha de pesquisa: Informação e Tecnologia Banca Examinadora Prof. Dr. Leonardo Castro Botega UNESP – Câmpus de Marília Orientador Prof. Dr. Caio Saraiva Coneglian Centro Universitário Eurípides de Marília Examinador Prof. Dr. Joice Basílio Machado Marques Pesquisador/Sofya Examinador Marília, 01 de março de 2024. AGRADECIMENTOS À Deus pela oportunidade e condições de realizar este trabalho. Aos meus pais, Zilda e Lourenço. Nenhuma palavra humana é capaz de expressar em sua completude os meus sentimentos de amor, carinho e gratidão por tudo o que vocês sempre fizeram por mim. À minha esposa Sara por todo apoio, incentivo e cuidado com nossa família especialmente nos momentos que precisei alocar energia extra para a construção deste trabalho Ao meu orientador Prof. Dr. Leonardo Castro Botega, pela oportunidade, paciência e orientações, as quais impactaram minha carreira positivamente de um jeito ímpar. Ao grupo de estudos “HAIS” do Hospital das Clínicas da Faculdade de Medicina de Marília, pela participação na fase inicial deste trabalho. Aos colegas do PPGCI da Unesp e dos grupos de pesquisa, por todo apoio, companheirismo e troca de conhecimento. RESUMO A evolução dos registros eletrônicos de saúde revelou um desafio crítico diretamente ligado à interoperabilidade dos dados, causado pela falta de padrões unificados entre os sistemas de saúde. Este estudo enfrentou tal desafio ao desenvolver um modelo de arquitetura da informação chamado FHIR-FLOW, que utiliza o padrão Fast Healthcare Interoperability Resources (FHIR) e incorpora tecnologias avançadas de aprendizado de máquina, especificamente, Modelos de Linguagem Grande (LLM) e o modelo BERT, para o reconhecimento eficaz de entidades e extração de recursos FHIR. A pesquisa fundamentou-se na análise detalhada de dados de alergia, provenientes dos prontuários eletrônicos do Hospital Sírio Libanês, aliada a uma extensa revisão bibliográfica sobre interoperabilidade, destacando-se pela integração da Ciência da Informação (CI) através do uso de uma matriz de metadados de negócios, que foi importante para estruturar e interpretar os dados de saúde de maneira coerente, assegurando uma base sólida para a construção e validação do modelo. Os resultados obtidos com o FHIR-FLOW indicaram melhorias na interoperabilidade que facilitam a comunicação entre sistemas de saúde diversos. A implementação das técnicas de LLM e BERT, adicionadas do Snowstorm (um classificador de termos utilizado na camada terminológica), permitiu uma interpretação e processamento precisos das terminologias médicas. Em cenários generalistas, o modelo alcançou taxas de acerto superiores a 66%, enquanto em cenários específicos de alergia, a precisão ultrapassou os 90%. Tais achados evidenciam a eficácia do modelo não apenas na melhoria da interoperabilidade e na comunicação entre sistemas, e este avanço significativo para os cuidados de saúde na era digital enfatiza a contribuição da Ciência da Informação, especialmente no que tange ao desenvolvimento e aplicação de estruturas de dados. O sucesso do FHIR-FLOW ressalta a importância de abordagens inovadoras na superação dos desafios de interoperabilidade, servindo como referência para futuras pesquisas e práticas na área. Palavras-chave: Arquitetura da informação; FHIR. ABSTRACT The evolution of electronic health records has revealed a critical challenge directly linked to data interoperability, caused by the lack of unified standards across healthcare systems. This study addressed this challenge by developing an information architecture model called FHIR-FLOW, which uses the FHIR (Fast Healthcare Interoperability Resources) standard and incorporates advanced machine learning technologies, specifically Large Language Models (LLM) and the BERT model. for effective entity recognition and FHIR feature extraction. The research was based on the detailed analysis of allergy data from the electronic medical records of Hospital Sírio Libanês, combined with an extensive bibliographic review on interoperability, highlighting the integration of Information Science through the use of a business metadata matrix, It was important to structure and interpret health data in a coherent way, ensuring a solid basis for model construction and validation. The results obtained with FHIR-FLOW indicated improvements in interoperability that facilitate communication between different health systems. The implementation of LLM and BERT techniques, added to Snowstorm (a term classifier used in the terminological layer), allowed accurate interpretation and processing of medical terminologies. In general scenarios, the model achieved accuracy rates above 66%, while in allergy- specific scenarios, accuracy exceeded 90%. Such findings highlight the effectiveness of the model not only in improving interoperability and communication between systems, and this significant advance for healthcare in the digital era emphasizes the contribution of Information Science, especially with regard to the development and application of information structures. data. The success of FHIR-FLOW highlights the importance of innovative approaches in overcoming interoperability challenges, serving as a reference for future research and practices in the area. Keywords: Information Architecture; FHIR. LISTA DE ILUSTRAÇÕES Figura 1 – Esquema do passo a passo da metodologia 20 Figura 2 – Mapa conceitual do ambiente informacional de prontuário eletrônico 24 Figura 3 – Visão de acesso aos recursos na arquitetura FHIR 32 Figura 4 – Diagrama UML parcial do recurso FHIR Patient 33 Figura 5 – Mapa conceitual da arquitetura do padrão FHIR 35 Figura 6 – Etapas do modelo BERT 43 Figura 7 – Machine Learning na área da saúde 49 Figura 8 – Representação, recuperação e acesso à informação de dados clínicos 54 Figura 9 – Mapa conceitual dos atributos do dataset de alergia do HSL 57 Figura 10 – Representação do recurso FHIR AllergyIntolerance 58 Figura 11 – Fluxo geral de transformações dos dados e etapas do FHIR- FLOW 66 Figura 12 – Etapas da extração sintática e semântica 69 Figura 13 – Camada de identificação FHIR 73 Figura 14 – Camada terminológica 75 Figura 15 – Fluxo geral do modelo 80 Figura 16 – Amostra de validação de texto livre com a aplicação atuando 91 Figura 17 – Tela de validação de dados estruturados e download do resultado 91 Gráfico 1 – Análise de presença e ausência de dados 87 LISTA DE TABELAS Tabela 1 – Dados comparativos entre trabalhos correlatos 30 Tabela 2 – Principais tipos de Machine Learning e sua correlação com a CI 38 Tabela 3 – Exemplo de prompt de chamada para GPT3.5-Turbo 47 Tabela 4 – Amostra original dos dados de alergia do HSL 56 Tabela 5 – Metadados de negócio gerados com interoperabilidade no padrão FHIR 63 Tabela 6 – Exemplo de extração de triplas a partir de fontes de dados 70 Tabela 7 – Exemplo de identificação de recursos FHIR através de triplas 74 Tabela 8 – Exemplo de identificação terminológica em recursos FHIR 76 Tabela 9 – Uso da SNOMED CT em diversas áreas da saúde 78 Tabela 10 – Anamneses geradas para validação de conformidade FHIR 82 Tabela 11 – Receituários gerados para validação de conformidade FHIR 83 Tabela 12 – Dados de alergia gerados para validação de conformidade FHIR 85 Tabela 13 – Amostra de dados 88 Tabela 14 – Amostra de dados validados 89 Tabela 15 – Dados não validados 90 LISTA DE ABREVIATURAS E SIGLAS AI Arquitetura da Informação API Application Programming Interface BERT Bidirecional Encoder Representations from Transformers BRAPCI Biblioteca de Dados em Ciência da Informação CI Ciência da Informação EMR Electronic Medical Records EHR Electronic Health Records ERP Enterprise Resource Planning FIHR Fast Healthcare Interoperability Resources HL7 Health Level 7 HSL Hospital Sírio Libanês HTTP Hypertext Transfer Protocol IA Inteligência Artificial ICD International Classification of Diseases IEEE Institute of Electrical and Electronics Enginners JSON JavaScript Object Notation LLM Large Language Model LOINC Logical Observation Identifiers Names and Codes MIMIC Medical Information Mart for Intensive Care ML Machine Learning MRCM Machine-Readable Concept Model NER Named Entity Recognition NLP Natural Processing Language PEP Prontuário Eletrônico do Paciente PLN Processamento de Linguagem Natural RCTM Rede Catarinense de Telemedicina RDA Resource Description Framework REST Representational Transfer State SNOMED CT Systematized Nomenclature of Medicine – Clinical Terms TISS Troca de Informação para Saúde Suplementar UML Unified Modeling Language USI Unidade Semi Intensiva URI Uniform Resource Identifier VA Veteran’s Administration XML Extensible Markup Language SUMÁRIO 1 INTRODUÇÃO 15 1.1 Problema de Pesquisa 16 1.2 Justificativa 17 1.3 Metodologia 18 1.4 Estrutura da Pesquisa 21 2 PANORAMA DOS DADOS DE SAÚDE 23 2.1 Interoperabilidade de dados de saúde 26 3 INTEROPERABILIDADE DE DADOS DE SÁUDE: TRABALHOS CORRELATOS 28 4 PADRÃO FHIR 31 4.1 Arquitetura Geral do FHIR 31 4.2 Recursos FHIR 32 5 MACHINE LEARNING NA ÁREA DA SAÚDE 37 5.1 Potencial e aplicações 37 5.2 Processamento de Linguagem Natural 40 5.3 Modelos de Aprendizado de Máquina em PLN: BERT 42 5.4 Modelos de Linguagem Grande (LLMs) 45 5.4.1 Modelo GPT3.5-Turbo 46 5.5 Desafios na Integração de ML e Saúde 48 6 DADOS DE ALERGIA DO HOSPITAL SÍRIO LIBANÊS: ANÁLISE COM METADADOS DE NEGÓCIO 51 6.1 Importância de dados de alergia 51 6.2 Aplicação de metodologia de Arquitetura da Informação 53 7 FHIR-FLOW: MODELO DE MAPEAMENTO DE DADOS DE SAÚDE PARA FHIR 65 7.1 Camada Sintática e Semântica 67 7.2 Camada Identificação FHIR 72 7.3 Camada Terminológica 74 7.3.1 SNOMED CT 77 7.3.2 Servidor de terminologias Snowstorm 79 7.4 Validação do modelo 79 7.4.1 Avaliação da conformidade FHIR 81 7.4.2 Integridade e consistência dos dados 87 8 CONSIDERAÇÕES FINAIS 93 8.1 Conclusões 93 8.2 Contribuições 94 REFERÊNCIAS 96 15 1 INTRODUÇÃO Com o aumento do desenvolvimento de aplicações, que permitem a transposição de registros físicos para meios eletrônicos, a área de saúde tem se beneficiado com o aspecto de persistência e recuperação de dados através dos Eletronic Medical Records (EMR), na influência direta de como os profissionais ministram os cuidados aos pacientes, e no auxílio do pensamento clínico crítico (Tierney, 2013). Mediante o número de instituições e softwares existentes, um dos desafios dos EMR está na padronização da Arquitetura da Informação (AI), visto que um paciente, ao longo da vida, tem seus dados registrados em diferentes instituições, com diferentes bases de dados e estruturas de armazenamento. As principais dificuldades concentram-se no problema da arquitetura e representação da informação para uso computacional, mediante a complexidade do cenário de saúde, e na existência de um grande volume de padrões e arquiteturas existentes, em que cada instituição tem dificuldade de escolha particular no momento de selecionar a arquitetura que lhe trará um melhor custo-benefício (Petry et al., 2008). Neste sentido, a interoperabilidade dos dados de saúde, definido como a capacidade de dois ou mais sistemas cooperarem apesar das diferenças de linguagem, estruturas ou plataforma de execução (Wegner, 1996), tem como necessidade uma construção de uma arquitetura da informação que proporcione a troca de dados entre os diferentes sistemas, para permitir o aumento da capacidade de organização e recuperação dos dados. Portanto, pode gerar uma série de benefícios para as organizações de saúde, como cuidado mais eficaz ao paciente e a possibilidade de se recuperar informação de diferentes fontes que estão distribuídas e armazenadas em ambientes heterogêneos (Nardon, 2003). No sentido de auxiliar a arquitetura da informação de modelos interoperáveis na área da saúde, existe uma série de padrões que norteiam a modelagem de metadados de negócio e facilitam a troca de dados entre instituições que adotam os mesmos modelos semânticos. Dentre eles, é possível notar modelos para diversas subáreas da saúde, como cenário laboratorial, clínico, cirúrgico e entre outros. No Brasil, a Troca de Informação para Saúde Suplementar (TISS) é um modelo padrão para troca de informações entre os agentes de saúde suplementar e planos de saúde, que tem por objetivo a uniformização de ações clínicas, administrativas e 16 financeiras, com a permissão do acompanhamento financeiro das operadoras de convênios médicos. O padrão Fast Healthcare Interoperability Resources (FHIR), desenvolvido pela Health Level 7 International (HL7®), é um protocolo internacional para envio e recebimento de dados na área da saúde, que contempla informações clínicas e administrativas e está de acordo com a necessidade de integração de dados na área da saúde para otimizar a pesquisa e o desenvolvimento, como afirma Noumeir (2019). Considerando que os dados de cuidados de saúde primários são a fonte mais rica de dados de saúde (Thiru et al., 2003), ao utilizar conceitos da Ciência da Informação (CI) para realizar a modelagem de arquitetura da informação, busca-se obter a integração de dados e equivalência semântica de diversas fontes heterogêneas, dessa forma, assegurando a fidedignidade da informação, simplificando e unificando a pesquisa e recuperação das informações. Com isso, no Brasil, é necessário enfatizar que há uma preocupação com a interoperabilidade de sistemas médicos, no qual evidenciou-se por meio da portaria nº 2.073, de 2011, do Ministério da Saúde, sendo uma das recomendações desta adotar ontologias e terminologias para lidar com as questões de interoperabilidade de Sistemas de Informação (Brasil, 2011). 1.1 Problema de Pesquisa Com base na importância do cuidado de saúde e na velocidade da evolução tecnológica, a troca de informações entre diferentes sistemas de saúde é mais que uma necessidade; é um requisito para o avanço da prestação de cuidados de saúde de maneira eficiente. A integração de tecnologias de informação no setor tem desempenhado um papel importante, não apenas na melhoria da gestão de dados de saúde, mas também na facilitação do acesso a informações críticas para a tomada de decisões clínicas. Contudo, esses avanços trazem desafios, especialmente no que diz respeito à gestão eficiente e ao uso estratégico dos dados acumulados no decorrer da vida dos pacientes. A realidade operacional de muitos sistemas de saúde revela o problema central da pesquisa: a dificuldade em estabelecer uma troca de informações fluida e eficaz entre diferentes entidades de saúde. Esta dificuldade é agravada pela falta de padrões unificados de dados, que resulta em um cenário onde informações médicas são 17 frequentemente armazenadas de forma não estruturada e fragmentada. Este cenário dificulta o compartilhamento de informações médicas e limita a capacidade dos profissionais de saúde de acessar e utilizar plenamente os dados disponíveis para melhorar a qualidade do atendimento ao paciente. Neste contexto, a interoperabilidade, que se refere à capacidade dos sistemas de trocar e utilizar informações de maneira eficiente, surge como um elemento habilitador. Este estudo se propõe a explorar a questão da interoperabilidade no setor de saúde, enfrentando, portanto, o desafio de extrair informações valiosas tanto de dados estruturados quanto não estruturados, em diversos cenários, e a dificuldade de desenvolver técnicas para mapear e extrair esses dados de forma eficiente, garantindo uma semântica clara e compartilhável. 1.2 Justificativa A evolução na prestação de serviços de saúde se tornou uma busca incessante diante do crescimento da demanda e da constante limitação de recursos. Entre as tecnologias utilizadas nesta evolução, destaca-se a tecnologia da informação, em especial, o uso de registros eletrônicos de saúde, que tem o potencial de reformular a coleta, armazenamento e utilização dos dados dos pacientes. Apesar das inúmeras possibilidades trazidas pelos registros eletrônicos de saúde, a troca eficaz e fluida de informações entre diferentes sistemas de saúde é limitada frequentemente pela ausência de padrões universais de representação de dados. Esta lacuna na interoperabilidade impacta diretamente na agilidade e na qualidade dos serviços prestados, tornando necessário o desenvolvimento de soluções eficazes para essa questão. O presente estudo justifica-se em várias frentes: primeiro ele proporciona um panorama contemporâneo dos desafios e práticas na arquitetura da informação no domínio da saúde. Adicionalmente, o desenvolvimento de um modelo informacional proposto neste estudo promete ser um instrumento útil para profissionais que lidam com registros eletrônicos de saúde e buscam melhorar sua interoperabilidade. Ainda, a pesquisa possui a capacidade de elucidar perspectivas relevantes para a elaboração de novas estratégias e políticas de gestão da informação em saúde, objetivando a promoção da interoperabilidade. Esse processo pode resultar na 18 melhoria do cuidado ao paciente, o que demonstra a aplicabilidade e relevância do estudo. O papel da Ciência da Informação na melhoria da representação e recuperação de informações nos sistemas de saúde fica evidente pelo uso de técnicas e métodos de tratamento, organização e recuperação dos dados. O estudo proposto buscou, dessa forma, abordar a questão da interoperabilidade, com expectativa de oferecer contribuições para o campo e beneficiar a troca de informações no setor de saúde. 1.3 Metodologia Os procedimentos metodológicos deste estudo consistem em uma pesquisa básica, pois objetiva “gerar conhecimentos para o avanço da ciência sem aplicação prática prevista” (Prodanov; Freitas, 2013, p.51). Do ponto de vista dos objetivos estabelecidos, trata-se de uma pesquisa exploratória e documental, com a finalidade de proporcionar mais informações sobre o assunto a ser investigado, possibilitando sua definição e seu delineamento, e uso de documentos para o desenvolvimento do trabalho. Quanto aos procedimentos técnicos empregados, este estudo compõe-se de uma pesquisa bibliográfica, porque se baseia na revisão de um conjunto relevante de fontes bibliográficas, como livros, artigos científicos, teses e dissertações, além de observações e análises de documentos com dados de alergia anonimizados advindos de prontuários eletrônicos, fornecidos pelo Hospital Sírio Libanês (HSL). A construção da arquitetura do modelo proposto foi iniciada com uma análise detalhada dos dados de alergia fornecidos pelo HSL. Este processo de análise e mapeamento de dados teve como intuito identificar padrões, variações e possíveis lacunas nas informações disponíveis, para posteriormente mapear estes dados conforme o padrão FHIR, garantindo, nesse sentido, a precisão e integridade das informações durante sua transferência. Com base na análise e mapeamento realizados, foi desenvolvido um modelo de interoperabilidade, utilizando o padrão FHIR com terminologia Systematized Nomenclature of Medicine - Clinical Terms (SNOMED CT), construído com a intenção de ser flexível e permitir sua implementação em variados contextos da área da saúde. Para consolidar o estudo, uma implementação do modelo, juntamente com um servidor FHIR, foi configurado, possibilitando em realizar testes e validar protocolos 19 do padrão. Este modelo, nomeado FHIR-FLOW, foi avaliado com base em sua eficácia em promover a interoperabilidade com FHIR e superar barreiras existentes na troca de informações de saúde, considerando tanto bases de dados estruturadas como não estruturadas. Com relação às questões teóricas desta pesquisa e aos detalhes dos procedimentos metodológicos aplicados, foi realizada inicialmente uma composição do corpus teórico. Este processo foi conduzido por meio de uma pesquisa bibliográfica abrangente, consultando diversas bases de dados relevantes para as áreas da Ciência da Informação e Ciência da Computação. As bases de dados incluíram: Base de Dados em Ciência da Informação (BRAPCI), Institute of Electrical and Electronics Engineers (IEEE) XPlore e entre outras. Os termos utilizados nas buscas foram "interoperabilidade saúde" e "health interoperability", respectivamente. O objeto de análise considerado neste estudo são os artigos científicos. A partir das buscas realizadas, um total de 29 artigos foram encontrados na BRAPCI, dos quais 8 foram identificados como alinhados à proposta desta pesquisa. Da mesma forma, na base de dados IEEE XPlore, dos 17 artigos retornados, 4 foram pertinentes à proposta da pesquisa. Com a literatura recuperada, os artigos selecionados foram submetidos a uma leitura detalhada, buscando destacar o problema de pesquisa, os objetivos, a metodologia, os resultados e as conclusões de cada trabalho. Este processo permitiu uma compreensão mais profunda dos desafios e avanços recentes no campo da interoperabilidade na saúde. No aspecto empírico desta pesquisa, foi conduzido um estudo sobre o padrão de interoperabilidade de dados FHIR. Esta investigação não se limitou a uma análise teórica da estrutura e composição do padrão, mas também incluiu a implementação concreta de um servidor FHIR. Em paralelo, foram aplicadas técnicas de Machine Learning (ML) e Processamento de Linguagem Natural (PLN) para a extração de dados dos documentos. Dada a heterogeneidade dos dados, que podem se apresentar de forma estruturada ou não, o ML e o PLN foram instrumentais na identificação e extração de entidades, permitindo uma compreensão do conteúdo dos dados clínicos. Ademais, foram analisados dados de alergia de prontuários eletrônicos fornecidos pelo Hospital Sírio Libanês, através de uma metodologia de arquitetura da informação para extração de metadados de negócio, que contribuiu estabelecendo 20 uma conexão entre teoria e realidade do setor de saúde, e permitiu a validação efetiva do modelo de interoperabilidade proposto. Este estudo também avançou na implementação e validação do modelo de interoperabilidade desenvolvido, fase que envolveu a construção e aplicação do modelo em um ambiente controlado, utilizando dados reais para avaliar sua eficácia. Testes foram conduzidos para assegurar a integração e comunicação eficaz comparando o resultado com a análise que foi realizada com os dados do HSL. No que diz respeito às limitações deste estudo, a pesquisa concentrou-se apenas na interoperabilidade de dados de saúde existentes e nos desafios associados, sem se aprofundar nas etapas anteriores da construção de novas bases de dados, e também com relação a aplicação terminológica, onde foi considerada somente a terminologia SNOMED CT. O esquema dos passos desenvolvidos na metodologia pode ser observado na Figura 1. Figura 1 – Esquema do passo a passo da metodologia. Fonte: Elaborado pelo autor. A Figura 1 mostra uma visão geral da metodologia da pesquisa, iniciando com pesquisa básica e exploratória, seguida de análise bibliográfica. Posteriormente, ocorre a análise e mapeamento de dados de alergia do HSL, adaptando-os ao padrão FHIR. O desenvolvimento do modelo de interoperabilidade envolve a utilização do padrão FHIR e SNOMED CT, com a seguinte configuração e testes em um servidor FHIR, resultando na implementação e validação do modelo com testes práticos. 21 1.4 Estrutura da Pesquisa A seção de introdução tem como objetivo apresentar e delimitar o escopo da pesquisa e expor os principais desafios e oportunidades relacionados ao tema em questão. No texto é detalhado o problema de pesquisa, a justificativa e os objetivos gerais e específicos do estudo. Além disso, é apresentada a metodologia aplicada para o desenvolvimento da pesquisa, bem como a estrutura que será adotada. Na seção 2, denominada “Panorama dos dados de Saúde”, são abordados os aspectos fundamentais dos dados clínicos de pacientes e discutida a importância desses dados desde o início do contato assistencial, abordando a necessidade de identificação correta da patologia e a escolha assertiva do tratamento. São mencionadas as informações contidas nos prontuários eletrônicos, incluindo dados de origem exclusiva dos pacientes e dados provenientes de contatos assistenciais. Destacam-se também na seção a extensão dos dados de saúde, e suas implicações no cuidado ao paciente, e explorado o conceito de interoperabilidade de dados de saúde, e sua importância na troca de informações entre diferentes sistemas. Apresentam-se os benefícios da interoperabilidade, como a troca de informações na gestão de consultórios, clínicas e hospitais, o compartilhamento seguro de dados do prontuário eletrônico do paciente e a disponibilização ágil de resultados de exames laboratoriais. São abordadas as atividades e recursos envolvidos no processo de interoperabilidade, como a heterogeneidade das fontes de dados e os modelos de troca de informação entre instituições de saúde. Na seção 3, intitulada “Interoperabilidade de dados de Saúde: Trabalhos Correlatos”, são apresentados estudos correlatos que abordam a integração de dados de saúde. Nessa seção, são mencionadas pesquisas consideradas relevantes, como o trabalho de Petry et al. (2008), que propõe um modelo de interoperabilidade utilizando o padrão HL7, e o estudo de Roehrs et al. (2018), que apresenta um modelo de integração de dados de saúde a partir de uma base de dados com registros médicos processados. Nesse sentido, também é referido o trabalho de Braunstein (2018), que discute os níveis de interoperabilidade desejados no contexto da saúde. Por fim, são destacados os principais resultados e limitações desses estudos. Ao final da seção são apresentadas as principais diferenças entre os trabalhos correlatos e o trabalho atual. 22 Na seção 4, denominada “Padrão FHIR”, é discorrida em maior detalhe o padrão FHIR, promovido pela HL7, e seu objetivo de determinar uma transferência representacional do estado para representar as entidades e procedimentos de saúde como recursos. Na seção, é discutido o papel dos recursos no FHIR e como eles definem a estrutura e o conteúdo de informações transmitidas entre sistemas. Menciona-se também a utilização de terminologias no FHIR, que vinculam os dados a vocabulários comuns, como SNOMED, Logical Observation Identifiers Names and Codes (LOINC) e International Classification of Diseases (ICD). Por fim, é destacado o impacto do uso do padrão FHIR na melhoria do acesso à informação e na qualidade do atendimento ao paciente. Na seção 5, denominada “Machine Learning na Área da Saúde”, é discutido o papel do Machine Learning, ou “aprendizado de máquina” na área da saúde. É abordada a necessidade de extração e normalização de dados a partir de documentos médicos, e como o ML pode auxiliar nesse processo, e explorado o uso de algoritmos de ML na categorização de informações em registros médicos e na conversão de dados não estruturados em dados estruturados. Nesta seção, são apresentadas aplicações do ML na medicina, como o diagnóstico é auxiliado por computador, a sua personalização de tratamentos médicos e os desafios e oportunidades do uso de ML na saúde. Na seção 6, intitulada “Dados de Alergia do Hospital Sírio Libanês: análise com Metadados de Negócio", é elucidada a aplicação prática de integração de dados e interoperabilidade no contexto do HSL. A seção apresenta a importância dos metadados no ambiente de negócios e como eles contribuíram para assegurar a informação correta. Esta inserção proporciona um estudo de caso real, que demonstra as teorias e práticas discutidas nas seções anteriores e evoca insights para a construção do modelo de interoperabilidade com FHIR. Na seção 7, denominada "FHIR-FLOW: Modelo de Mapeamento de Dados de Saúde para FHIR", é apresentado o FHIR-FLOW, um modelo de interoperabilidade cujo objetivo principal é abordar e solucionar os desafios de interoperabilidade de dados ao agir como uma ponte, transformando dados brutos e heterogêneos em informações padronizadas e prontas para interoperabilidade. A seção explora a concepção e funcionalidade do modelo, demonstrando como ele pode ser aplicado em diferentes contextos da saúde, além da prova de conceito com os dados do HSL. 23 2 PANORAMA DOS DADOS DE SAÚDE Os dados clínicos de pacientes são fundamentais desde o início do contato assistencial, a começar pela identificação correta da patologia, que possibilita a eleição adequada de tratamento, medicações e procedimentos. A escolha correta do tratamento pode não só diminuir o tempo de duração da patologia, como interferir diretamente na prevenção de óbitos, dado que “o erro de diagnóstico pode ser a maior preocupação de segurança do paciente não tratada nos Estados Unidos, responsável por cerca de 40.000 a 80.000 mortes anualmente”, como afirma Graber (2017, 1). A extensão dos dados de saúde contempla toda a abrangência de dados clínicos, desde informações de origem exclusiva dos pacientes, como tipo sanguíneo e etnia, até os dados provenientes de contatos assistenciais, como resultado de exames, anamneses, evoluções e receituários. Para ajudar na etapa de identificação e monitoramento das patologias são utilizados resultados de exames, que subsidiam os profissionais nas tomadas de decisões de diagnósticos quanto nas evoluções posteriores, mediante a medicações e procedimentos. Atualmente, de acordo com Graber (2017), existem mais de 4.000 testes de laboratório selecionáveis, e um número comparativamente desconcertante de opções de imagem. Além dos dados puramente clínicos, informações geográficas desempenham um papel importante, especialmente, quando se trata de identificar fatores de natureza epidemiológica. Hung (2020) ressalta que a natureza detalhada dos dados do Sistema de Informação em Saúde, combinada à sua capacidade de se relacionar com outros dados geográficos, pode impulsionar pesquisas significativas, aprofundando a compreensão sobre a epidemiologia das doenças. Para proporcionar uma compreensão clara e detalhada das informações e suas inter-relações no contexto da saúde, é fundamental que ocorra a representação desses dados através de mapas conceituais. Essas ferramentas destacam-se na representação de conceitos clínicos e assistenciais, evidenciando a complexidade das inter-relações entre dados clínicos. Ademais, a inclusão de ontologias, que são usadas para estruturar e codificar adequadamente esses dados, é importante. Segundo Pickler (2007), as ontologias são essenciais na Web Semântica e desempenham um papel vital na representação do conhecimento e na contextualização dos dados, pois possibilitam realizar interpretação semântica das informações por máquinas e sistemas, facilitando a integração de dados entre 24 diferentes plataformas. No setor da saúde, sistemas como LOINC, ICD10 e SNOMED são exemplos da aplicação de ontologias para a codificação padronizada de dados. Figura 2 - Mapa conceitual do ambiente informacional de prontuário eletrônico Fonte: Adaptado de IQBAL et al., 2011. 25 Na figura 2, pode-se observar um sistema de Registros Eletrônicos de Saúde (EHR, tradução livre), no qual como diversos componentes interagem de forma integrada. No coração deste sistema está o próprio EHR, que atua como um núcleo central armazenando e gerenciando informações essenciais de saúde. O EHR está intrinsecamente ligado a um banco de dados, onde armazena informações dos pacientes, incluindo seus prontuários, que, por sua vez, são uma compilação abrangente de dados do paciente, contendo receituários, exames, anamneses e evoluções. Ele é estruturado em dois aspectos principais: esquema estrutural, que define a arquitetura dos dados; e esquema semântico, que interpreta o significado desses dados. As instituições de saúde, cada uma com seu próprio sistema de EHR, são conectadas ao núcleo, refletindo a realidade de que os pacientes são atendidos em várias instituições, e, cada uma delas, contribui para o acervo de dados do paciente, cuja construção ocorre de forma distribuída, ao longo do tempo. Dentro do esquema semântico, há um papel que é desempenhado pelo vocabulário padronizado, que inclui terminologias como CID10, LOINC e SNOMED CT. Esses vocabulários são usados para representar exames, doenças e sintomas de maneira padronizada e garantir que os dados sejam compreensíveis e interoperáveis entre diferentes sistemas, facilitando a compreensão e o compartilhamento de informações. Além de que, parte dos dados nos prontuários, como receituários, anamneses e evoluções, são frequentemente não estruturados. Neste cenário, entra em atuação o processamento de linguagem natural, uma tecnologia que extrai informações significativas desses dados não estruturados, como sintomas e diagnósticos de doenças. A ontologia, outra camada neste sistema, representa exames, sintomas e doenças, auxilia na organização e na interpretação dos dados de saúde, e facilita a identificação de padrões e conexões, como a relação entre exames específicos e as doenças que eles ajudam a diagnosticar. Portanto, neste sistema de EHR, cada componente desempenha um papel importante na gestão dos registros de saúde, trabalhando em conjunto para assegurar que os dados de saúde sejam não apenas armazenados, mas também interpretados e utilizados de maneira que melhore o atendimento ao paciente e a eficiência das instituições de saúde. Em um cenário ideal, permitiria que os dados dos pacientes sejam compartilhados por diferentes instituições de saúde. 26 2.1 Interoperabilidade de Dados de Saúde Na área da saúde, a interoperabilidade vem crescendo para permitir a troca de dados entre os diferentes sistemas e ferramentas utilizadas, gerando mais informações valiosas no cuidado do paciente. Nesse sentido, Pine (2019, p. 1) complementa que: As pesquisas sobre interoperabilidade e troca de informações entre sistemas de tecnologia da informação destacam o uso de dados para uma variedade de propósitos, incluindo pesquisa, gestão, melhoria da qualidade e prestação de contas. Dentre os principais benefícios no setor da saúde, a interoperabilidade permite: • Trocar de informações na gestão de consultórios, clínicas e hospitais. Ela é especialmente útil para instituições que atuam em todos os níveis de atenção ao paciente, permitindo o rastreio clínico do indivíduo nos serviços utilizados; • Compartilhar dados do Prontuário Eletrônico do Paciente (PEP) com segurança, para aumento de evidências que subsidiam decisões clínicas; • Disponibilizar resultados de exames laboratoriais e de radiologia, proporcionando emitir e obter laudos com maior agilidade. A interoperabilidade no setor da saúde, baseada em um modelo abrangente, proporciona uma visão integral da saúde do paciente ao reunir, compartilhar e utilizar diferentes informações clínicas e administrativas. Este modelo aumenta a segurança e eficiência da assistência à saúde, facilitando a comunicação entre os profissionais envolvidos no cuidado do paciente. Isso reduz procedimentos e exames duplicados, o que não somente promove agilidade e transparência na troca de informações, mas também contribui significativamente para a otimização dos processos e a redução de custos no sistema de saúde. Entretanto, as atividades e recursos envolvidos no processo de interoperabilidade são complexos, devido a fatores como a própria heterogeneidade das diversas fontes de dados, que apresentam desde diferenças estruturais e semânticas até os modelos de troca de informação entre as instituições de saúde. As diferenças estruturais podem ser observadas no modo como os sistemas organizam e armazenam seus dados, como quantidade de tabelas, tipagem de dados e escolha por texto livre ou informações tabuladas. As diferenças semânticas podem ser percebidas desde a escolha de vocabulários adotados por cada instituição, que, 27 apesar de possuir essencialmente o mesmo significado, são identificados por códigos e descrições divergentes. Para que as instituições possam trocar informações de forma precisa e automática, os documentos clínicos eletrônicos devem fazer uso de códigos clínicos estabelecidos, também chamados de vocabulários controlados, como de SNOMED CT, LOINC e ICD-10. No entanto, não existe um esquema de codificação universalmente aceito que encapsula todas as informações clínicas, como afirma Hamm (2007). Atualmente, existem diversas propostas de soluções e caminhos a serem adotados, para realizar a interoperabilidade que se complementam, e para padrões trocar informações, como o TISS e o padrão FHIR. Mesmo considerando os desafios existentes, a adoção de interoperabilidade de dados de saúde é uma prática eficiente, pois traz às instituições a possibilidade de oferecer um tratamento mais eficiente ao paciente, ao mesmo tempo que otimiza a utilização de seus recursos, aumenta a eficiência nos processos, e reduz custos. Na próxima seção são apresentados trabalhos correlatos realizados no cenário de interoperabilidade de dados de saúde, com o intuito de expor suas principais características e desafios. 28 3 INTEROPERABILIDADE DE DADOS DE SAÚDE: TRABALHOS CORRELATOS Para a elaboração desta revisão de literatura, foram analisados diversos artigos científicos que abordaram a interoperabilidade de dados de saúde em sistemas de prontuários eletrônicos do paciente, com ênfase no uso do padrão. A seleção dos artigos foi baseada em critérios de relevância, priorizando pesquisas acadêmicas que investigaram o uso de técnicas contemporâneas de mapeamento semântico, Machine Learning e outras abordagens, visando a interoperabilidade dos dados de saúde nos prontuários eletrônicos. Cada artigo selecionado foi submetido a uma análise, considerando essas categorias, e suas respectivas implicações, para promoção da interoperabilidade de dados de saúde nos sistemas de prontuários eletrônicos, com foco especial na aplicação do padrão FHIR, como uma solução viável. O estudo de Petry et al. (2008) introduziu um modelo baseado no padrão HL7, projetado para um servidor de troca de mensagens, que envolve 77 municípios da Rede Catarinense de Telemedicina (RCTM). Esta abordagem resultou em reduções expressivas de custos e tempo de atualização, e ofereceu um reforço notável na segurança do Portal de Telemedicina. Contudo, a abordagem de mapeamento dos dados originais permaneceu obscura, não disponibilizados detalhes no estudo. Roehrs et al. (2018) apresentaram um modelo de integração de dados de saúde vindos de registros médicos de 38.645 pacientes adultos. Para tal, utilizaram padrões renomados, incluindo openEHR, HL7 FHIR e Medical Information Mart for Intensive Care (MIMIC-III). Um dos triunfos desse trabalho foi a implementação eficaz de técnicas de Inteligência Artificial (IA) e processamento de linguagem natural para impulsionar a interoperabilidade. No entanto, uma limitação saliente foi a concentração exclusiva em dados já padronizados, sem atenção a dados brutos ou não conformes. Enquanto Braunstein (2018) abordou os níveis de interoperabilidade desejados e discutiu as complexidades e desafios associados ao padrão anterior da HL7, valorizando o padrão FHIR como uma solução promissora e evidenciando sua adoção por instituições de grande envergadura, como Medicare e Veteran's Administration (VA). Porém, embora sua discussão tenha sido rica em insights, Braunstein (2018) não delineou um modelo ou fluxo específico para a adaptação de dados brutos ao padrão FHIR. 29 Chatterjee et al. (2022) focaram na problemática da heterogeneidade na armazenagem e troca de dados em sistemas de informação de saúde digital. Eles propuseram utilizar o padrão FHIR juntamente com o SNOMED CT, para conectar dados de saúde pessoais a prontuários eletrônicos de saúde e, como prova de conceito, desenvolveram o aplicativo de coaching de saúde, denominado como eCoach. A combinação eficaz de HL7 FHIR e vocabulários SNOMED CT, bem como a implementação de padrões de qualidade de interoperabilidade, foram pontos fortes destacados. Contudo, as técnicas empregadas ainda não foram testadas ou validadas em ambientes clínicos reais, com uma variedade mais ampla de dados e situações, o que sugere que a generalização para cenários de saúde mais complexos pode ser um desafio. Na pesquisa de Balch et al. (2023), exploraram a aplicação e potencial dos sistemas de informação clínica habilitados para Machine Learning o contexto da transformação da entrega e pesquisa em saúde. Sublinharam a crescente integração do padrão de dados Fast Healthcare Interoperability Resources nesses sistemas, apesar das variações em métodos de implementação. A pesquisa revelou avanços notáveis, como uso inovador de sistemas em nuvem, redes Bayesianas, estratégias de visualização, técnicas de conversão de dados não estruturados para FHIR. Entretanto, identificaram-se limitações significativas, como enfrentamento de barreiras de interoperabilidade, com prontuários eletrônicos de saúde em sistemas avançados e a presença de carência de evidências, externamente validadas quanto à sua eficácia clínica. Pimenta et al. (2023) investigaram a contínua problemática da interoperabilidade dos dados clínicos, mesmo diante dos avanços tecnológicos na área da saúde. Enfatizaram o padrão FHIR como uma ferramenta construída sobre padrões da web, destacando sua flexibilidade, facilidade de uso e implementação. A pesquisa teve como objetivo avaliar o potencial do FHIR, identificando componentes essenciais que podem otimizar a interoperabilidade e estabelecer uma conexão mais eficiente entre sistemas de saúde e fontes de dados clínicos. Ao adotar o FHIR, observou-se que os profissionais de saúde poderiam comunicar-se de maneira mais aprimorada. Embora o trabalho tenha abordado a promissora implementação do padrão FHIR para interoperabilidade de dados clínicos, ele baseou-se principalmente em uma revisão da literatura já existente, não tendo descobertas e conclusões validadas experimentalmente em ambientes práticos, o que limita a aplicabilidade 30 direta das recomendações em cenários clínicos reais. A seguir, na Tabela 1, constam os dados comparativos entre os trabalhos estudados: Tabela 1 – Dados comparativos entre trabalhos correlatos. Autor(es) e Ano Padrões Abordados Pontos Fortes Limitações Uso de IA? Petry et al. (2008) HL7 Redução de custos e tempo, Segurança no Portal de Telemedicina Falta de detalhes sobre a abordagem de mapeamento dos dados originais para o padrão HL7 Não Roehrs et al. (2018) openEHR, HL7 FHIR, MIMIC-III Uso eficaz de IA e NLP Concentração em dados já padronizados Sim Braunstein (2018) HL7, FHIR Valorização do padrão FHIR Não delineou modelo para adaptação de dados brutos ao FHIR Não Chatterjee et al. (2022) FHIR, SNOMED CT Combinação de HL7 FHIR e SNOMED CT Não testado em ambientes clínicos reais Sim Balch et al. (2023) FHIR Uso de sistemas em nuvem, conversão de dados não estruturados para FHIR Barreiras de interoperabilidade com prontuários eletrônicos, falta de evidências validadas Sim Pimenta et al. (2023) FHIR Flexibilidade e facilidade do FHIR Baseado em revisão da literatura, sem validação experimental Não Trabalho Atual FHIR Uso de SNOMED CT e proposta de modelo generalista para mapeamento para padrão FHIR Restrição a SNOMED CT, e testado somente com dados de alergia Sim Fonte: Elaborado pelo autor. 31 4 PADRÃO FHIR O avanço da tecnologia da informação tem desempenhado um papel significativo na transformação dos sistemas de saúde, proporcionando melhorias na coleta, armazenamento e troca de informações médicas. No entanto, a interoperabilidade eficiente e segura dos dados de saúde continua sendo um desafio enfrentado pela indústria e pelos profissionais de saúde. Nesse contexto, o padrão FHIR, foi criado com objetivo de fornecer um conjunto de recursos e Application Programming Interface (APIs) baseadas em Representational State Transfer (REST), para facilitar o acesso e uso de dados de saúde do paciente, em um nível granular (Ayaz et al., 2021), e representar as entidades e procedimentos de saúde como recursos, como por exemplo, paciente, medicação, observação, e notas clínicas. A ideia central consiste em construir um conjunto básico de recursos que, isoladamente ou combinados, atende a muitos usos comuns casos (Stan; Miclea, 2018). A proposta do FHIR é oferecer uma abordagem atualizada para o compartilhamento de informações de saúde, superando as limitações dos padrões anteriores. Uma das principais vantagens do FHIR está em sua capacidade de fornecer uma camada semântica, permitindo associação dos dados de saúde às terminologias internacionais, como SNOMED, LOINC e ICD. Esse processo facilita a padronização e interoperabilidade dos dados, garantindo que as informações sejam compreendidas e interpretadas corretamente pelos sistemas de saúde. Além disso, o FHIR adota uma abordagem orientada a serviços, oferecendo funcionalidades como consultas, serviços de notificação e autenticação, que contribuem para a troca segura e eficiente de informações entre sistemas de saúde. 4.1 Arquitetura Geral do FHIR A arquitetura do FHIR segue os princípios do estilo arquitetural REST, no qual é orientada em torno de recursos, que são a unidade central do FHIR. Esses recursos representam diversas entidades e conceitos na área da saúde, como pacientes, medicamentos, condições clínicas, agendamentos, procedimentos, entre outros (Saripalle et al., 2019). Cada recurso é definido em formatos de dados estruturados, como em Extensible Markup Language (XML), JavaScript Object Notation (JSON) ou 32 Resource Description Framework (RDF), e são acessíveis através de APIs baseadas em Hypertext Transfer Protocol (HTTP). Essa abordagem modular, que expõe entidades de dados de saúde, como serviços acessíveis via APIs baseadas em HTTP, diferencia o FHIR de outros padrões mais centrados em documentos, tendo a sua implementação facilitada pela flexibilidade na escolha do formato de representação de dados (Saripalle et al., 2019). Além dos recursos, a arquitetura do FHIR também incorpora perfis, que são definições adicionais e restrições usadas para adaptar os recursos aos contextos específicos de implementação. Esses perfis permitem a personalização e extensão dos recursos, garantindo a conformidade com requisitos e necessidades locais. Figura 3 – Visão de acesso aos recursos na arquitetura FHIR Fonte: Adaptada de HL7 FHIR, 2021. A Figura 3 representa o acesso aos recursos FHIR, que são considerados componentes essenciais dos dados de saúde. O quadrado maior representa esses recursos, como Observação, Relatórios, Paciente, Médico, entre outros. O quadrado "Acesso" simboliza a maneira pela qual os usuários e sistemas interagem com esses recursos, usando APIs baseadas em HTTP/REST. A figura visualiza a relação entre os recursos FHIR e o acesso a eles, destacando a importância do padrão FHIR na disponibilização dos dados de saúde e promovendo a interoperabilidade entre os sistemas. 33 4.2 Recursos FHIR O FHIR utiliza um componente central denominado Resource, que é essencial na definição da estrutura e conteúdo das informações trocadas entre diferentes sistemas de saúde. Um recurso, no FHIR, pode ser estruturado por meio de composição, o que significa que ele pode incluir referências a outros recursos dentro do sistema. Todos os recursos no FHIR apresentam uma forma comum de representação. Eles utilizam tipos de dados primitivos, como integer (número inteiro), string (cadeia de caracteres) e boolean (valor verdadeiro ou falso), para garantir a consistência na troca de informações. Além disso, estes recursos podem estar associados a outros tipos de recursos específicos, como Patient (Paciente), Visit (Visita) e Drug (Medicamento). Um aspecto importante dos recursos no FHIR é a inclusão de uma parte legível por humanos, chamada human-readable que consiste em uma narrativa livre, e permite que informações adicionais, que podem não ser facilmente representadas pelos tipos de dados primitivos, sejam incluídas, garantindo assim uma compreensão mais ampla do contexto e do conteúdo dos dados transmitidos. Figura 4 – Diagrama UML parcial do recurso FHIR Patient Fonte: Adaptada de HL7 FHIR, 2021. A Figura 4 apresenta um diagrama Unified Modeling Language (UML) representando o recurso Patient, baseada no recurso de mesmo nome do FHIR. O recurso inclui respectivamente atributos de identificador, status de atividade, nome, celular, data de nascimento, endereço e foto. 34 Outros componentes localizados na arquitetura FHIR são os ValueSets, que são usados para padronização e reutilização de dados em cenários clínicos. Os ValueSets definem um conjunto de valores aceitos para um cenário de saúde específico, agregando valor semântico aos dados e facilitando a interoperabilidade. Além dos ValueSets, o FHIR incorpora o componente Terminologies. Este componente é responsável por vincular dados clínicos às terminologias internacionais já estabelecidas, como SNOMED, LOINC, ICD-9 e ICD-10. Essa integração permite o reaproveitamento de vocabulários existentes e amplamente utilizados, e possibilita a realização de mapeamentos entre diferentes terminologias com base em evidências. Portanto, o FHIR, por meio dos ValueSets e do componente Terminologies, proporciona uma estrutura para a interoperabilidade de dados em saúde, permitindo a padronização de vocabulários e valores em cenários clínicos, além de facilitar a integração com terminologias internacionais, o que viabiliza a precisão na troca de informações de saúde. 35 Figura 5 – Mapa conceitual da arquitetura do padrão FHIR. Fonte: Adaptada de HL7 FHIR, 2021. Na Figura 5 pode-se observar a arquitetura geral do FHIR, que representa uma evolução do padrão HL7 e é considerado uma tentativa de melhorar a interoperabilidade no setor de saúde. Ao contrário do HL7, que é predominantemente sintático, o FHIR é tanto sintático quanto semântico, o que significa que ele aborda 36 não apenas a estrutura dos dados, mas também o seu significado. O FHIR é composto por Resources, que são conceitos discretos de dados. Estes Resources possuem um significado definido e incluem exemplos como Vocabulary Binding, Patient, Medication e Family History, que são recursos que, por sua vez, representam informações do contato assistencial. Para garantir flexibilidade e escalabilidade, o FHIR permite Extensions, que são artefatos que podem estender e personalizar os Resources. Os Profiles no FHIR são uma maneira de definir regras específicas e restrições para os Resources. Eles contêm Extensions do FHIR, atendem a diferentes cenários e possuem Value Sets definidos, que são conjuntos finitos de valores aceitos em um determinado dado. O Procedure Profile é um exemplo de um Profile, que abrange vários conceitos como Condition, Encounter, Practitioner, Reports e Patient. Há também Shared Profiles, que são projetados para promover a interoperabilidade, garantindo que os dados sejam trocados com o mesmo significado entre os sistemas, através de compartilhamento de definições FHIR entre instituições. O FHIR enfatiza a troca de dados com o mesmo significado, e, sendo Machine Readable, garante que as máquinas possam ler, interpretar e usar esses dados de forma eficiente. Dessa forma, o padrão FHIR representa uma evolução significativa na busca pela interoperabilidade no setor de saúde, abordando tanto aspectos sintáticos quanto semânticos dos dados e proporcionando flexibilidade através de Resources, Extensions e Profiles. Neste capítulo destacou-se a importância do FHIR para a interoperabilidade na saúde. No entanto, a simples conexão entre sistemas representa somente uma parte do potencial. A análise profunda desses dados unificados, principalmente, os não estruturados, é uma demanda latente. No próximo capítulo, discute-se o papel do Machine Learning neste cenário. Com sua capacidade de lidar com grandes volumes de dados e extrair insights valiosos, pois ele potencializa a análise clínica e auxilia na própria questão da interoperabilidade, facilitando a conversão e integração de dados. 37 5 MACHINE LEARNING NA ÁREA DA SAÚDE Na medicina atual, a extração e normalização de dados, a partir de documentos médicos, são desafios significativos, especialmente em clínicas menores ou em regiões com transição lenta para sistemas digitais, devido às limitações financeiras, falta de treinamento ou infraestrutura tecnológica. Profissionais de saúde, frequentemente, dependem de registros médicos em papel, onde gerenciamento, recuperação e acesso são trabalhosos, lentos e propensos a erros. Essa ineficiência aumenta o risco de erros clínicos e impacta a qualidade do atendimento ao paciente. Além disso, a ausência de padrões unificados, para representação e armazenamento de dados de saúde, agrava os problemas de interoperabilidade, criando barreiras a comunicação eficiente entre diferentes sistemas, dispositivos e plataformas. Neste cenário, o Machine Learning surge como uma ferramenta transformadora, no qual é considerado um campo da Inteligência Artificial que envolve o desenvolvimento de algoritmos capazes de aprender e fazer previsões ou decisões baseadas em dados (Ghassemi et al., 2020). O ML permite que sistemas melhorem automaticamente sua performance com experiência, sem serem explicitamente programados para cada situação específica. Desta maneira, na saúde, o Machine Learning pode ser aplicado para melhorar a eficiência operacional em uma série de trabalhos, incluindo conversão de registros médicos em papel para formatos digitais. Algoritmos de ML, por exemplo, podem ser treinados para reconhecer padrões complexos em dados de saúde. Além disso ele também tem um papel útil na interoperabilidade entre sistemas de saúde, pois técnicas de processamento de linguagem natural, um subcampo do ML, podem extrair e organizar informações de diversas fontes de dados automaticamente. 5.1 Potencial e aplicações A aplicação de Machine Learning na medicina tem gerado inovações significativas revolucionado a maneira como a saúde é abordada. Esta transformação é evidente na melhoria da qualidade e eficiência do cuidado ao paciente, especialmente devido ao fato de que os EHRs se tornaram uma fonte de dados extremamente rica, conforme destacado por Ghassemi et al. (2020). O ML, com sua capacidade de aprender e se adaptar continuamente a novos conjuntos de dados, mostra-se útil na extração e normalização de dados médicos 38 essenciais. Algoritmos de ML são capazes de ser treinados para reconhecer, categorizar e interpretar informações em registros médicos, que é um processo fundamental para a transformação de dados não estruturados em estruturados. Este processo está intimamente ligado à Ciência da Informação e desempenha um papel crucial na recuperação de informações. Além do mais, técnicas avançadas de processamento de linguagem natural permitem que modelos de ML interpretem textos escritos e transcrevam dados médicos em formatos normalizados, viabilizando a interoperabilidade entre diferentes sistemas de saúde e contribuindo para uma gestão mais eficiente dos registros, com uma prática médica mais informada e baseada em evidências. Essa eficiência e precisão na gestão de dados médicos, através do Machine Learning, abre caminho para uma compreensão mais profunda dos diferentes tipos de aprendizado de máquina e suas aplicações específicas na medicina e na Ciência da Informação. A Tabela 2 apresenta os principais tipos de Machine Learning e faz uma correlação com conceitos fundamentais da CI. Tabela 2 – Principais tipos de Machine Learning e sua correção com a CI Tipo de Aprendizado Explicação Correlação com a Ciência da Informação Aprendizado Supervisionado O algoritmo aprende a partir de exemplos rotulados. Ele recebe pares de entrada e saída e aprende a mapear um no outro. Corresponde ao conceito de "indexação" na Ciência da Informação. Assim como na indexação, o aprendizado supervisionado requer um conjunto de dados de treinamento bem definido e rotulado para que o algoritmo possa aprender e fazer previsões precisas. Aprendizado Não Supervisionado O algoritmo aprende a encontrar padrões e relações nos dados por conta própria. Não recebe saídas para as entradas. Relaciona-se ao conceito de "recuperação de informações" na CI. Assim como na recuperação de informações, o aprendizado não supervisionado analisa conjuntos de dados não rotulados para descobrir padrões e estruturas subjacentes. Aprendizado por Reforço O algoritmo aprende através de interações e feedback do ambiente. Recebe recompensas ou punições com base em suas ações. Correlaciona-se ao conceito de "feedback do usuário" na Ciência da Informação. Assim como o feedback do usuário é usado para ajustar e melhorar a precisão dos sistemas de recuperação de informações, o aprendizado por reforço ajusta seu comportamento com base no feedback para melhorar seu desempenho ao longo do tempo. Fonte: Adaptada de JANIESCH et al., 2021. 39 Neste cenário, os modelos de ML têm sido aplicados em várias áreas da medicina, desde diagnósticos auxiliados por computador até a criação de planos de tratamento personalizados. No diagnóstico auxiliado por computador, algoritmos de ML são usados para detectar padrões em imagens médicas que podem ser desafiadores para a identificação humana. Os modelos de ML têm sido utilizados para detectar tumores em imagens de ressonância magnética e para identificar doenças oculares em imagens de retina, conforme é destacado por Javaid et al. (2022). O ML também tem um papel útil na personalização de tratamentos médicos, pois algoritmos podem analisar dados de pacientes, incluindo histórico médico, resultados de exames laboratoriais e informações genômicas, para desenvolver planos de tratamento personalizados. O uso do ML pode aumentar a eficácia do tratamento, reduzindo efeitos colaterais e melhorando a qualidade de vida dos pacientes (Javaid et al., 2022). A seguir, são destacados os principais pilares da aplicação de ML na área da saúde, que variam desde a prevenção e preparação para surtos de doenças até o aprimoramento de tratamentos e diagnósticos médicos. Segundo Janiesch et al. (2021), esses pilares incluem: ● Previsão de Surto: utilização de algoritmos para se antecipar e preparar para surtos de doenças, maximizando a prontidão e a resposta. ● Descoberta e Fabricação de Medicamentos: aceleração da identificação de compostos terapêuticos e otimização dos processos de fabricação. ● Modificação Comportamental: uso de dados e análises para incentivar comportamentos saudáveis e mudanças de estilo de vida. ● Registros de Saúde Inteligentes: aprimoramento a gestão e análise dos prontuários eletrônicos para extração de insights clínicos. ● Coleta de Dados Colaborativa: potencializa a coleta de informações de múltiplas fontes, tornando a pesquisa e o diagnóstico mais abrangentes. ● Melhor Radioterapia: otimiza tratamentos de radioterapia para maior eficácia e minimização de efeitos colaterais. ● Diagnóstico de Imagens Médicas: melhora a precisão do diagnóstico por meio da análise automatizada de imagens, como raios-X e ressonância magnética. ● Clínica e Pesquisa: facilita a investigação clínica e a pesquisa médica, através da análise de grandes conjuntos de dados. 40 Esta representação visual destaca o potencial do Machine Learning na transformação e avanço do setor de saúde, abrangendo desde a prevenção até a intervenção terapêutica. Por fim, no contexto de interoperabilidade de dados, o uso de ML na medicina também oferece oportunidades para melhorar o acesso à informação e a qualidade do atendimento ao paciente. A aplicação de técnicas de ML, como proposto por Bouh, Hossain e Ahmed (2023), permite extrair e padronizar dados médicos de documentos digitalizados de acordo com os padrões FHIR. Nesse sentido, ele não apenas aprimora a eficiência dos dados de saúde, mas também contribui para a interoperabilidade deles, viabilizando a troca e aplicação de informações em diferentes sistemas. 5.2 Processamento de Linguagem Natural Dentro da Ciência da Informação, o Processamento de Linguagem Natural é uma área interdisciplinar que integra conhecimentos da Ciência da Computação, Inteligência Artificial e Linguística. Segundo Caseli et al. (2022), o PLN é essencial para a CI, fornecendo métodos e ferramentas para compreender, interpretar e gerar linguagem humana. Esta área é fundamental para aprimorar a interação entre computadores e usuários, tornando-a mais natural e intuitiva. O PLN utiliza algoritmos e modelos matemáticos para analisar a estrutura e o significado da linguagem. Inicialmente, emprega-se modelos estatísticos e de aprendizado profundo para identificar padrões linguísticos. Posteriormente, técnicas de análise sintática e semântica são aplicadas para examinar a gramática e o significado das palavras e frases. O objetivo final do PLN é superar a barreira entre a linguagem natural humana e a linguagem de máquina, permitindo o desenvolvimento de sistemas que processam a linguagem natural de maneira eficaz e intuitiva. Após a etapa inicial de compreensão dos padrões linguísticos, o PLN conforme descrito por Caseli et al. (2022), avança para a análise léxica. Essa fase consiste em decompor o texto em unidades menores, como palavras ou termos, denominados como tokens. A análise léxica é essencial para identificar e isolar os elementos básicos da linguagem, e uma vez realizada a tokenização, segue-se para análise sintática. Esta etapa envolve determinar as funções gramaticais dos tokens, permitindo a construção de árvores sintáticas, que ilustram a estrutura gramatical das frases. Estes 41 processos são importantes para converter a linguagem natural em um formato estruturado, acessível para o processamento por máquinas. Após a análise sintática, o PLN avança para análise semântica. Esta fase tem como objetivo entender o significado das palavras e sentenças, que é alcançado ao mapear palavras e frases às entidades em um domínio específico, dessa forma, solucionando ambiguidades de sentido e assegurando uma interpretação precisa do texto. A análise semântica é, portanto, um passo fundamental para garantir que a máquina não apenas entenda a estrutura da linguagem, mas também seu conteúdo e nuances. Métodos como a Extração de Entidades Nomeadas (NER) e a Análise de Sentimento são exemplos de como o PLN utiliza técnicas avançadas, para identificar e classificar informações em textos. Oliveira et al. (2022) destacam o uso de representações vetoriais, como embeddings de palavras, que são fundamentais no PLN. Esses embeddings são transformações de palavras em vetores numéricos em espaços de alta dimensionalidade, permitindo a captura de relações semânticas e sintáticas. Neste espaço vetorial, palavras semanticamente similares são posicionadas próximas umas das outras, facilitando identificação de sinônimos, antônimos e outras relações semânticas. Esta técnica é essencial para modelos de linguagem avançados como o Bidirecional Encoder Representations from Transformers (BERT), que aprendem nuances contextuais e semânticas da linguagem. Na Ciência da Informação, os embeddings de palavras criam uma ponte entre informações textuais não estruturadas e estruturas de dados quantitativas e analíticas. Esta conversão de palavras e frases em representações numéricas torna possível a organização, recuperação e análise de dados textuais de forma eficiente, promovendo a descoberta de conhecimento e a extração de insights, a partir de grandes volumes de texto. Nesse sentido, Patel et al. (2021) ressaltam a utilidade do PLN na saúde, especialmente, na transformação digital de registros médicos. O PLN facilita a estruturação de dados não estruturados em formatos interoperáveis, melhorando a troca de informações entre diferentes sistemas de saúde. Esta combinação tecnológica, principalmente, quando combinada com padrões de interoperabilidade como FHIR, é útil para construir sistemas de saúde integrados e coesos, pois atesta a compatibilidade semântica, garantindo que o significado das informações seja 42 uniformemente compreendido em sistemas diferentes. A aplicação do PLN em desafios de interoperabilidade na saúde impulsiona a pesquisa clínica, revela inovações e direcionamentos para futuras pesquisas, contribuindo para a extração de conhecimento de dados brutos em informações que podem ser utilizadas. Considerando a relevância do PLN na transformação digital dos registros médicos e sua integração com padrões de interoperabilidade como FHIR, a próxima seção da dissertação se volta para a exploração detalhada do BERT, como uma das tecnologias de PLN mais avançadas atualmente. 5.3 Modelos de Aprendizado de Máquina em PLN: BERT A Ciência da Informação sempre buscou métodos mais eficientes para organizar, recuperar e interpretar dados. Com o avanço tecnológico e a ascensão do aprendizado profundo, houve uma revolução significativa na maneira de extrair informações de grandes conjuntos de dados, especialmente, com a introdução do modelo BERT, pelo Google em 2018. Este modelo trouxe uma abordagem inovadora ao campo do PLN. Diferentemente dos modelos anteriores, que compreendiam palavras e frases de maneira unidirecional, seja da esquerda para a direita ou vice-versa, o BERT se destacou por sua habilidade de entender o contexto bidirecional das palavras em um texto, o que significa que ele considera palavras que vêm antes e depois da palavra alvo. Essa profunda compreensão contextual foi possível graças ao treinamento do BERT, que utiliza técnicas como a previsão de palavras ocultas e a compreensão de sentenças. Durante o treinamento, algumas palavras são intencionalmente ocultadas, e o modelo tenta prevê-las com base no contexto das palavras circundantes. Esta capacidade avançada de compreensão contextual do BERT tem implicações diretas para a Ciência da Informação. Ao melhorar a representação semântica dos dados, ele permite uma organização e recuperação mais eficientes da informação, pois a CI se preocupa essencialmente com organização, recuperação, acessibilidade e interpretação dos dados. Portanto, modelos como o BERT, que se alinham intimamente com estes objetivos, tornam-se ferramentas essenciais para avançar nesta área. A relevância de deste tipo de modelos na interpretação de textos complexos é reforçada pela 43 abordagem de Padovani (2022). A aplicação inovadora do BERT tem implicações diretas para a área da saúde, um setor que lida constantemente com grandes volumes de dados textuais complexos e, muitas vezes, não estruturados. Na saúde, a capacidade do BERT de compreender contextos bidirecionais e interpretar semanticamente os textos pode auxiliar na forma como os registros médicos eletrônicos são processados e analisados. Além disso, a habilidade do BERT em lidar com ambiguidade e nuances linguísticas, em registros médicos, contribui para uma maior precisão no diagnóstico, tratamento e pesquisa clínica, fortalecendo a interoperabilidade dos dados de saúde. A Figura 6 retrata as etapas estabelecidas no modelo BERT. Figura 6 – Etapas do modelo BERT. Fonte: Adaptado de HUGGING FACE, 2024. Na Figura 6 pode ser observado o fluxo de funcionamento do modelo BERT, com etapas que são divididas em (Hugging Face, 2024): ● Input Text: o texto de entrada é fornecido ao modelo. Assim como em sistemas de recuperação de informação, onde os dados são inseridos para serem processados e consultados, o texto de entrada serve como "consulta" inicial para o modelo BERT. ● Tokenização: o texto é dividido em tokens (palavras ou subpalavras) para ser processado pelo modelo. A tokenização pode ser comparada ao processo de indexação em bibliotecas e bancos de dados, onde informações são categorizadas e organizadas para facilitar a recuperação. 44 ● Embeddings: cada token é convertido em um vetor de embeddings, caracterizado como uma representação numérica do token. Os embeddings são semelhantes aos metadados ou descritores, em registros de informação, fornecendo uma representação condensada e contextualizada do conteúdo original. ● Camadas de Atenção: estas camadas permitem que o modelo preste atenção a diferentes partes do texto de entrada e compreenda o contexto em que cada palavra ou token está inserido. Pode ser comparado ao processo de análise de relevância em sistemas de recuperação de informação, onde certas informações são priorizadas com base em sua relevância e contexto. ● Camadas Feed-forward: estas são camadas neurais tradicionais, que processam a informação após as camadas de atenção. Esse processo é semelhante à filtração e organização de informações em sistemas de gerenciamento de informação, onde os dados são processados e organizados em uma forma mais utilizável. ● Output – Representação Vetorial: o modelo BERT fornece uma representação vetorial do texto de entrada, que pode ser usada para várias tarefas. A representação vetorial pode ser vista como um resumo ou abstração do conteúdo original, semelhante a um registro bibliográfico que fornece uma visão geral do conteúdo de um documento. O funcionamento do BERT pode ser visto como um sistema avançado de processamento e recuperação de informação, onde o texto é analisado, contextualizado e transformado em uma representação que pode ser usada para diversas tarefas de processamento de linguagem natural, refletindo muitos dos princípios fundamentais da ciência da informação. Essa compreensão serve como base para a próxima seção, que se aprofundará nos Modelos de Linguagem Grande (LLM). Os LLM representam uma evolução natural e uma expansão das capacidades ilustradas pelo BERT, oferecendo um processamento de linguagem ainda mais sofisticado e abrangente 45 5.4 Modelos de Linguagem Grande (LLMs) Modelos de Linguagem Grande representam uma inovação significativa no campo do aprendizado de máquina. Esses modelos, que evoluíram rapidamente de um conceito inexistente para uma presença quase onipresente, são centrais para a compreensão e geração de linguagem natural. O desenvolvimento dos LLMs está intimamente ligado aos desafios de manipulação e análise de grandes conjuntos de dados, um aspecto essencial na Ciência da Informação. Estes modelos processam extensas quantidades de dados de texto, refletindo a necessidade de métodos eficientes de classificação, armazenamento e recuperação de informações, que são fundamentais na análise de dados (Kaddour et al., 2023). As aplicações dos LLMs estendem-se por uma ampla gama de campos, desde chatbots até biologia computacional, programação de computadores, trabalho criativo, direito e medicina. Em cada uma dessas áreas, os LLMs oferecem novas maneiras de lidar com informações complexas, facilitando a análise, interpretação e geração de conteúdo. Na Ciência da Informação, especificamente, os LLMs podem revolucionar a maneira como o ser humano lida com a explosão de dados na era digital, fornecendo ferramentas avançadas para análise de grandes conjuntos de dados de texto, identificação de padrões e tendências, e extração de informação. Por exemplo, na área de direito, os LLMs podem ajudar na análise e elaboração de documentos legais, refletindo a interseção entre tecnologia de processamento de linguagem natural e necessidade de gerenciamento eficiente de informações jurídicas (Kaddour et al., 2023). Especificamente na área da saúde, os LLMs estão revolucionando as práticas conhecidas e oferecendo novas possibilidades para o suporte à decisão clínica e à educação médica. Com a capacidade de processar e analisar vastas quantidades de dados médicos e científicos, os LLMs podem auxiliar profissionais de saúde na identificação de diagnósticos, tratamentos e na compreensão de complexidades médicas, com uma precisão notável, conforme destaca Singhal et al. (2023). Singhal et al. (2023) apontam, em seu trabalho, testes com um modelo avançado de LLM, no qual atingiu um desempenho superior em 17% em relação aos testes anteriores, em questionários de estilo do exame de licença médica dos EUA. Isso ilustra o potencial dos LLMs em interpretar e responder as questões médicas complexas, abrindo caminhos para uma assistência ao paciente mais informada e 46 eficaz. Para além disso, os LLMs podem desempenhar um papel crucial na educação médica, fornecendo aos estudantes um recurso interativo para aprender e praticar habilidades diagnósticas e de tratamento. Essa integração de inteligência artificial na medicina pode não apenas melhorar a qualidade do atendimento ao paciente, mas também enriquecer o processo de aprendizado dos profissionais de saúde. Portanto, os LLMs representam um avanço tecnológico significativo no campo do aprendizado de máquina e oferecem inúmeras aplicações práticas, que se entrelaçam com os princípios fundamentais da Ciência da Informação. Eles destacam a crescente interconexão entre a tecnologia de processamento de linguagem e as necessidades de gestão, análise e disseminação de informações em diversos campos (Kaddour et al., 2023). 5.4.1 Modelo GPT3.5-Turbo Após examinar a evolução geral dos Modelos de Linguagem Grande (LLMs), na subseção anterior, nesta subseção são destacadas características de um modelo específico: GPT-3.5-Turbo. Este é um modelo avançado de linguagem natural desenvolvido pela OpenAI, representando a mais recente evolução nos LLMs (OpenAI, 2023). Ele é caracterizado por sua capacidade de processar uma série de mensagens como entrada, ao contrário das versões anteriores que se limitavam a um único prompt de texto. Essa funcionalidade permite uma maior contextualização nas interações, integrando tanto o contexto fornecido quanto as respostas anteriores. O GPT-3.5-Turbo é útil por seu desempenho aprimorado e custo reduzido em comparação ao modelo GPT-3, tornando-o uma escolha eficiente e versátil para uma ampla gama de aplicações, desde chatbots até sistemas complexos em campos como medicina, em específico, como no caso da utilização na camada proposta. Em termos de desempenho e custo, o GPT-3.5-Turbo se destaca por oferecer uma eficiência aprimorada, sendo 10 vezes mais econômico por token em comparação com seu antecessor, GPT-3 (OpenAI, 2023). Esta melhoria não compromete a qualidade; pelo contrário, ela amplia as possibilidades de uso em uma variedade de aplicações, mantendo a adaptabilidade e a precisão, características dos LLMs. A implementação do GPT-3.5-Turbo segue um processo simples e direto, adaptável a diferentes linguagens de programação. Esta flexibilidade facilita a 47 integração do modelo em sistemas existentes. Na Tabela 3, apresenta-se exemplo de prompt de chamada para GPT-3.5-Turbo. Tabela 3 – Exemplo de prompt de chamada para GPT-3.5-Turbo. Prompt Resultado Tempo de execução Dada a seguinte série de sentenças: “O paciente João da Silva tem 30 anos.” Analise as sentenças acima e identifique qual recurso FHIR mais provável em cada uma delas. Assuma o recurso mais provável para cada sentença e, em seguida, crie uma visualização JSON, sem nenhum tipo de comentário adicional. { "resourceType": "Patient", "name": [ { "given": [ "João" ], "family": "Silva" } ], "birthDate": "1994-01-07", "age": { "value": 30, "unit": "anos", "system": "http://unitsofmeasure.org" } } 3 segundos Dada a seguinte série de sentenças: “Paciente allan, 30 anos, tomou dipirona.” Analise as sentenças acima e identifique qual o recurso FHIR mais provável em cada uma delas. Assuma o recurso mais provável para cada sentença e, em seguida, crie uma visualização JSON, sem nenhum tipo de comentário adicional { "resourceType": "Patient", "identifier": [ { "use": "usual", "type": { "coding": [ { "system": "http://terminology.hl7.org/CodeSystem/v2- 0203", "code": "MR" } ] }, "system": "urn:oid:1.2.36.146.595.217.0.1", "value": "12345" } ], "active": true, "name": [ { "use": "official", "family": "allan", "given": ["allan"] } ], "gender": "male", "birthDate": "1991-01-01" }, { "resourceType": "MedicationAdministration", "medicationReference": { "display": "dipirona" }, "subject": { "reference": "Patient/example" } } ] 6 segundos Fonte: Elaborado pelo autor. A Tabela 3 exemplifica o uso do GPT3.5-Turbo via prompt manual e sua performance de resposta medida em segundos. É necessário destacar que o mesmo tipo de uso pode ser feito com chamadas via API. 48 5.5 Desafios na Integração de ML e Saúde No campo da Ciência da Informação, a combinação do Machine Learning com padrões de interoperabilidade, como FHIR, tem o potencial de revolucionar o modo como os dados médicos são gerenciados e utilizados. Essa combinação pode não apenas simplificar a construção de arquiteturas de sistemas robustos, mas também otimizar o armazenamento, compartilhamento e acesso à informação médica, garantindo que informações críticas estejam disponíveis quando e onde forem necessárias. No entanto, à medida em que se avança nessa integração, surgem uma série de desafios, como por exemplo, o PLN é frequentemente empregado para extrair informações de textos médicos, mas pode enfrentar dificuldades ao lidar com jargões e contextos médicos especializados, especialmente, quando se considera a diversidade e complexidade das linguagens e terminologias médicas. Outro desafio significativo reside na necessidade de vastos conjuntos de dados rotulados para treinar modelos de ML com precisão aceitável. Em ambientes de saúde, onde privacidade e confidencialidade dos dados dos pacientes são primordiais, coletar e utilizar esses conjuntos de dados pode ser problemático. A preocupação com a ética da informação, a governança de dados e o consentimento informado dos pacientes são temas centrais na Ciência da Informação e tornam-se ainda mais pertinentes nesse contexto. Para avançar com eficácia e segurança, é necessário abordar esses desafios de forma mais ampla, considerando tanto as capacidades técnicas quanto às implicações éticas e organizacionais (Bouh; Hossain; Ahmed, 2023). A seguir, a Figura 7 serve como uma ferramenta visual para consolidar e representar de forma estruturada os principais pontos abordados nesta seção sobre "Machine Learning na área da Saúde". Ao visualizar este diagrama, é possível compreender as conexões entre os diferentes tópicos, facilitando assimilação e revisão dos conceitos discutidos. 49 Figura 7 – Machine Learning na área da saúde. Fonte: Adaptado de Ghassemi et al., 2020. A Figura 7 mostra os benefícios e desafios associados ao uso da aprendizagem de máquina na saúde, no qual, entre os benefícios, se destaca automatização de tarefas clínicas, que permite aos profissionais de saúde se afastarem de atividades repetitivas e demoradas, como a entrada de dados, aumentando a eficiência e focando mais em tarefas complexas e no atendimento ao paciente. O Machine Learning também oferece suporte à tomada de decisão clínica, analisando grandes volumes de dados para fornecer diagnósticos mais precisos, prever resultados de tratamentos e identificar riscos de saúde. Além disso, também expande as capacidades clínicas ao descobrir novas correlações em dados de saúde, o que pode levar a avanços no entendimento de doenças e no desenvolvimento de novos tratamentos. Outro benefício importante exibido é a melhoria na personalização do atendimento ao paciente, onde a análise de dados, em grande escala, permite tratamentos e recomendações mais ajustados às necessidades individuais. A precisão diagnóstica é aprimorada pelo Machine Learning, que analisa padrões complexos nos dados dos pacientes que podem ser difíceis de detectar manualmente. Do ponto de vista operacional, a implementação dessa tecnologia aumenta a eficiência, reduzindo custos e melhorando a gestão de recursos. No entanto, a Figura 7 também destaca os desafios associados ao uso do Machine Learning na área da saúde. Um dos principais obstáculos está na interpretabilidade dos modelos, considerado importante 50 para que os profissionais de saúde possam entender e confiar nas recomendações geradas. A qualidade e a integridade dos dados são fundamentais, pois dados imprecisos, incompletos ou enviesados podem levar a resultados inadequados ou prejudiciais. Além disso, a integração de soluções de Machine Learning em sistemas de saúde existentes pode ser complexa, especialmente, devido às infraestruturas tecnológicas não interoperáveis. Portanto, embora o Machine Learning ofereça um potencial transformador para a saúde, é essencial abordar esses desafios para maximizar seus benefícios e minimizar riscos em potenciais. Tendo estabelecido a relevância e o potencial do ML na área da saúde, a próxima seção se aprofunda em uma aplicação específica: a análise de dados de alergia do Hospital Sírio Libanês. A utilização de metadados de negócio se torna útil para garantir que os dados sejam interpretados corretamente e que as análises sejam precisas e forneçam contexto e significado, permitindo que os algoritmos de ML e os profissionais de saúde compreendam e usem os dados de forma mais eficaz e, dessa forma, consigam validar os modelos. Assim, é explorada como a combinação de metadados de negócio e técnicas avançadas de análise pode melhorar a qualidade e a precisão das decisões clínicas, e auxiliar na futura construção de modelos de ML. 51 6 DADOS DE ALERGIA DO HOSPITAL SÍRIO LIBANÊS: ANÁLISE COM METADADOS DE NEGÓCIO Na área da saúde, a informação é uma ferramenta fundamental para a tomada de decisões clínicas, assertivas e seguras. Dentre as diversas categorias de informações médicas, os dados de alergia destacam-se como um dos elementos mais críticos, pois, conhecer as alergias de um paciente, não é apenas uma questão de precaução, mas uma necessidade essencial para evitar complicações que podem ser fatais. A reação adversa a medicamentos, alimentos ou substâncias pode variar de sintomas leves às reações anafiláticas graves, o que torna muito importante a correta identificação e registro dessas alergias. A obtenção dos dados de alergia utilizados nesta dissertação deu-se por meio da execução de um projeto de pesquisa multidisciplinar, que inclui especialistas médicos e profissionais da computação. Este grupo de pesquisa é parte da parceria entre o Hospital Sírio Libanês e a empresa SOFYA, uma startup que tem como objetivo desenvolver soluções aplicadas na área da saúde. A SOFYA, conhecida por sua expertise em soluções de tecnologia da informação voltadas para a saúde, forneceu as ferramentas e o suporte necessários para a análise detalhada dos dados de alergia. Os profissionais do Hospital Sírio Libanês, por sua vez, contribuíram com sua profunda experiência clínica e conhecimento, validando dados e observações realizadas no domínio de alergias e suas reações adversas. Estes resultados serão publicados como parte do projeto de pesquisa que está em andamento no Instituto de Ensino e Pesquisa do Hospital Sírio Libanês. 6.1 Importância de dados de alergia No contexto da saúde, a importância dos dados de alergia, tanto alimentares quanto medicações, é fundamental para a segurança e eficácia do atendimento ao paciente. De acordo com De la Cruz et al. (2018), as alergias alimentares apresentam um desafio significativo na saúde pública, afetando aproximadamente 1-3% dos adultos e 4-7% das crianças. O controle de alérgenos em alimentos é essencial, especialmente, diante da variabilidade individual na sensibilidade aos alérgenos, onde quantidades mínimas podem ser perigosas para indivíduos altamente sensíveis. 52 A necessidade de métodos sensíveis e confiáveis para detectar alérgenos em alimentos é importante, dada a ausência de um consenso sobre a concentração mínima de alérgenos capaz de desencadear reações alérgicas. As reações alérgicas podem variar de sintomas leves, como urticária e desconforto gastrointestinal, a reações graves, como anafilaxia, que requer intervenção médica imediata. Reações alérgicas ocorrem quando o sistema imunológico do corpo reage de forma exagerada a uma substância estranha (alérgeno), como certos alimentos, pólen ou medicamentos. Essas reações podem variar amplamente em gravidade, desde sintomas leves, como erupções cutâneas e coceira, até condições potencialmente fatais, como anafilaxia, considerada uma reação alérgica grave e rápida, que pode afetar mais de um sistema do corpo ao mesmo tempo e requer tratamento médico imediato. É importante diferenciar entre alergia e reações alérgicas, pois a alergia é uma sensibilidade anormal a uma substância que é inofensiva para a maioria das pessoas, que, quando expostas ao alérgeno, desenvolvem uma reação alérgica como resposta. Esta distinção é fundamental para diagnóstico e tratamento adequados. Por exemplo, enquanto algumas pessoas podem ter uma alergia confirmada a um medicamento específico, outras podem experimentar reações adversas que não são mediadas pelo sistema imunológico e, portanto, não são consideradas alérgicas. Além disso, é essencial também a capacidade de identificação de falsos positivos. Como exemplo do problema, observa-se, no estudo de Fransson et al. (2017), que uma parcela significativa de pacientes investigados por suspeita de alergia a medicamentos, na realidade, não apresenta alergias verdadeiras. Na pesquisa, apenas 11% dos testes resultaram em reações positivas, indicando que uma grande maioria dos pacientes suspeitos de ter alergias a medicamentos pode, de fato, tolerá- los sem riscos. Esta observação é reforçada pelos achados de Foreman et al. (2020), que examinaram 43.011 registros únicos em um EHR, encontrando que 44.5% dos pacientes tinham entradas no módulo de "alergias". Foi constatado que 86.5% dessas reações foram categorizadas como alergias e 13.5% como intolerâncias. Esse estudo também revelou que 27.4% das reações documentadas utilizaram descrições em texto livre, indicando uma preferência por descrições personalizadas. Apenas 45.1% das reações consistentes com intolerância foram corretamente categorizadas como tal, ressaltando a complexidade e os desafios na documentação e categorização de reações adversas. 53 Portanto, é essencial a importância de abordagens detalhadas e cuidadosas no diagnóstico de alergias, seja alimentar ou aos medicamentos, na saúde. A gestão eficaz de alérgenos e a correta documentação e categorização de reações adversas são fundamentais para reduzir riscos e melhorar a qualidade do cuidado ao paciente. Estas abordagens são essenciais para o desenvolvimento de políticas de saúde pública e práticas clínicas, que visam a segurança do paciente e a prevenção de reações alérgicas adversas. A discussão sobre a precisão no diagnóstico de alergias, embasada pelos estudos de De la Cruz et al. (2018) e Foreman et al. (2020), destaca a importância da gestão eficiente de informações médicas. A próxima seção introduz a Arquitetura da Informação como uma ferramenta importante para esta finalidade, pois facilita entendimento, organização e estruturação de dados de saúde, através de mapeamento de metadados de negócio, para garantir que diagnósticos corretos sejam acessíveis em diferentes sistemas de saúde. 6.2 Aplicação de metodologia de arquitetura da informação A aplicação de metodologia de AI tem se mostrado uma importante ferramenta para a representação, organização e acesso a informações em diversas áreas do conhecimento, incluindo a saúde, administração e sistemas legislativos. A AI permite a estruturação e modelagem da informação, de forma clara e padronizada, possibilitando o compartilhamento e a recuperação de informações entre diferentes sistemas e organizações. No trabalho de Brandt (2020), onde é abordada a importância do acesso à informação legislativa e à representação inadequada das informações nos sistemas da Câmara dos Deputados como um problema, apresenta-se uma metodologia de Arquitetura da Informação, proposta dividida em duas partes: elaboração da metodologia e aplicação no processo legislativo brasileiro da Câmara dos Deputados, através de mapeamento e endereçamento de metadados de negócio. A escolha para referência deste trabalho se dá por conta de um dos artefatos apresentados, denominado como matriz de metadados, em que concentra as informações centrais necessárias para os processos de trabalho, sendo o principal entregável, pois auxilia no gerenciamento das informações, no processo de desenvolvimento de sistemas e na implementação de soluções tecnológicas. Essa 54 matriz reúne e dá forma ao conhecimento sobre a informação da instituição. Brandt (2020) afirma que a representação da informação deve possibilitar que a informação seja armazenada com coerência e consistência nas bases de dados dos sistemas de informação, para permitir a gestão da informação efetiva e sua recuperação. Figura 8 – Representação, recuperação e acesso à informação de dados clínicos. Fonte: Adaptado de BRANDT, 2020. A Figura 8 exemplifica o fluxo de representação e recuperação da informação. Apesar da figura original falar de outro tipo de dados, a adaptação foi útil para representação de recuperação de informação contida em prontuários eletrônicos. Baseando-se no fluxo adaptado, foi realizada uma análise sobre um conjunto de dados anonimizados fornecido pelo Hospital Sírio Libanês, no período correspondido entre 01/01/2022 e 31/07/2022, sobre avaliação de pacientes sob aspecto de alergias. O dataset original possui 16 atributos, sendo composto pelos campos: • NM_ESTABELECIMENTO: nome do estabelecimento médico. Em todos os registros listados, refere-se ao "Hospital Sírio Libanês", exceto no último registro que consta "HSL - Unidade Brasília IV". • DS_SETOR: descreve o setor ou a unidade hospitalar em que o paciente foi atendido. Por exemplo, "Unidade Semi Intensiva (USI) - C - 06º andar", "Unidade Coronária - D - 07º andar - Ala III", etc. • TIPO_ATENDIMENTO: tipo de atendimento que o paciente recebeu. Nos registros listados, constam "Internado" e "Pronto Atendimento". • ADULTO_PEDIATRIA: indica se o atendimento foi para um adulto ou uma criança. Todos os registros nesta amostra são de "Adulto". • DT_NASCIMENTO: data de nascimento do paciente. • DT_REGISTRO: data e hora em que a informação foi registrada. 55 • IE_NEGA_ALERGIAS: indica se o paciente negou ter qualquer tipo de alergia. "S" indica sim (negou ter alergias) e "N" indica não (não negou ter alergias). • IE_INTENSIDADE: refere-se à intensidade da reação alérgica, mas todos os registros, nesta amostra, têm valor "L", que pode indicar uma intensidade baixa. • AGENTE_CAUSADOR: o que causou a alergia. Pode ser "Medicamentos", "Outro", ou especificado que o paciente "Nega Alergias" ou "Nega alergia alimentar". • DS_PRINCIPIO4 e DS_PRINCIPIO: ambos os campos estão relacionados ao agente causador da alergia. Por exemplo, "Antibacterianos, Penicilínicos de amplo espectro", "Piridoxina", "Metoclopramida", “Paracetamol” etc. • CLASSE_MATERIAL: classificação do material que causou a alergia. Em um dos registros está como "Contraste Radiológico". • DS_OBSERVACAO: qualquer observação adicional sobre o paciente ou a alergia. Apenas um registro nesta amostra tem uma observação, que é "ajuste". • DS_REACAO: descrição da reação alérgica. Por exemplo, "Erupção Cutânea", "Edema de Glote". • FUNCAO: a função ou profissão da pessoa que registrou a informação. Pode ser "Enfermeiro Pl", "NUTRICIONISTA CLINICO", "MEDICO". • TIPO_ATENDIMENTO: esta coluna está repetida, já que já foi mencionada anteriormente na lista. A seguir, a Tabela 4 apresenta uma amostra do dataset original: 56 Tabela 4 – Amostra original dos dados de alergia do HSL. # 1 2 3 4 5 6 7 NM ESTABELECIM ENTO HSL HSL HSL HSL HSL HSL HSL DS SETOR Unidade Semi Intensiva (USI) - C - 06º andar Unidade Coronária - D - 07º andar - Ala III Unidade Internação - D - 17º andar - Ala II Unidade Internação – D - 18º andar - Ala II D - UAIC - Ala VI D - UAIC - Ala VI D - UAIC - Ala VI TIPO ATENDIMENTO Internado Internado Internado Internado Internado Internado Internado ADULTO PEDIATRIA Adulto Adulto Adulto Adulto Adulto Adulto Adulto DT NASCIMENTO 11/27/1981 1/19/1969 7/24/1936 7/17/1929 9/28/196 1 9/28/1961 9/28/1961 DT REGISTRO 1/1/21 11:54 1/1/21 11:56 1/1/21 12:11 1/1/21 12:12 1/1/21 12:13 1/1/21 12:13 1/1/21 12:13 IE NEGA N N S S N N N IE INTENSIDADE L L L L L L L AGENTE CAUSADOR Nega Alergias Medicamentos Outro Medicamentos Medicamentos DS PRINCIPIO4 - Antibacterianos, Penicilinícos de amplo espectro Nega alergia alimentar Nega alergia alimentar piridoxina - - DS PRINCIPIO - - - - - Metoclopramida Paracetamol CLASSE MATERIAL - Antibacterianos, Penicilinícos de amplo espectro - - - - - DS OBSERVAÇÃO - - - Ajuste - - - DS REACAO - Erupção Cutânea - - Erupção Cutânea Edema de Glote Erupção Cutânea FUNCAO Enfermeiro Pl Enfermeiro Pl Nutricionista Clínico Nutricionista Clínico Médico Médico Médico TIPO ATENDIMENTO Internado Internado Internado Internado Internado Internado Internado Fonte: Elaborado pelo autor. Após análise inicial dos dados e entrevista com os profissionais, que forneceram o material, foi verificado que somente 10 atributos eram relevantes