Investigation of AI-based image, video, and voice analysis to assess clinical symptoms

Oliveira, Guilherme Camargo de [UNESP]

Investigation of AI-based image, video, and voice analysis to assess clinical symptoms

Arquivos

oliveira_gc_dr_bauru.pdf (26.38 MB)

oliveira_gc_dr_bauru.pdf

Data

2025-05-19

Autores

Oliveira, Guilherme Camargo de

Orientador

Papa, João Paulo

Coorientador

Passos Junior, Leandro Aparecido

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso aberto

Arquivos

oliveira_gc_dr_bauru.pdf (26.38 MB)

oliveira_gc_dr_bauru.pdf

Resumo

Resumo (português)

O rápido avanço da inteligência artificial (IA) está transformando a área da saúde, oferecendo potencial para aprimorar a precisão diagnóstica, otimizar fluxos de trabalho clínicos e personalizar planos de tratamento. No entanto, a aplicação e integração abrangentes das tecnologias de IA na saúde enfrentam desafios, especialmente no aprimoramento de métodos de triagem não invasivos. Esta tese investiga a aplicação de ferramentas assistidas por IA em três modalidades principais — vídeo, voz e imagem — para melhorar a tomada de decisão clínica e os desfechos dos pacientes por meio de métodos não invasivos. Com foco em condições neurológicas como doença de Parkinson, acidente vascular cerebral (AVC) e Esclerose Lateral Amiotrófica (ELA), bem como em oftalmologia e cuidado de feridas, a pesquisa é guiada por três perguntas principais. Enquanto as duas primeiras perguntas exploram a análise de vídeo e voz para detectar sintomas neurológicos sutis — abordando desafios centrais dos diagnósticos não invasivos, como avaliações clínicas subjetivas, demora no atendimento e monitoramento limitado dos pacientes — a terceira pergunta busca aprimorar métodos não invasivos com IA em oftalmologia e cuidado de feridas, superando a escassez de dados e avançando nas técnicas de tradução de imagens. As três perguntas são: (1) Como a análise assistida por IA de expressões faciais pode aprimorar a detecção e a compreensão de condições neurológicas como doença de Parkinson, AVC e ELA? O estudo demonstrou que modelos de expressões faciais assistidos por IA conseguem detectar sintomas sutis desses distúrbios, alcançando 83% de acurácia na identificação da hipomimia associada à doença de Parkinson. Técnicas semelhantes detectaram de forma eficaz fraquezas faciais em pacientes pós-AVC e com ELA, destacando o valor da análise de vídeo baseada em IA para avaliações não invasivas. Essa abordagem oferece uma forma inovadora e não invasiva de identificar sintomas sutis que poderiam passar despercebidos. Além disso, um aplicativo de IA para AVC pode auxiliar na triagem de casos apenas com um sorriso em prontos-socorros, evidenciando o potencial da análise de vídeo para avaliações rápidas e não invasivas.(2) De que maneiras ferramentas baseadas em IA para análise de voz podem melhorar a avaliação remota da gravidade da doença de Parkinson e apoiar o monitoramento contínuo? Este estudo integra a análise diadococinética em conjunto para identificar a gravidade do Parkinson, utiliza medições do comprimento do trato vocal baseadas em formantes de fonemas para detectar mudanças sutis, e emprega modelos de linguagem de grande porte (LLM) como agentes para fornecer feedback em tempo real ao paciente. Juntos, esses componentes oferecem uma solução escalável e não invasiva para aprimorar a detecção precoce e a gestão contínua da doença de Parkinson. (3) Como as técnicas de geração de imagens sintéticas por IA contribuem para a detecção e o diagnóstico de condições médicas como degeneração macular relacionada à idade e úlceras venosas nas pernas? Na área de imagens, modelos de aprendizado profundo como o StyleGAN-2 atingiram 85% de acurácia na detecção da degeneração macular relacionada à idade, superando especialistas humanos. Além disso, imagens térmicas geradas por IA apresentaram resultados promissores para a avaliação de feridas crônicas, com uma pontuação SSIM de 0,84, embora sejam necessárias validações adicionais.

Resumo (inglês)

The rapid advancement of artificial intelligence (AI) is transforming healthcare, offering the potential to enhance diagnostic accuracy, streamline clinical workflows, and personalize treatment plans. However, the comprehensive application and integration of AI technologies in healthcare face challenges, particularly in enhancing non-invasive screening methods. This thesis investigates the application of AI-assisted tools across three key modalities—video, voice, and image—to improve clinical decision-making and patient outcomes through non-invasive methods. Focusing on neurological conditions such as Parkinson's disease, stroke, and Amyotrophic Lateral Sclerosis (ALS), as well as ophthalmology and wound care, the research is guided by three main questions. While the first two research questions leverage video and voice analysis to detect subtle neurological symptoms—addressing key challenges of non-invasive diagnostics such as subjective clinical assessments, delayed timeliness, and limited patient monitoring—the third question aims to enhance AI non-invasive methods in ophthalmology and wound care by overcoming data scarcity and advancing image translation techniques. The three questions are: (1) How can AI-assisted facial expression analysis enhance the detection and understanding of neurological conditions such as Parkinson's disease, stroke, and ALS? The study demonstrated that AI-assisted facial expression models could detect subtle symptoms of these disorders, achieving 83% accuracy in identifying hypomimia associated with Parkinson's disease. Similar techniques effectively detected facial weaknesses in Post-Stroke and ALS patients, highlighting the value of AI-driven video analysis for non-invasive assessments. This approach offers a groundbreaking non-invasive way to identify subtle symptoms that might otherwise go unnoticed. Additionally, an AI-driven stroke app can assist in screening cases with just a smile in emergency departments, highlighting the potential of video analysis for rapid and non-invasive assessments. (2) In what ways can AI-based voice analysis tools improve the remote assessment of Parkinson's disease severity and support ongoing monitoring? This study integrates ensemble Diadochokinetic analysis to identify severity of Parkinson, leverages formant-based vocal tract length measurements from phonemes to detect subtle changes, and utilizes an large language models (LLM) as an agent for real-time patient feedback. Together, these components offer a scalable, non-invasive solution for improved early detection and continuous management of Parkinson’s disease. (3) How do AI-powered synthetic imaging techniques contribute to the detection and diagnosis of medical conditions like age-related macular degeneration and venous leg ulcers? In imaging, deep learning models such as StyleGAN-2 achieved 85% accuracy in detecting age-related macular degeneration, outperforming human experts. Additionally, AI-generated thermal imaging achieved promising results for chronic wound assessment with an SSIM score of 0.84, although further validation is necessary. In conclusion, this thesis underscores the transformative potential of AI in healthcare, providing non-invasive solutions that improve early detection, facilitate remote monitoring, and enhance diagnostic precision. Future efforts must address demographic biases, ensure ethical data use, and work with regulatory bodies to integrate these tools into clinical practice, advancing towards more accessible and effective healthcare solutions.

Palavras-chave

Inteligência artificial, Diagnóstico não invasivo, Ferramentas assistidas por IA, Análise de vídeo, Análise de voz, Aumento de Dados, Dados Sintéticos, Monitoramento remoto, Artificial intelligence, Non-invasive diagnostics, AI-Assisted Tools, Video analysis, Voice analysis, Synthetic data, Data augmentation, Parkinson’s disease, Neurological conditions

Idioma

Inglês

Citação

OLIVEIRA, Guilherme Camargo de. Investigation of AI-based image, video, and voice analysis to assess clinical symptoms. Orientador: João Paulo Papa. 2025. 185 f. Tese (Doutorado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

URI

https://hdl.handle.net/11449/312324

Coleções

Bauru - FC - Faculdade de Ciências

Unidades

Unidade

Faculdade de Ciências

FC

Campus: Bauru

Página do item completo

Investigation of AI-based image, video, and voice analysis to assess clinical symptoms

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

Arquivos

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Citação

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação