Logo do repositório
 

Investigation of AI-based image, video, and voice analysis to assess clinical symptoms

dc.contributor.advisorPapa, João Paulo [UNESP]
dc.contributor.authorOliveira, Guilherme Camargo de [UNESP]
dc.contributor.coadvisorPassos Junior, Leandro Aparecido
dc.contributor.institutionUniversidade Estadual Paulista (UNESP)
dc.contributor.institutionRMIT University
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)pt
dc.date.accessioned2025-07-22T14:49:45Z
dc.date.issued2025-05-19
dc.description.abstractO rápido avanço da inteligência artificial (IA) está transformando a área da saúde, oferecendo potencial para aprimorar a precisão diagnóstica, otimizar fluxos de trabalho clínicos e personalizar planos de tratamento. No entanto, a aplicação e integração abrangentes das tecnologias de IA na saúde enfrentam desafios, especialmente no aprimoramento de métodos de triagem não invasivos. Esta tese investiga a aplicação de ferramentas assistidas por IA em três modalidades principais — vídeo, voz e imagem — para melhorar a tomada de decisão clínica e os desfechos dos pacientes por meio de métodos não invasivos. Com foco em condições neurológicas como doença de Parkinson, acidente vascular cerebral (AVC) e Esclerose Lateral Amiotrófica (ELA), bem como em oftalmologia e cuidado de feridas, a pesquisa é guiada por três perguntas principais. Enquanto as duas primeiras perguntas exploram a análise de vídeo e voz para detectar sintomas neurológicos sutis — abordando desafios centrais dos diagnósticos não invasivos, como avaliações clínicas subjetivas, demora no atendimento e monitoramento limitado dos pacientes — a terceira pergunta busca aprimorar métodos não invasivos com IA em oftalmologia e cuidado de feridas, superando a escassez de dados e avançando nas técnicas de tradução de imagens. As três perguntas são: (1) Como a análise assistida por IA de expressões faciais pode aprimorar a detecção e a compreensão de condições neurológicas como doença de Parkinson, AVC e ELA? O estudo demonstrou que modelos de expressões faciais assistidos por IA conseguem detectar sintomas sutis desses distúrbios, alcançando 83% de acurácia na identificação da hipomimia associada à doença de Parkinson. Técnicas semelhantes detectaram de forma eficaz fraquezas faciais em pacientes pós-AVC e com ELA, destacando o valor da análise de vídeo baseada em IA para avaliações não invasivas. Essa abordagem oferece uma forma inovadora e não invasiva de identificar sintomas sutis que poderiam passar despercebidos. Além disso, um aplicativo de IA para AVC pode auxiliar na triagem de casos apenas com um sorriso em prontos-socorros, evidenciando o potencial da análise de vídeo para avaliações rápidas e não invasivas.(2) De que maneiras ferramentas baseadas em IA para análise de voz podem melhorar a avaliação remota da gravidade da doença de Parkinson e apoiar o monitoramento contínuo? Este estudo integra a análise diadococinética em conjunto para identificar a gravidade do Parkinson, utiliza medições do comprimento do trato vocal baseadas em formantes de fonemas para detectar mudanças sutis, e emprega modelos de linguagem de grande porte (LLM) como agentes para fornecer feedback em tempo real ao paciente. Juntos, esses componentes oferecem uma solução escalável e não invasiva para aprimorar a detecção precoce e a gestão contínua da doença de Parkinson. (3) Como as técnicas de geração de imagens sintéticas por IA contribuem para a detecção e o diagnóstico de condições médicas como degeneração macular relacionada à idade e úlceras venosas nas pernas? Na área de imagens, modelos de aprendizado profundo como o StyleGAN-2 atingiram 85% de acurácia na detecção da degeneração macular relacionada à idade, superando especialistas humanos. Além disso, imagens térmicas geradas por IA apresentaram resultados promissores para a avaliação de feridas crônicas, com uma pontuação SSIM de 0,84, embora sejam necessárias validações adicionais.pt
dc.description.abstractThe rapid advancement of artificial intelligence (AI) is transforming healthcare, offering the potential to enhance diagnostic accuracy, streamline clinical workflows, and personalize treatment plans. However, the comprehensive application and integration of AI technologies in healthcare face challenges, particularly in enhancing non-invasive screening methods. This thesis investigates the application of AI-assisted tools across three key modalities—video, voice, and image—to improve clinical decision-making and patient outcomes through non-invasive methods. Focusing on neurological conditions such as Parkinson's disease, stroke, and Amyotrophic Lateral Sclerosis (ALS), as well as ophthalmology and wound care, the research is guided by three main questions. While the first two research questions leverage video and voice analysis to detect subtle neurological symptoms—addressing key challenges of non-invasive diagnostics such as subjective clinical assessments, delayed timeliness, and limited patient monitoring—the third question aims to enhance AI non-invasive methods in ophthalmology and wound care by overcoming data scarcity and advancing image translation techniques. The three questions are: (1) How can AI-assisted facial expression analysis enhance the detection and understanding of neurological conditions such as Parkinson's disease, stroke, and ALS? The study demonstrated that AI-assisted facial expression models could detect subtle symptoms of these disorders, achieving 83% accuracy in identifying hypomimia associated with Parkinson's disease. Similar techniques effectively detected facial weaknesses in Post-Stroke and ALS patients, highlighting the value of AI-driven video analysis for non-invasive assessments. This approach offers a groundbreaking non-invasive way to identify subtle symptoms that might otherwise go unnoticed. Additionally, an AI-driven stroke app can assist in screening cases with just a smile in emergency departments, highlighting the potential of video analysis for rapid and non-invasive assessments. (2) In what ways can AI-based voice analysis tools improve the remote assessment of Parkinson's disease severity and support ongoing monitoring? This study integrates ensemble Diadochokinetic analysis to identify severity of Parkinson, leverages formant-based vocal tract length measurements from phonemes to detect subtle changes, and utilizes an large language models (LLM) as an agent for real-time patient feedback. Together, these components offer a scalable, non-invasive solution for improved early detection and continuous management of Parkinson’s disease. (3) How do AI-powered synthetic imaging techniques contribute to the detection and diagnosis of medical conditions like age-related macular degeneration and venous leg ulcers? In imaging, deep learning models such as StyleGAN-2 achieved 85% accuracy in detecting age-related macular degeneration, outperforming human experts. Additionally, AI-generated thermal imaging achieved promising results for chronic wound assessment with an SSIM score of 0.84, although further validation is necessary. In conclusion, this thesis underscores the transformative potential of AI in healthcare, providing non-invasive solutions that improve early detection, facilitate remote monitoring, and enhance diagnostic precision. Future efforts must address demographic biases, ensure ethical data use, and work with regulatory bodies to integrate these tools into clinical practice, advancing towards more accessible and effective healthcare solutions.en
dc.identifier.capes33004153073P2
dc.identifier.citationOLIVEIRA, Guilherme Camargo de. Investigation of AI-based image, video, and voice analysis to assess clinical symptoms. Orientador: João Paulo Papa. 2025. 185 f. Tese (Doutorado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.
dc.identifier.orcid0000-0002-9698-2445
dc.identifier.urihttps://hdl.handle.net/11449/312324
dc.language.isoeng
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectInteligência artificialpt
dc.subjectDiagnóstico não invasivopt
dc.subjectFerramentas assistidas por IApt
dc.subjectAnálise de vídeopt
dc.subjectAnálise de vozpt
dc.subjectAumento de Dadospt
dc.subjectDados Sintéticospt
dc.subjectMonitoramento remotopt
dc.subjectArtificial intelligenceen
dc.subjectNon-invasive diagnosticsen
dc.subjectAI-Assisted Toolsen
dc.subjectVideo analysisen
dc.subjectVoice analysisen
dc.subjectSynthetic dataen
dc.subjectData augmentationen
dc.subjectParkinson’s diseaseen
dc.subjectNeurological conditionsen
dc.titleInvestigation of AI-based image, video, and voice analysis to assess clinical symptomspt
dc.title.alternativeInvestigação do uso de IA para análise de imagens, vídeos e voz na avaliação de sintomas clínicosen
dc.typeTese de doutoradopt
dspace.entity.typePublication
relation.isAuthorOfPublication2f45b93d-fe79-4002-98a2-91ce3cb08829
relation.isAuthorOfPublication.latestForDiscovery2f45b93d-fe79-4002-98a2-91ce3cb08829
relation.isOrgUnitOfPublicationaef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscoveryaef1f5df-a00f-45f4-b366-6926b097829b
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências, Baurupt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCEpt
unesp.knowledgeAreaComputação aplicadapt
unesp.researchAreaInteligência computacionalpt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
oliveira_gc_dr_bauru.pdf
Tamanho:
26.38 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição: