Publicação: Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial
Carregando...
Arquivos
Data
Autores
Orientador
Marques, Márcio Alexandre 

Coorientador
Pós-graduação
Curso de graduação
Sorocaba - ICTS - Engenharia de Controle e Automação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
As inovações na indústria de tecnologia trouxeram maior acessibilidade a tecnologias de Inteligência Artificial (IA) como Large Language Models (LLM) e o GPT-4. Nesse sentido, o presente trabalho tem como objetivo utilizar estas tecnologias para auxiliar e incentivar crianças à leitura por meio de um aplicativo web. A aplicação web utilizou frameworks modernos em linguagem TypeScript, conversão de imagem para texto e uso de inteligência artificial de texto generativa. O aplicativo é capaz de capturar uma foto de uma página de um livro infantil por meio da câmera de um celular (smartphone), e na sequência, realizar a sua leitura com voz sintetizada, além de reproduzir efeitos sonoros previamente especificados. Esses efeitos sonoros são chamados de contextos e são reproduzidos de acordo com a sua presença no trecho do texto lido. O aplicativo foi implementado com um Front-end utilizando React e Material UI (User Interface), um Back-end em Node.JS, a conversão de imagem para texto utilizando as APIs do OCRSpace e o tratamento de texto pelo GPT-4. Três testes independentes foram realizados: um teste geral utilizando a ferramenta de forma completa, analisando sua performance com o Coeficiente de Dice; um teste técnico com imagens de diferentes qualidades, quantificando o acerto do aplicativo pelo mesmo coeficiente; e por fim, um teste de experiência de uso com crianças, no qual, elas utilizaram o aplicativo e responderam a um questionário. A satisfação das crianças quanto ao uso utilizou a métrica Net Promoter Score (NPS). O teste geral obteve um Coeficiente de Dice médio de 0,97. O teste técnico apresentou o Coeficiente de Dice médio de 0,92 de similaridade em casos ideais, e 88,57% em média de acerto de contextos. O teste de experiência foi realizado com 22 crianças na faixa etária de 7 a 12 anos, no qual dentre 7 perguntas do questionário, 6 tiveram respostas positivas acima de 50%, a satisfação média foi de 87%, e o NPS foi de 41. O aplicativo demonstrou ser funcional, operando com o mínimo de custo e com bons resultados técnicos, além das opiniões das crianças que o utilizaram serem favoráveis.
Resumo (inglês)
Innovations in the technology industry have brought greater accessibility to artificial intelligence (AI) technologies such as Large Language Models (LLM) and GPT-4. In this sense, the present work aims to use these technologies to help and encourage children to read using a web application. The web application used modern frameworks in TypeScript language, image to text conversion and generative text artificial intelligence. The application can capture a photo of a page from a children's book using a cell phone camera (smartphone), and then reading it with a synthesized voice, in addition to reproducing previously specified sound effects. These sound effects are called contexts and are reproduced according to their presence in the portion of the text read. The application was implemented with a Front-end using React and Material UI (User Interface), a Back-end in Node.JS, image-to-text conversion using the OCRSpace APIs and text processing using GPT-4. Three independent tests were carried out: a general test using the tool completely, analyzing its performance with the Dice Coefficient; a technical test with images of different qualities, quantifying the application's success using the same coefficient; and finally, a user experience test with children, in which they used the application and answered a form. Children's satisfaction was measured with the Net Promoter Score (NPS) metric. The general test obtained an average Dice Coefficient of 0.97. The technical test presented an average Dice Coefficient of 0.92 similarity in ideal cases, and 88.57% average context accuracy. The experience test had 22 children aged 7 to 12 years, in which among 7 questions in the questionnaire, 6 had positive responses above 50%, the average satisfaction was 87%, and the NPS was 41. The application proved to be functional, operating with minimal cost and with good technical results, in addition to the favorable opinions of the children who used it.
Descrição
Palavras-chave
Aplicação web, OCR, GPT-4, TypeScript, Sintetização de voz, Efeitos sonoros, Web application, Voice synthesis, Sound effects
Idioma
Português
Como citar
CAETANO, Caio Alexandre Troti. Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial. Orientador: Márcio Alexandre Marques. 2024. 71 p. Trabalho de Graduação (Bacharelado em Engenharia de Controle e Automação) - Instituto de Ciência e Tecnologia, Universidade Estadual Paulista, Sorocaba, 2024.