Extração de relações semânticas e grafos contextuais a partir de imagens de cardápios digitalizados de restaurantes usando redes neurais profundas: criação de ferramentas de processamento de cardápios envolvendo detecção, OCR, e aprendizagem supervisionada.
Carregando...
Data
Autores
Supervisor
Papa, João Paulo 

Coorientador
Pós-graduação
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Relatório de pós-doc
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Este relatório apresenta o desenvolvimento de um sistema para extração de informações hierárquicas de cardápios digitalizados, abrangendo desde a detecção de texto via OCR, até a classificação de grupos e itens de menu, utilizando técnicas de aprendizado supervisionado e não supervisionado, redes convolucionais e recorrentes, além de redes convolucionais em grafos (GCNs) para análise semântica. O estudo explorou também a detecção de regiões de texto através de imagens mascaradas, a clusterização por tamanho de fonte e diversas técnicas de redução de dimensionalidade (PCA, t-SNE e Isomap) para visualização dos dados. Um sistema de rotulação foi desenvolvido como produto mínimo viável, demonstrando o potencial da combinação das abordagens para uma extração de informações precisa e o auxílio na geração de dados rotulados para futuros aprimoramentos.
Resumo (inglês)
This report presents the development of a system for hierarchical information extraction from digitized menus, covering everything from text detection via OCR to the classification of menu groups and items, utilizing supervised and unsupervised learning techniques, convolutional and recurrent networks, as well as graph convolutional networks (GCNs) for semantic analysis. The study also explored text region detection through masked images, font size-based clustering, and various dimensionality reduction techniques (PCA, t-SNE, and Isomap) for data visualization. A labeling system was developed as a minimum viable product, demonstrating the potential of combining the approaches for accurate information extraction and assisting in the generation of labeled data for future improvements.
Descrição
Palavras-chave
Deep learning, Text detection, Graph projections, Menu, Aprendizagem profunda, Detecção de texto, Projeção de grafos
Idioma
Português

