Logo do repositório

Extração de relações semânticas e grafos contextuais a partir de imagens de cardápios digitalizados de restaurantes usando redes neurais profundas: criação de ferramentas de processamento de cardápios envolvendo detecção, OCR, e aprendizagem supervisionada.

Carregando...
Imagem de Miniatura

Supervisor

Papa, João Paulo

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Relatório de pós-doc

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Este relatório apresenta o desenvolvimento de um sistema para extração de informações hierárquicas de cardápios digitalizados, abrangendo desde a detecção de texto via OCR, até a classificação de grupos e itens de menu, utilizando técnicas de aprendizado supervisionado e não supervisionado, redes convolucionais e recorrentes, além de redes convolucionais em grafos (GCNs) para análise semântica. O estudo explorou também a detecção de regiões de texto através de imagens mascaradas, a clusterização por tamanho de fonte e diversas técnicas de redução de dimensionalidade (PCA, t-SNE e Isomap) para visualização dos dados. Um sistema de rotulação foi desenvolvido como produto mínimo viável, demonstrando o potencial da combinação das abordagens para uma extração de informações precisa e o auxílio na geração de dados rotulados para futuros aprimoramentos.

Resumo (inglês)

This report presents the development of a system for hierarchical information extraction from digitized menus, covering everything from text detection via OCR to the classification of menu groups and items, utilizing supervised and unsupervised learning techniques, convolutional and recurrent networks, as well as graph convolutional networks (GCNs) for semantic analysis. The study also explored text region detection through masked images, font size-based clustering, and various dimensionality reduction techniques (PCA, t-SNE, and Isomap) for data visualization. A labeling system was developed as a minimum viable product, demonstrating the potential of combining the approaches for accurate information extraction and assisting in the generation of labeled data for future improvements.

Descrição

Palavras-chave

Deep learning, Text detection, Graph projections, Menu, Aprendizagem profunda, Detecção de texto, Projeção de grafos

Idioma

Português

Citação

Itens relacionados

Financiadores

Unidades

Item type:Unidade,
Faculdade de Ciências
FC
Campus: Bauru


Departamentos

Cursos de graduação

Programas de pós-graduação