Logotipo do repositório
 

Publicação:
Optical character recognition using deep learning

dc.contributor.advisorBreve, Fabricio Aparecido [UNESP]
dc.contributor.authorSantos, Claudio Filipi Gonçalves dos
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2018-05-25T18:51:24Z
dc.date.available2018-05-25T18:51:24Z
dc.date.issued2018-04-26
dc.description.abstractDetectores óticos de caracteres, ou Optical Character Recognition (OCR) é o nome dado à técnologia de traduzir dados de imagens em arquivo de texto. O objetivo desse projeto é usar aprendizagem profunda, também conhecido por aprendizado hierárquico ou Deep Learning para o desenvolvimento de uma aplicação com a habilidade de detectar áreas candidatas, segmentar esses espaços dan imagem e gerar o texto contido na figura. Desde 2006, Deep Learning emergiu como uma nova área em aprendizagem de máquina. Em tempos recentes, as técnicas desenvolvidas em pesquisas com Deep Learning têm influenciado e expandido escopo, incluindo aspectos chaves nas área de inteligência artificial e aprendizagem de máquina. Um profundo estudo foi conduzido com a intenção de desenvolver um sistema OCR usando apenas arquiteturas de Deep Learning.A evolução dessas técnicas, alguns trabalhos passados e como esses trabalhos influenciaram o desenvolvimento dessa estrutura são explicados nesse texto. Essa tese demonstra com resultados como um classificador de caracteres foi desenvolvido. Em seguida é explicado como uma rede neural pode ser desenvolvida para ser usada como um detector de objetos e como ele pode ser transformado em um detector de texto. Logo após é demonstrado como duas técnicas diferentes de Deep Learning podem ser combinadas e usadas na tarefa de transformar segmentos de imagens em uma sequência de caracteres. Finalmente é demonstrado como o detector de texto e o sistema transformador de imagem em texto podem ser combinados para se desenvolver um sistema OCR completo que detecta regiões de texto nas imagens e o que está escrito nessa região. Esse estudo demonstra que a idéia de usar apenas estruturas de Deep Learning podem ter performance melhores do técnicas baseadas em outras áreas da computação como por exemplo o processamento de imagens. Para detecção de texto foi alcançado mais de 70% de precisão quando uma arquitetura mais complexa foi usada, por volta de 69% de traduções de imagens para texto corretas e por volta de 50% na tarefa ponta-à-ponta de detectar as áreas de texto e traduzi-las em sequência de caracteres.pt
dc.description.abstractOptical Character Recognition (OCR) is the name given to the technology used to translate image data into a text file. The objective of this project is to use Deep Learning techniques to develop a software with the ability to segment images, detecting candidate characters and generating textthatisinthepicture. Since2006,DeepLearningorhierarchicallearning, emerged as a new machine learning area. Over recent years, the techniques developed from deep learning research have influenced and expanded scope, including key aspects of artificial intelligence and machine learning. A thorough study was carried out in order to develop an OCR system using only Deep Learning architectures. It is explained the evolution of these techniques, some past works and how they influenced thisframework’sdevelopment. Inthisthesisitisdemonstratedwithresults how a single character classifier was developed. Then it is explained how a neural network can be developed to be an object detector and how to transform this object detector into a text detector. After that it shows how a set of two Deep Learning techniques can be combined and used in the taskoftransformingacroppedregionofanimageinastringofcharacters. Finally, it demonstrates how the text detector and the Image-to-Text systemswerecombinedinordertodevelopafullend-to-endOCRsystemthat detects the regions of a given image containing text and what is written in this region. It shows the idea of using only Deep Learning structures can outperform other techniques based on other areas like image processing. In text detection it reached over 70% of precision when a more complex architecture was used, around 69% of correct translation of image-to-text areasandaround50%onend-to-endtaskofdetectingareasandtranslating them into text.en
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipId1623685
dc.identifier.aleph000902235
dc.identifier.capes33004153073P2
dc.identifier.lattes5693860025538327
dc.identifier.orcid0000-0002-1123-9784
dc.identifier.urihttp://hdl.handle.net/11449/154100
dc.language.isoeng
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectAprendizado profundopt
dc.subjectRedes neurais convolucionaispt
dc.subjectRedes neurais recorrentespt
dc.subjectOCRpt
dc.subjectDeep learningen
dc.subjectConvolutional neural networken
dc.subjectRecurrent neural networken
dc.titleOptical character recognition using deep learningen
dc.title.alternativeReconhecimento óptico de caracteres usando aprendizado profundopt
dc.typeDissertação de mestrado
dspace.entity.typePublication
unesp.advisor.lattes5693860025538327
unesp.advisor.orcid0000-0002-1123-9784
unesp.campusUniversidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Pretopt
unesp.embargoOnlinept
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2pt
unesp.knowledgeAreaComputação aplicadapt
unesp.researchAreaInteligência computacionalpt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
santos_cfg_me_sjrp.pdf
Tamanho:
7.87 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.95 KB
Formato:
Item-specific license agreed upon to submission
Descrição: