Extracting information from PDF documents for use in automatic indexing of e-books

Gil-leiva, Isidoro; Fujita, Mariangela Spotti Lopes [UNESP]; Redigolo, Franciele Marques; Saran, Jordan Ferreira [UNESP]

doi:10.1590/2318-0889202234e210069

Extracting information from PDF documents for use in automatic indexing of e-books

dc.contributor.author	Gil-leiva, Isidoro
dc.contributor.author	Fujita, Mariangela Spotti Lopes [UNESP]
dc.contributor.author	Redigolo, Franciele Marques
dc.contributor.author	Saran, Jordan Ferreira [UNESP]
dc.contributor.institution	Univ Murcia
dc.contributor.institution	Universidade Estadual Paulista (UNESP)
dc.contributor.institution	Univ Fed Para
dc.date.accessioned	2022-11-30T13:45:11Z
dc.date.available	2022-11-30T13:45:11Z
dc.date.issued	2022-01-01
dc.description.abstract	The number of electronic books that enter libraries in PDF format is greater every day. Complicating and making it almost unfeasible for some processes, traditionally carried out manually by librarians such as the assignment of subjects, to be done. In this context, it is necessary to design and develop applications that assist librarians. Taking this into consideration, we present in this work the evaluation oftools for extracting information from books in PDF format that could be used later as raw material for an automatic indexing system. To do this, we carried out a first evaluation offive software (PDFMiner.six, PDFAct, PDF-extract, PDFExtract, and Grobib), later, as PDFAct achieved the best performance, we did a second evaluation to find out their ability to identify and extract information from the books such as titles, indexes, sections, titles of tables and graphs and bibliographic reference which are relevant information for any indexing system. It is concluded that none of the evaluated tools adequately extracts the different parts of PDF books, although PDFAct has achieved a better performance than the rest.	en
dc.description.affiliation	Univ Murcia, Fac Comunicac & Documentac, Campus Univ Espinardo s n, Murcia 30100, Spain
dc.description.affiliation	Univ Estadual Paulista, Fac Filosofia & Ciencias, Programa Posgrad Ciencia Informacao, Marilia, SP, Brazil
dc.description.affiliation	Univ Fed Para, Fac Bibliotecon, Programa Posgrad Ciencia Informacao, Belem, PA, Brazil
dc.description.affiliationUnesp	Univ Estadual Paulista, Fac Filosofia & Ciencias, Programa Posgrad Ciencia Informacao, Marilia, SP, Brazil
dc.format.extent	11
dc.identifier	http://dx.doi.org/10.1590/2318-0889202234e210069
dc.identifier.citation	Transinformacao. Campinas: Pontificia Universidade Catolica Campinas, v. 34, 11 p., 2022.
dc.identifier.doi	10.1590/2318-0889202234e210069
dc.identifier.issn	0103-3786
dc.identifier.uri	http://hdl.handle.net/11449/237794
dc.identifier.wos	WOS:000830903000001
dc.language.iso	eng
dc.publisher	Pontificia Universidade Catolica Campinas
dc.relation.ispartof	Transinformacao
dc.source	Web of Science
dc.subject	Software evaluation
dc.subject	PDFMiner
dc.subject	six
dc.subject	PDFAct
dc.subject	PDF-extract
dc.subject	PDFExtract
dc.subject	Grobib
dc.subject	Automatic indexing
dc.title	Extracting information from PDF documents for use in automatic indexing of e-books	en
dc.type	Artigo
dcterms.rightsHolder	Pontificia Universidade Catolica Campinas
dspace.entity.type	Publication
unesp.author.orcid	0000-0002-8239-7114[2]
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Filosofia e Ciências, Marília	pt
unesp.department	Ciência da Informação - FFC	pt

Coleções

Marília - FFC - Faculdade de Filosofia e Ciências

Extracting information from PDF documents for use in automatic indexing of e-books

Arquivos

Coleções