Universidade Estadual Paulista (UNESP) Faculdade de Filosofia e Ciências, Campus de Marília Programa de Pós-Graduação em Ciência da Informação Fabrício Silva Assumpção Modelo para a publicação de dados de autoridade como Linked Data Marília 2018 Fabrício Silva Assumpção Modelo para a publicação de dados de autoridade como Linked Data Tese apresentada ao Programa de Pós- Graduação em Ciência da Informação da UNESP, Campus de Marília, como requisito parcial para a obtenção do título de doutor em Ciência da Informação. Linha de Pesquisa: Informação e Tecnologia. Orientadora: Plácida Leopoldina Ventura Amorim da Costa Santos Marília 2018 fabricioassumpcao.com assumpcao.f@gmail.com Assumpção, Fabrício Silva. A851m Modelo para a publicação de dados de autoridade como Linked Data / Fabrício Silva Assumpção. – Marília, 2018. 208 f. ; 30 cm. Orientador: Plácida Leopoldina Ventura Amorim da Costa Santos. Tese (Doutorado em Ciência da Informação) – Universidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, 2018. Bibliografia: f. 193-208. 1. Controle de autoridade. 2. Dados ligados. 3. Web semântica. 4. Catalogação descritiva. 5. Tecnologia da informação. I. Título. CDD 005.73 Ficha catalográfica elaborada por André Sávio Craveiro Bueno Bibliotecário CRB 8/8211 Fabrício Silva Assumpção Modelo para a publicação de dados de autoridade como Linked Data Tese apresentada ao Programa de Pós- Graduação em Ciência da Informação da UNESP, Campus de Marília, como requisito parcial para a obtenção do título de doutor em Ciência da Informação. Banca examinadora: Prof.ª Dr.ª Plácida Leopoldina Ventura Amorim da Costa Santos Universidade Estadual Paulista (UNESP) – Orientadora Dr.ª Ana Maria Pereira Universidade do Estado de Santa Catarina (UDESC) Dr. José Eduardo Santarem Segundo Universidade de São Paulo (USP) Prof. Dr. Ricardo Cesar Gonçalves Sant'Ana Universidade Estadual Paulista (UNESP) Dr.ª Zaira Regina Zafalon Universidade Federal de São Carlos (UFSCar) UNESP, Campus de Marília, 05 de fevereiro de 2018. Agradecimentos Agradeço primeiramente à minha mãe. Agradeço também: À professora Plácida, pelas inúmeras contribuições à minha formação no decorrer da graduação, do mestrado e do doutorado e pelas oportunidades e liberdades a mim proporcionadas para concretizar meus projetos de pesquisa. Aos professores membros da banca, Ana Maria Pereira, José Eduardo Santarem Segundo, Ricardo Cesar Gonçalves Sant'Ana e Zaira Regina Zafalon, e suplentes, Rachel Cristina Vesu Alves, Rogério Aparecido Sá Ramalho e Silvana Aparecida Borsetti Gregorio Vidotti, por sua disposição em participar da avaliação deste trabalho e por suas contribuições para minha formação. Aos diversos colegas, alunos e professores, do Grupo de Pesquisa Novas Tecnologias em Informação (GPNTI), especialmente aos mais próximos com os quais convivi por tanto tempo no Laboratório de Tecnologias Informacionais. Aos professores do Departamento de Ciência da Informação e do Programa de Pós-Graduação em Ciência da Informação da UNESP, com quem muito aprendi ao longo dos anos. Ao professor Walter Moreira, também pela oportunidade de realizar o estágio docência na disciplina “Linguagens documentais alfabéticas”. Aos colegas de trabalho do Repositório Institucional UNESP e da Biblioteca do Setor Litoral da Universidade Federal do Paraná (UFPR), por seu companheirismo e pelas oportunidades de crescimento pessoal e profissional que me proporcionaram. À UNESP, por tudo que me proporcionou durante a graduação, o mestrado e o doutorado, e à CAPES, pela bolsa concedida entre março e outubro de 2016. A tantos outros que, direta ou indiretamente, estiveram comigo durante os 10 (dez!) anos dessa caminhada quase ininterrupta da graduação ao doutorado. E ao Jaider, por tudo! Instant electronic access to digital information is the single most distinguishing attribute of the information age. The elaborate retrieval mechanisms that support such access are a product of technology. But technology is not enough. The effectiveness of a system for accessing information is a direct function of the intelligence put into organizing it. Just as the practical field of engineering has theoretical physics as its underlying base, the design of systems for organizing information rests on an intellectual foundation. — ELAINE SVENONIUS (2000, p. ix) Resumo A Ciência da Informação tem entre suas preocupações o acesso à informação e aos recursos informacionais, sendo, portanto, objetos de seu interesse os instrumentos utilizados para esse acesso, tais como os catálogos, que incluem dados bibliográficos (representações de recursos informacionais) e dados de autoridade (representações das entidades associadas aos recursos informacionais, tais como pessoas, entidades coletivas e conceitos). A proposta de criação de uma Web Semântica, em que os dados sejam processados não somente por sua sintaxe, mas também por sua semântica, tem impulsionado o desenvolvimento de um conjunto de tecnologias para a representação de dados na Web, assim como para a consulta a esses dados e o raciocínio computadorizado a partir deles. O uso de algumas dessas tecnologias para a publicação e o relacionamento de dados levou ao surgimento do conceito de Linked Data, e o anseio por sua aplicação na Ciência da Informação deu origem a projetos para a publicação de dados de autoridade como Linked Data. No entanto, observa-se que esses projetos, ainda em estágios iniciais ou experimentais, carecem de um quadro teórico construído na Ciência da Informação que possa orientar quanto às políticas, aos procedimentos e às tecnologias empregadas na publicação desses dados. Assim, partindo do problema “como publicar dados de autoridade como Linked Data?” são delineados o objetivo geral – propor, a partir do conceito das funções dos dados de autoridade nos catálogos e de seus benefícios nos ambientes de Linked Data, um modelo de publicação de dados de autoridade como Linked Data compreendendo políticas, procedimentos e tecnologias – a tese e a hipótese desta pesquisa, de caráter bibliográfico, documental e metodológico. Para o alcance desse objetivo, primeiramente é conduzida uma revisão de literatura acerca do controle de autoridade e do desenvolvimento dos dados de autoridade nos catálogos em livros, em fichas e digitais, com destaque para os modelos conceituais FRAD e FRSAD que sintetizam as funções desempenhadas pelos dados de autoridade. Em seguida, são apresentados o conceito de Linked Data e as principais tecnologias da Web Semântica relacionadas a ele: URIs, RDF, RDFS e OWL, apresentação essa que serve de base para a descrição de três vocabulários que podem ser utilizados na publicação de dados de autoridade (SKOS, MADS/RDF e RDA Element Sets), de iniciativas para a publicação desses dados (LC Linked Data Service, datos.bne.es, data.bnf.fr, VIAF e AGROVOC) e dos potenciais benefícios da publicação dos dados de autoridade como Linked Data. A partir dos resultados dessa revisão de literatura, é proposto o modelo para a publicação de dados de autoridade como Linked Data, compreendendo as etapas de planejamento; modelagem e mapeamento; tratamento, relacionamento e conversão; publicação; e feedback e retroalimentação. Após a descrição de cada etapa do modelo, com suas políticas, procedimentos e tecnologias, são apresentadas considerações finais sobre os resultados alcançados e sobre o modelo proposto. Palavras-chave: Dados de autoridade. Controle de autoridade. Linked Data. Web Semântica. Catálogos. Catalogação descritiva. Informação e tecnologia. Abstract One of the issues that Information Science is concerned with is the access to information resources, therefore the studies in this area include the library catalogs, which comprise bibliographic data (representations of information resources) and authority data (representations of the entities related to the information resources, such as persons, corporate body and concepts). The proposal of a Semantic Web in which data are processed not just by their syntax but also by their semantics has led to the development of a set of technologies for publishing and linking data on the Web, as well as technologies for data querying and for the computerized reasoning. The use of a subset of these technologies for publishing and linking data has led to the Linked Data concept. The experiments with these technologies in Information Science have given rise to projects for publishing authority data as Linked Data. However, we observed that these projects, still in initial or experimental stages, are not based on a theoretical framework developed in Information Science that can guide them regarding to the policies, to the procedures and to the technologies used in the publication of these data. Thus, starting from the question “how to publish authority data as Linked Data?” we define the main goal – conceptualize the functions of authority data in the catalogs and their benefits in Linked Data environments in order to propose a model for authority data publishing, as well as highlighting its policies, procedures and technologies – the thesis and the hypothesis of this research. To achieve this goal, first we made a literature review about authority control and the development of authority data in books, cards and digital catalogs, remarking the FRAD and FRSAD conceptual models which synthesize the functions of authority data. Then, we present the Linked Data concept and the main Semantic Web technologies related to it: URIs, RDF, RDFS and OWL; starting from this introduction, we describe three vocabularies that can be used to publishing authority data (SKOS, MADS/RDF and RDA Element Sets), some initiatives (Library of Congress Linked Data Service, datos.bne.es, data.bnf.fr, VIAF and AGROVOC) and the advantages of authority data published as Linked Data. Based on the results of this literature review, we propose a model for publishing authority data as Linked Data, The model comprases the following stages: planning; modeling and mapping; processing, linking and conversion; publishing; and feedback. After describing each of these stages, with its policies, procedures and technologies, we present the conclusions about the results and about the proposed model. Keywords: Authority data. Authority control. Linked Data. Semantic Web. Catalogs. Descriptive cataloging. Information and technology. Lista de figuras Figura 1 – Relações entre as entidades e seus nomes .................................................................... 26 Figura 2 – Relações entre entidades, nomes e recursos ................................................................ 27 Figura 3 – Sistema de autoridade com seus componentes e relacionamentos ..................... 33 Figura 4 – Ficha de autoridade para um nome pessoal ................................................................. 46 Figura 5 – Modelo de dados dos catálogos digitais .......................................................................... 54 Figura 6 – Base fundamental do FRAD ................................................................................................. 62 Figura 7 – Relacionamentos entre as entidades do FRAD ............................................................ 65 Figura 8 – Relacionamento entre as entidades obra, thema e nomen ...................................... 68 Figura 9 – Tecnologias da Web Semântica .......................................................................................... 74 Figura 10 – Linking Open Data cloud diagram ................................................................................... 76 Figura 11 – URIs identificando objetos do mundo real e documentos .................................... 81 Figura 12 – Grafo RDF ................................................................................................................................. 84 Figura 13 – Formatos para a serialização do RDF............................................................................ 85 Figura 14 – Serialização do RDF utilizando o formato Turtle ...................................................... 87 Figura 15 – Declarações utilizando a propriedade rdf:type serializadas em Turtle. ........... 95 Figura 16 – Declarações utilizando propriedades e classes do RDF Schema ......................... 96 Figura 17 – Declarações em RDF utilizando algumas propriedades da OWL .................... 100 Figura 18 – Categorias de dados das bibliotecas ........................................................................... 104 Figura 19 – Exemplos de classes e propriedades do SKOS ........................................................ 108 Figura 20 – Exemplos de classes e propriedades do MADS/RDF ........................................... 113 Figura 21 – Exemplos de propriedades dos RDA Element Sets ................................................ 118 Figura 22 – Modelagem utilizada no portal datos.bne.es. ........................................................... 126 Figura 23 – Arquitetura global do projeto data.bnf.fr ................................................................. 129 Figura 24 – UNLV Linked Data Project ............................................................................................... 145 Figura 25 – Modelo para a publicação de dados de autoridade como Linked Data ......... 147 Figura 26 – Machado de Assis na datos.bne.es ................................................................................ 159 Figura 27 – Modelo de dados para dados de autoridade ........................................................... 161 Figura 28 – Uso do código 303 com negociação de conteúdo .................................................. 168 Figura 29 – Descrição em RDF de um conjunto de dados .......................................................... 180 Figura 30 – Página sobre o ano de 1973 ........................................................................................... 184 Figura 31 – Página sobre a cidade de Roma .................................................................................... 185 Lista de quadros Quadro 1 – Entidades e atributos definidos no FRAD .................................................................... 63 Quadro 2 – Entidades e atributos definidos no FRSAD .................................................................. 67 Quadro 3 – Exemplos de vocabulários utilizados em declarações RDF .................................. 92 Quadro 4 – Iniciativas para a publicação de dados de autoridade como Linked Data .... 134 Quadro 5 – Metas e ações do projeto datos.bne.es ........................................................................ 143 Quadro 6 – Visão geral das fases do UNLV Linked Data Project ............................................... 144 Quadro 7 – Melhores práticas para os dados na Web ................................................................. 146 Quadro 8 – Classificação das licenças a partir de suas restrições ........................................... 151 Quadro 9 – Licenças Creative Commons ............................................................................................ 152 Quadro 10 – Exemplo de mapeamento ............................................................................................. 164 Lista de siglas AACR Anglo-American Cataloguing Rules AACR2r Anglo-American Cataloguing Rules, 2nd edition, 2002 revision AFS American Folklore Society AGROVOC Agriculture with Vocabulary ALA American Library Association ANSI American National Standards Institute API Application Programming Interface ARK Archival Resource Key BIBFRAME Bibliographic Framework BNE Biblioteca Nacional de España BnF Bibliothèque nationale de France CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior CC-0 Creative Commons – Public Domain Dedication CC-BY Creative Commons – Attribution CD-ROM Compact Disc Read-Only Memory CSV Comma-Separated Values DCMI Dublin Core Metadata Initiative DNB Deutsche Nationalbibliothek DOI Digital Object Identifier EUA Estados Unidos da América FAO Food and Agriculture Organization FOAF Friend of a Friend FRAD Functional Requirements for Authority Data FRANAR Working Group on Functional Requirements and Numbering of Authority Records FRBR Functional Requirements for Bibliographic Records FRSAD Functional Requirements for Subject Authority Data FRSAR Working Group on the Functional Requirements for Subject Authority Records FTP File Transfer Protocol GEMET GEneral Multilingual Environmental Thesaurus HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol IFLA International Federation of Library Associations and Institutions ISADN International Standard Authority Data Number ISBN International Standard Book Number ISNI International Standard Name Identifier ISO International Organization for Standardization ISSN International Standard Serial Number JSON JavaScript Object Notation JSON-LD JavaScript Object Notation for Linked Data LC Library of Congress LCSH Library of Congress Subject Headings LLD Library Linked Data LOD Linked Open Data MADS Metadata Authority Description Schema MADS/RDF Metadata Authority Description Schema in RDF MARC MAchine-Readable Cataloging MODS Metadata Object Description Schema N3 Notation 3 NISO National Information Standards Organization NUNA Non-Unique Name Assumption OCLC Online Computer Library Center ONIX Online Information Exchange OPAC Online Public Access Catalog OWL Web Ontology Language PHP PHP Hypertext Preprocessor PPGCI Programa de Pós-Graduação em Ciência da Informação PREMIS Preservation Metadata Maintenance Activity RAMEAU Répertoire d'autorité-matière encyclopédique et alphabétique unifié RDA Resource Description and Access RDF Resource Description Framework RDFS RDF Schema SKOS Simple Knowledge Organization System SKOS-XL SKOS eXtension for Labels SPARQL SPARQL Protocol and RDF Query Language SUDOC Système Universitaire de Documentation SWAD-Europe Semantic Web Advanced Development for Europe UNESP Universidade Estadual Paulista “Júlio de Mesquita Filho” UNIMARC Universal Machine Readable Cataloging URI Uniform Resource Identifier URL Uniform Resource Locators VIAF Virtual International Authority File VoID Vocabulary of Interlinked Datasets W3C World Wide Web Consortium XML Extensible Markup Language XSLT Extensible Stylesheet Language for Transformation Sumário 1 Introdução ........................................................................................................................... 14 1.1 Problema, tese e hipótese ............................................................................................................ 15 1.2 Objetivos ............................................................................................................................................. 16 1.3 Justificativa, relevância e motivação da pesquisa .............................................................. 17 1.4 Metodologia ...................................................................................................................................... 18 1.5 Estrutura da pesquisa ................................................................................................................... 19 2 Catálogos e controle de autoridade............................................................................ 21 2.1 Controle de autoridade ................................................................................................................. 24 2.2 Controle de autoridade nos catálogos em livros e em fichas ......................................... 35 2.3 Controle de autoridade nos catálogos digitais .................................................................... 48 2.4 Functional Requirements for Authority Data (FRAD) e Functional Requirements for Subject Authority Data (FRSAD) ......................................................................................... 59 3 Web Semântica, suas tecnologias e Linked Data .................................................... 71 3.1 Uniform Resource Identifier (URI) Hypertext Transfer Protocol (HTTP) .................... 78 3.2 Resource Description Framework (RDF)................................................................................. 82 3.3 RDF Schema (RDFS) e Web Ontology Language (OWL) ................................................... 91 4 Linked Data no domínio bibliográfico: os dados de autoridade em foco .... 103 4.1 Vocabulários para a descrição de dados de autoridade................................................ 106 4.1.1 Simple Knowledge Organization System (SKOS) ............................................................... 107 4.1.2 Metadata Authority Description Schema in RDF (MADS/RDF) ................................... 111 4.1.3 RDA Element Sets .......................................................................................................................... 115 4.2 Dados de autoridade publicados como Linked Data ...................................................... 121 4.2.1 Library of Congress Linked Data Service .............................................................................. 121 4.2.2 datos.bne.es ..................................................................................................................................... 123 4.2.3 data.bnf.fr ........................................................................................................................................ 127 4.2.4 Virtual International Authority File (VIAF) ........................................................................ 130 4.2.5 AGROVOC Multilingual agricultural thesaurus .................................................................. 131 4.3 Benefícios dos dados de autoridade publicados como Linked Data ........................ 136 5 Modelo para a publicação de dados de autoridade como Linked Data ........ 142 5.1 Planejamento ................................................................................................................................. 147 5.1.1 Seleção e análise dos conjuntos de dados .......................................................................... 148 5.1.2 Escolha da licença ........................................................................................................................ 149 5.1.3 Escolha dos conjuntos de dados para relacionamento ................................................. 155 5.2 Modelagem e mapeamento dos dados ................................................................................. 157 5.2.1 Modelagem dos dados ................................................................................................................ 157 5.2.2 Mapeamento .................................................................................................................................. 162 5.2.3 Descrição do vocabulário utilizado ....................................................................................... 166 5.2.4 Definição de padrões para os URIs ....................................................................................... 167 5.3 Tratamento, relacionamento e conversão dos dados .................................................... 170 5.3.1 Tratamento dos dados ............................................................................................................... 170 5.3.2 Relacionamento com outros conjuntos de dados ........................................................... 175 5.3.3 Conversão para RDF ................................................................................................................... 177 5.4 Publicação dos dados ................................................................................................................. 179 5.4.1 Descrição do conjunto de dados ............................................................................................ 179 5.4.2 Dados acessíveis aos softwares .............................................................................................. 180 5.4.3 Dados acessíveis aos humanos ............................................................................................... 183 5.5 Feedback e retroalimentação do arquivo de autoridade .............................................. 185 6 Considerações finais ...................................................................................................... 187 Referências ....................................................................................................................... 193 14 1 Introdução Esta tese é resultado da pesquisa desenvolvida no Programa de Pós-Graduação em Ciência da Informação (PPGCI) da Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP), Campus de Marília, na linha de pesquisa “Informação e Tecnologia” e contou, durante um período, com o financiamento da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), por meio da concessão de bolsa. A Ciência da Informação, no entendimento de Borko (1968, p. 3, tradução nossa), preocupa-se “com o corpo de conhecimento relacionado à origem, coleção, organização, armazenamento, recuperação, interpretação, transmissão, transformação e utilização da informação”. Para cobrir esses diversos aspectos e atividades relacionadas à informação, a Ciência da Informação tem traçado relações com outras áreas, entre elas a Biblioteconomia e a Ciência da Computação (SARACEVIC, 1995). Para Saracevic (1995, p. 4), a Ciência da Informação e a Biblioteconomia têm uma forte base em comum em razão de compartilharem seu papel social e sua preocupação com o uso efetivo de registros ou recursos informacionais. De forma semelhante, a Ciência da Informação está inexoravelmente conectada à tecnologia da informação (SARACEVIC, 1995, p. 2). Nota-se também a relação que a Ciência da Informação mantém com a Catalogação que, originada da prática biblioteconômica de criação e de gestão de catálogos, hoje se ocupa com um conjunto de teorias, de instrumentos e de tecnologias voltados à representação de recursos informacionais. Entre os objetos de preocupação da Catalogação e, de forma geral, da Ciência da Informação, estão os catálogos bibliográficos e seus componentes – sistemas de informação que têm evoluído desde listagens criadas em ambientes analógicos até complexos bancos de dados digitais que almejam a integração com outros serviços de informação também disponíveis e acessíveis na Web. É nesse sentido que se concorda com Santos e Sant’Ana (2013, p. 200): A ciência da informação refere-se à atividade direcionada à pesquisa de princípios e métodos que são partes da análise, do projeto e da evolução dos sistemas de informação. Nesses sistemas, os elementos constituintes são o ambiente, as pessoas, os recursos informacionais, as tecnologias e os procedimentos. 15 Enquanto sistemas de informação, os catálogos, de modo geral, proveem representações de recursos informacionais com o propósito de permitir aos seus usuários a localização, a identificação, a seleção e o acesso a esses recursos, assim como a navegação pelo catálogo e para além dele (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS, 2009). Durante sua evolução, nota-se nos catálogos a presença de dados que, ainda que não se constituam como representações de recursos informacionais, apoiam o uso e a gestão dos catálogos. Esses dados, definidos inicialmente e para os propósitos desta introdução como dados referentes às entidades relacionadas aos recursos informacionais representados em um determinado catálogo, são denominados dados de autoridade. O surgimento da Web na década de 1990 trouxe novos meios para a publicação, o acesso e o intercâmbio de dados em ambientes digitais. A partir do início do século XXI, a proposta de criação de uma Web em que os dados sejam processados não somente por sua sintaxe, mas também por sua semântica – a chamada Web Semântica (BERNERS-LEE; HENDLER; LASSILA, 2001) – tem conduzido ao desenvolvimento de um conjunto de tecnologias para a representação dos dados na Web, assim como para a consulta a esses dados e o raciocínio computadorizado a partir deles. A utilização de um subconjunto dessas tecnologias para a publicação e o relacionamento de dados na Web levou ao surgimento do conceito de Linked Data (BERNERS-LEE, 2006). O anseio pela aplicação de tecnologias da Web Semântica no âmbito da Ciência da Informação leva instituições a iniciarem projetos para a publicação de dados de autoridade como Linked Data. No entanto, observa-se que esses projetos, ainda em estágios iniciais ou experimentais, não dispõem de um quadro teórico construído na Ciência da Informação que possa orientar quanto às políticas, aos procedimentos e às tecnologias empregadas na publicação desses dados. A partir da observação dessa necessidade teórica e prática, são delineados o problema, a tese, a hipótese e os objetivos desta pesquisa. 1.1 Problema, tese e hipótese Esta pesquisa inicia-se a partir do problema: como publicar dados de autoridade como Linked Data? Esse problema de pesquisa é mais bem explicitado nos questionamentos: 16  Quais funções os dados de autoridade desempenham nos catálogos bibliográficos?  Quais políticas e práticas têm sido adotadas nas iniciativas para a publicação de dados de autoridade como Linked Data?  Quais padrões de metadados (vocabulários de classes e de propriedades) podem ser utilizados na publicação de dados de autoridade como Linked Data?  Quais benefícios a publicação de dados de autoridade como Linked Data pode trazer para os catálogos bibliográficos e para a Web Semântica?  Como estão sendo conduzidas as iniciativas para a publicação de dados de autoridade como Linked Data? Diante desse problema de pesquisa, a tese defendida é que: o conhecimento acerca das funções dos dados de autoridade no contexto dos catálogos bibliográficos, aliado ao conhecimento das tecnologias da Web Semântica, possibilita a publicação dos dados de autoridade como Linked Data de modo que tais dados possam desempenhar, em nível macro na Web Semântica, as funções que desempenham em nível micro nos catálogos bibliográficos. Desse modo, a hipótese levantada é que um modelo, construído a partir (1) do entendimento das funções dos dados de autoridade nos catálogos bibliográficos, (2) do entendimento das tecnologias da Web Semântica e (3) da análise das principais iniciativas e vocabulários para a publicação de dados de autoridade como Linked Data, auxiliará na publicação de dados de autoridade como Linked Data. Para verificar essa hipótese, são elencados um objetivo geral e quatro objetivos específicos, descritos no item seguinte. 1.2 Objetivos O objetivo geral é propor, a partir do conceito das funções dos dados de autoridade nos catálogos e de seus benefícios nos ambientes de Linked Data, um modelo de publicação de dados de autoridade como Linked Data compreendendo políticas, procedimentos e tecnologias. Os objetivos específicos são: 1. Conceituar as funções dos dados de autoridade nos catálogos bibliográficos. 17 2. Contextualizar as principais tecnologias da Web Semântica em relação à publicação de Linked Data. 3. Identificar os potenciais benefícios da publicação de dados de autoridade como Linked Data para os catálogos bibliográficos e para a Web. 4. Identificar as principais iniciativas para a publicação de dados de autoridade como Linked Data e descrever os principais vocabulários que podem ser utilizados na publicação desses dados. 1.3 Justificativa, relevância e motivação da pesquisa As tecnologias da Web Semântica e, mais recentemente, o emprego dessas tecnologias na publicação de Linked Data, têm sido objetos de estudo da Ciência da Informação em âmbito nacional e internacional. Na Catalogação, essas tecnologias e o conceito de Linked Data têm figurado nos últimos anos em decorrência da criação de vocabulários de classes e de propriedades a partir de padrões de metadados já existentes, com o intuito de habilitar os dados bibliográficos e de autoridade para usos, na Web, além do domínio bibliográfico e de suas ferramentas. Assim, considerando as possíveis contribuições de um modelo para a publicação de dados de autoridade como Linked Data, esta pesquisa justifica-se por sua relevância científica, acadêmica, profissional e social. Esta pesquisa justifica-se por sua relevância científica por conceituar as funções dos dados de autoridade nos catálogos bibliográficos e os potenciais benefícios da publicação desses dados como Linked Data, contribuindo, desse modo, para um amadurecimento da compreensão dos conceitos de controle de autoridade, dados de autoridade, Linked Data e Web Semântica no âmbito da Ciência da Informação. Na esfera acadêmica, esta pesquisa e os produtos dela derivados passam a integrar o corpo de publicações nacionais da Ciência da Informação, contribuindo para levantamentos acerca do estado da arte dos temas aqui estudados e, sobretudo, para o ensino de Catalogação e das tecnologias da Web Semântica. Esta pesquisa justifica-se também por sua relevância profissional por abordar possibilidades de aplicação das tecnologias da Web Semântica para a representação e o acesso aos dados bibliográficos e de autoridade, podendo, portanto, contribuir para a criação, a gestão e o aperfeiçoamento dos catálogos bibliográficos de modo a melhorar 18 sua eficiência enquanto ferramentas de acesso à informação. De forma específica, esta pesquisa auxiliará no posicionamento e nas ações das instituições gestoras de catálogos bibliográficos frente às iniciativas de Linked Data. Entende-se aqui que essas contribuições, de forma direta ou indireta, impactam na qualidade dos serviços e das ferramentas ofertadas aos usuários dos sistemas de informação, em especial dos catálogos, portanto, estendem-se também à esfera social. A originalidade desta pesquisa reside na conceituação acerca das funções dos dados de autoridade, nos catálogos bibliográficos e no Linked Data, que culmina em um produto inédito (o modelo para a publicação de dados de autoridade como Linked Data). Entre os fatores que motivaram a proposição e o desenvolvimento desta pesquisa estão: 1. o estudo inicial acerca do controle de autoridade, realizado no trabalho de conclusão do curso de graduação; 2. a investigação realizada na dissertação de mestrado, que culminou na proposição de um modelo para a conversão de registros em XML para os Formatos MARC 21 utilizando folhas de estilo XSLT; 3. a observação de iniciativas internacionais para a publicação de Linked Data no âmbito da Catalogação; 4. a ausência de experimentos com as tecnologias da Web Semântica e as práticas de Linked Data envolvendo bibliotecas brasileiras; e 5. o constante questionamento: “como publicar os dados da minha biblioteca como Linked Data?”. 1.4 Metodologia Esta pesquisa, de natureza qualitativa, é considerada bibliográfica, documental e metodológica. É bibliográfica por recorrer à literatura da Ciência da Informação e da Ciência da Computação para a discussão de temas como os catálogos, os dados de autoridade, a Web Semântica e o Linked Data. É também documental, por recorrer a fontes documentais, em sua maioria documentos técnicos, especificando tecnologias e descrevendo iniciativas. Por fim, é também uma pesquisa metodológica, por ter em seu objetivo a proposição de um modelo para a publicação de dados de autoridade como Linked Data. A pesquisa metodológica, segundo Demo (1995, p. 13), é aquela “dedicada a 19 indagar por instrumentos, por caminhos, por modos de se fazer ciência, ou a produzir técnicas de tratamento da realidade, ou a discutir abordagens teórico-práticas”. Para os procedimentos bibliográficos fez-se uso de bases de dados nacionais e internacionais acerca dos temas de investigação, cobrindo publicações nos idiomas português, inglês e espanhol, sem restrições cronológicas ou tipológicas. Para os procedimentos documentais, que subsidiaram principalmente o Capítulo 3 e as Seções 4.1 e 4.2, priorizou-se o uso de documentos emitidos pelas instituições responsáveis pelas tecnologias e iniciativas estudadas. Nas revisões de literatura, em especial naquela conduzida no Capítulo 2, a ênfase nos dados de autoridade que representam principalmente entidades do tipo pessoa e entidade coletiva, em detrimento daqueles que representam conceitos (“termos tópicos”), ocorre de forma consciente, partindo (1) da necessidade de delimitação do objeto de estudo, com vistas a garantir a exequibilidade da pesquisa, e (2) dos referenciais teóricos adotados. A escolha pelas tecnologias descritas no Capítulo 3 e na Seção 4.1 levou em conta principalmente a aplicabilidade dessas tecnologias na publicação de dados de autoridade como Linked Data, assim, tecnologias da Web Semântica relacionadas às camadas de lógica, de regras, de verdade, de segurança e de prova, por exemplo, não são abordadas, o mesmo ocorre com vocabulários que, mesmo tendo sido criados para a descrição de pessoas e de entidades coletivas, não têm em seu escopo a pretensão de descrever dados de autoridade. As iniciativas descritas na Seção 4.2 foram selecionadas considerando sua abrangência, sua potencial contribuição para a proposição do modelo e a disponibilidade e acessibilidade de documentos descrevendo as etapas de seu desenvolvimento e/ou suas características. 1.5 Estrutura da pesquisa No Capítulo 1, “Introdução”, foram apresentados o problema de pesquisa, a tese, a hipótese, os objetivos, a justificativa, a relevância, a motivação e a metodologia desta pesquisa. Os resultados parciais desta pesquisa são apresentados nos capítulos seguintes. 20 O Capítulo 2, “Catálogos e controle de autoridade”, aborda o controle de autoridade e os conceitos a ele relacionados (pontos de acesso, dados, registros, arquivos e sistemas de autoridade), bem como descreve o desenvolvimento dos dados de autoridade nos catálogos em livros, em fichas e digitais. Por fim, esse capítulo apresenta os modelos conceituais FRAD e FRSAD como síntese da compreensão atual acerca dos dados de autoridade no domínio bibliográfico. O Capítulo 3, “Web Semântica, suas tecnologias e Linked Data”, introduz o conceito de Web Semântica, apresenta os princípios relacionados à publicação de Linked Data e descreve algumas das tecnologias relacionadas a esses princípios (URI, RDF, RDFS e OWL). O Capítulo 4, “Linked Data no domínio bibliográfico: os dados de autoridade em foco”, descreve vocabulários que podem ser utilizados na publicação de dados de autoridade (SKOS, MADS/RDF e RDA Element Sets) e iniciativas de instituições que buscam publicar seus dados de autoridade como Linked Data (Library of Congress Linked Data Service, datos.bne.es, data.bnf.fr, VIAF e AGROVOC). Por fim, esse capítulo sintetiza alguns dos benefícios da publicação de dados de autoridade no domínio bibliográfico e além dele. O Capítulo 5, “Modelo para a publicação de dados de autoridade como Linked Data”, inclui a apresentação das etapas do modelo proposto nesta pesquisa: planejamento; modelagem e mapeamento dos dados; tratamento, relacionamento e conversão; publicação; e feedback e retroalimentação. Por fim, no Capítulo 6 são apresentadas as considerações finais sobre os resultados alcançados e sobre o modelo proposto nesta pesquisa. 21 2 Catálogos e controle de autoridade1 Para os propósitos desta pesquisa, o termo catalogação adquire três significados. O primeiro deles, catalogação enquanto processo, refere-se à atividade de construção e de gestão de catálogos, principalmente no âmbito das bibliotecas. O segundo significado, catalogação enquanto coisa, refere-se às representações ou registros que integram a catalogação enquanto processo ou resultam dela. E o terceiro, Catalogação enquanto (sub)disciplina – grafado aqui com a inicial maiúscula – apresenta-se como parte da Biblioteconomia e da Ciência da Informação referindo-se ao conjunto de conhecimentos acerca das teorias, dos instrumentos de representação e das tecnologias relacionadas à catalogação enquanto processo e coisa.2 No entendimento da Catalogação, deve-se considerar que a catalogação enquanto processo antecede à Catalogação enquanto disciplina. Indícios da catalogação enquanto processo são notados já na antiguidade, quando bibliotecas como as de Nínive e de Alexandria representavam os recursos informacionais3 disponíveis em seus acervos (GARRIDO ARILLA, 1996, p. 62; SANTOS; PEREIRA, 2014, p. 16). Durante a Idade Média, a catalogação enquanto processo é notada através dos catálogos dos mosteiros de Saint Riquier, na França, de Bobbio, na Itália, e de Lorsch, na Alemanha, do convento de St. Martin, na Inglaterra, e do Trinity Hall, em Cambridge, também na Inglaterra (SANTOS; PEREIRA, 2014, p. 16-18). Com o Renascimento tem-se o primeiro catálogo bibliográfico impresso, de responsabilidade de Aldo Manuzio, e os catálogos de Johann Tritheim, Conrad Gesner e Andrew Maunsell (SANTOS; PEREIRA, 2014, p. 16-18; TAYLOR; JOUDREY, 2009, p. 71). 1 O conteúdo deste capítulo está parcialmente apresentado nos artigos “O controle de autoridade no domínio bibliográfico: os catálogos em livros e em fichas” (ASSUMPÇÃO; SANTOS; ZAFALON, 2017b) e “O controle de autoridade no domínio bibliográfico: os catálogos digitais” (ASSUMPÇÃO; SANTOS; ZAFALON, 2017a). 2 Uma distinção de natureza semelhante é realizada por Ortega (2011) e por Sousa, Saldanha e Tolentino (2017): “Adotamos a forma ‘Catalogação’ para indicar a área que se ocupa dos princípios e métodos de produção de bases de dados bibliográficas (termo mais amplo que catálogos de bibliotecas) e ‘catalogação’ para tratar das operações de produção dessas bases de dados.” (ORTEGA, 2011, p. 45) e “Catalogação iniciada com a letra “C” maiúscula é empregada para designar a área de pesquisa e, com a letra “c” minúscula refere-se ao processo, ou seja, ao ato de catalogar.” (SOUSA; SALDANHA; TOLENTINO, 2017, p. 332). 3 O termo “recurso informacional” é utilizado nesta pesquisa como termo genérico referente a um documento de um tipo qualquer. O termo “recurso”, utilizado a partir do Capítulo 3, é tratado como um termo genérico que inclui qualquer tipo de recurso, seja ele um recurso informacional ou não, como é caso de pessoas, instituições e conceitos, conforme descrito no Capítulo 3. 22 Sobre a presença dos catálogos e da catalogação enquanto processo na história das bibliotecas, Alves e Santos (2013, p. 23-24) apontam que, Na construção e preservação do conhecimento humano, a mera acumulação dos acervos bibliográficos deixou de ser suficiente. O tratamento e a representação do acervo passaram a ser requeridos, demandando a criação de técnicas, de códigos, de padrões e de competências muito especializadas, enfim, um conjunto de processos e de procedimentos que não ocorreram e não ocorrem isoladamente. A partir da segunda metade do século XIX, o desenvolvimento da Biblioteconomia e, já no século XX, da Ciência da Informação, contou com o surgimento e o desenvolvimento da Catalogação, acompanhados, obviamente, por avanços na catalogação enquanto processo. O desenvolvimento da Catalogação, devido às questões de ordem teórica e prática, foi marcado pela compreensão de que essa disciplina, junto de seus instrumentos, processos e produtos, poderia ser organizada a partir de duas principais abordagens: o tratamento descritivo e o tratamento temático, sendo “[...] que a distinção entre tais abordagens reside na busca do o que (materialização) [tratamento descritivo] e do sobre o que (teor) [tratamento temático] que convivem no âmbito do documento” (GUIMARÃES, 2009, p. 105). Para os propósitos desta pesquisa, entende-se que o tratamento descritivo da informação, daqui em diante mencionado como Catalogação descritiva: (1) inclui os processos relacionados às descrições bibliográficas, aos pontos de acesso de responsabilidade e de títulos e, tradicionalmente, às informações administrativas sobre as representações (registros bibliográficos) dos recursos informacionais; (2) tem entre seus instrumentos as regras e as convenções de catalogação, apresentados principalmente na forma de códigos e de manuais, e os padrões de metadados; e (3) tem como principal produto os registros bibliográficos, ainda que nestes sejam incluídos também produtos do tratamento temático. Para Barité (1998, p. 1244 apud GUIMARÃES, 2009, p. 106), o tratamento temático da informação, centra-se nas questões relativas “à análise, descrição e representação do conteúdo dos documentos, bem como suas inevitáveis interfaces com as teorias e sistemas de armazenamento e recuperação da informação”. O tratamento temático da informação é identificado na literatura sob três vertentes teóricas: “a catalogação de 4 BARITÉ, M. Referenciales teóricos vigentes en el área de tratamiento temático de la información y su expresión metodológica. Porto Alegre: ABEBD, 1998. 23 assunto (subject cataloguing) de matriz norte-americana, a indexação (indexing) de matriz inglesa e a análise documental (analyse documentaire), de matriz francesa” (GUIMARÃES, 2009, p. 106). O catálogo, às vezes chamado de catálogo bibliográfico ou arquivo bibliográfico, é o principal resultado tangível dos processos descritivos e temáticos da catalogação realizados nas bibliotecas. No domínio bibliográfico, os catálogos são entendidos como ferramentas para o acesso aos recursos informacionais de uma instituição, como meios de comunicação entre os recursos informacionais e seus usuários (MEY; SILVEIRA, 2009, p. 12) e como conjuntos organizados de registros bibliográficos (TAYLOR, 2006, p. 6). As unidades básicas que compõem os catálogos, os chamados registros bibliográficos, Apresentam elementos simbólicos aqui denominados de informações documentárias - os quais possuem competência para informar, pois operam com a significação. Informação documentária é aquela apreendida, registrada e armazenada em um sistema de informação (documentária) de forma a ser passível de recuperação e uso para os mais diversos fins demandados pela sociedade. (ORTEGA; LARA, 2010, p. 9). Para a Declaração dos Princípios Internacionais de Catalogação, um registro bibliográfico é “um conjunto de elementos de dados que descreve e provê acesso a um recurso bibliográfico e identifica obras e expressões relacionadas” (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS, 2009, p. 10, tradução nossa). Tradicionalmente, um registro bibliográfico é composto por uma descrição bibliográfica, “um conjunto de dados bibliográficos que identifica um recurso bibliográfico” (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS, 2009, p. 9, tradução nossa), e por um ou mais pontos de acesso, “um nome, termo, código, etc. por meio do qual dados bibliográficos ou de autoridade são buscados e identificados” (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS, 2009, p. 9, tradução nossa). Descrições bibliográficas e pontos de acesso resultam dos processos de catalogação. Dados como o título, as indicações de responsabilidade, as pessoas relacionadas, a data de publicação e o número de páginas proveem de processos descritivos, enquanto dados como os pontos de acesso de assunto e notações de classificação temática proveem de processos temáticos. Ainda que o catálogo com seus registros bibliográficos seja o principal objeto de estudo da Catalogação, deve ser observado que outras ferramentas de acesso à informação com outros tipos de registros e de dados também são de interesse desta 24 disciplina. Entre essas ferramentas, têm-se os arquivos de autoridade, que, por meio de dados de autoridade, prestam-se principalmente ao controle dos pontos de acesso utilizados nos catálogos. Os dados de autoridades são os principais objetos de estudo desta pesquisa. Para uma explanação acerca desses dados, de sua função nos catálogos e de seu desenvolvimento ao longo da história da Catalogação, nas seções deste capítulo são abordados o controle de autoridade e os conceitos a ele relacionados (Seção 2.1), a função dos dados de autoridade nos catálogos analógicos (Seção 2.2) e digitais (Seção 2.3) e os modelos conceituas sobre dados de autoridade publicados na última década (Seção 2.4), provendo, assim, parte do embasamento teórico necessário ao modelo para publicação de dados de autoridade como Linked Data proposto no Capítulo 5. 2.1 Controle de autoridade Como destacado, os tratamentos descritivo e temático voltam-se à materialização e ao teor dos recursos informacionais (GUIMARÃES, 2009, p. 105) e, a partir destes, são construídas representações desse teor e dessa materialização. Nos catálogos de bibliotecas, essas representações constituem os registros bibliográficos, que passam a incluir, portanto, dados resultantes do tratamento descritivo e do tratamento temático, entre outros tipos de dados5. Resultantes do tratamento descritivo dos recursos informacionais, tem-se dados como: título principal, títulos variantes e outras informações sobre o título; indicações relacionando pessoas e entidades coletivas associadas ao recurso informacional; local, data e responsáveis pela publicação, produção, distribuição ou fabricação; formato, dimensão e extensão do suporte, etc. Enquanto que do tratamento temático resultam dados como os termos e as notações que representam os conceitos abordados no teor do recurso informacional. De modo geral, nos catálogos digitais atuais qualquer dado presente em um registro bibliográfico pode ser utilizado para sua recuperação, por exemplo, a data de publicação ou o idioma do recurso informacional. Ao longo da história da Catalogação, 5 Entre esses outros tipos de dados estão os dados administrativos ou técnicos acerca dos recursos informacionais e dos registros bibliográficos. Estes tipos de dados não são tratados nesta seção por não apresentarem contribuição relevante para a compreensão do conceito de controle de autoridade. 25 no entanto, restrições de ordem prática e tecnológica limitaram quais dados seriam utilizados para a recuperação dos registros bibliográficos nos catálogos. Assim, de modo geral, os dados escolhidos foram o título do recurso informacional, os nomes dos responsáveis por ele e os termos referentes aos conceitos tratados em seu conteúdo, como notado na segunda metade do século XIX e no início do século XX, descritos na Seção 2.2. A utilização desses dados, principalmente dos nomes e dos termos, como eram apresentados nos recursos informacionais, por exemplo, o nome do autor como indicado na página de rosto de um livro ou o termo utilizado pelo autor para referir-se a um conceito6 no decorrer do texto, poderia causar problemas na recuperação dos registros bibliográficos, uma vez que os responsáveis e os conceitos, aqui generalizados sob o termo entidades,7 não mantêm relações de univocidade com seus nomes, visto que:  uma entidade poderia ser representada por mais de um nome, tanto nos recursos informacionais, quanto no conjunto de conhecimentos do usuário do catálogo, por exemplo: o uma pessoa poderia ser representada por seu nome completo, nome abreviado, nome anterior ou posterior ao casamento, etc.; o uma entidade coletiva poderia ser representada por seu nome oficial, nome pelo qual é mais conhecida, nome anterior, nome mais recente, sigla, nome em outro idioma ou alfabeto, etc.; o um conceito poderia ser representado por um nome científico, popular ou local, uma sigla, por variações lexicais, etc.  um nome poderia representar mais de uma entidade, tanto nos recursos informacionais, quanto no conjunto de conhecimentos do usuário do catálogo; por exemplo, um mesmo nome pode ser utilizado por diversas pessoas ou entidades coletivas e um mesmo termo pode referir-se a diferentes conceitos em diferentes áreas do conhecimento. 6 “Um conceito é definido como uma ‘unidade de pensamento’, enquanto o termo é um ‘palavra ou frase usada para rotular um conceito’ (ISO, 2013).” (VAN HOOLAND; VERBORGH, 2015, p. 3, tradução nossa). 7 Uma entidade é entendida aqui como “Algo com caráter unitário e autocontido; algo com existência independente ou separada; uma abstração, um conceito ideal, um objeto de pensamento um ou objeto transcendental” (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS, 2009, p. 11, tradução nossa). 26 Essas duas situações que representam as relações entre as entidades e seus nomes estão esquematizadas na Figura 1, onde EntidadeA é representada por Nome1 e Nome3; EntidadeB é representada por Nome2 e Nome3; e Nome3 representa ambas as EntidadeA e EntidadeB. Figura 1 – Relações entre as entidades e seus nomes Fonte: Elaborada pelo autor. Essas duas situações dificultariam a recuperação dos registros bibliográficos nos catálogos, pois (1) resultariam na recuperação de registros bibliográficos irrelevantes ao usuário, nos casos em que um nome representasse mais de uma entidade, e (2) impediriam a recuperação de todos os registros bibliográficos associados a uma entidade, por exemplo, todos os registros dos livros de um mesmo autor ou sobre um mesmo conceito, nos casos em que uma entidade fosse representada por mais de um nome. Os problemas de recuperação decorrentes dessas situações estão esquematizadas na Figura 2, sendo que:  um usuário que deseja obter recursos informacionais associados à EntidadeA, ao realizar uma busca utilizando o Nome3 recupera os recursos informacionais em que a EntidadeA é representada pelo Nome3 (Recursoiii) e também os recursos informacionais em que o Nome3 representa outras entidades, no caso, a EntidadeB (Recursoiv), portanto, recursos informacionais possivelmente irrelevantes ao usuário; 27  um usuário que deseja obter todos os recursos informacionais associados à EntidadeB, ao realizar uma busca utilizando o Nome2 recupera somente os recursos informacionais em que a EntidadeB é representada pelo Nome2 (Recursoii), excluindo, assim, os recursos informacionais em que a EntidadeB é representada por outros nomes (Recursoiv). Figura 2 – Relações entre entidades, nomes e recursos Fonte: Elaborada pelo autor. A busca por soluções para os problemas de recuperação nos catálogos decorrentes da falta de univocidade entre as entidades e seus nomes levou ao surgimento do conceito de controle de autoridade. As definições de controle de autoridade encontradas na literatura, mesmo voltando-se para a necessidade de garantir a univocidade entre as entidades e os nomes utilizados para representá-las nos catálogos, apresentam diferentes entendimentos acerca do que se constitui como o controle de autoridade: alguns autores entendem o “controle de autoridade como um estado que se alcança por meio da realização de um conjunto de atividades”, enquanto outros entendem o controle de autoridade como “o próprio conjunto de atividades ou algumas atividades desse conjunto” (ASSUMPÇÃO; SANTOS, 2012, p. 5-6). Nos parágrafos seguintes são brevemente apresentados alguns autores que demonstram esses entendimentos. 28 Para Taylor (1984, p. 2 apud CLACK, 1988, p. 36, tradução nossa) o controle de autoridade é “o processo de manter a consistência dos cabeçalhos8 em um arquivo bibliográfico por meio de referências a um arquivo de autoridade”. Clack (1988, p. 35, tradução nossa) destaca que o controle de autoridade é um “[...] processo técnico executado em um arquivo bibliográfico para prover estrutura a esse arquivo”, sendo que esse processo envolve […] vários processos interdependentes: (1) a certificação de que o cabeçalho da entrada é único, (2) a aplicação de um conjunto rígido de padrões para a escolha da forma dos cabeçalhos das entradas, e (3) a criação de vínculos entre as entradas autorizadas e todas as variações dessas entradas. (CLACK, 1988, p. 35, tradução nossa). A autora destaca também que a função do controle de autoridade é assegurar a unicidade e a consistência das formas dos nomes, dos títulos e dos assuntos utilizados como pontos de acesso nos registros bibliográficos, de modo a facilitar o acesso eficiente à informação nos catálogos (CLACK, 1988, p. 36). Para Herrero Pascual (1999, p. 121, tradução nossa), O controle de autoridade é o processo de unificar, mediante a utilização de uma forma padronizada, os pontos de acesso dos catálogos automatizados e também de apresentar as relações entre distintos pontos de acesso. Ou seja, significa a padronização dos nomes de pessoas, de entidades, títulos uniformes ou assuntos, que podem constituir um ponto de acesso principal ou os secundários de um catálogo automatizado. Enquanto esses autores definem o controle de autoridade como um processo ou um conjunto de processos que visam à consistência dos pontos de acesso em um catálogo, outros consideram o controle de autoridade algo alcançado quando a consistência dos pontos de acesso é mantida por meio de um conjunto de processos, em outras palavras, consideram o controle de autoridade um fim e não um meio. Além de entender que o controle de autoridade é alcançado com a consistência dos pontos de acesso utilizados em um catálogo, Burger (1985, p. 3, tradução nossa) aponta como necessário ao controle de autoridade o estabelecimento de políticas de catalogação que garantam tal consistência: “O controle de autoridade é alcançado quando os cabeçalhos utilizados em um catálogo estão consistentes e quando um 8 “Cabeçalho” é sinônimo de ponto de acesso. Essa denominação advém dos catálogos em fichas, em que os pontos de acesso eram incluídos no início da ficha catalográfica, como um cabeçalho de uma página. 29 mecanismo (o arquivo de autoridade) e políticas de catalogação relacionadas foram estabelecidos para assegurar essa consistência”. Chan (1994, p. 3) também considera o controle de autoridade algo alcançado em um catálogo quando termos uniformes são utilizados para representar os nomes e os assuntos que servem como pontos de acesso para os registros bibliográficos, de modo que os registros bibliográficos associados a uma mesma entidade não se dispersem entre os sinônimos e as formas variantes dos nomes. Para tanto, a autora entende como atividades de controle de autoridade (1) a integração de registros de autoridade padronizados no sistema local e (2) a preparação de registros de autoridade para os nomes e os assuntos não disponíveis nos arquivos de autoridade utilizados como padrão, por exemplo, nos arquivos de autoridade de uma agência bibliográfica nacional ou programa de catalogação cooperativa (CHAN, 1994, p. 13-14). Taylor e Joudrey (2009, p. 249, tradução nossa) definem o controle de autoridade como “[…] o resultado do processo de manutenção da consistência da forma verbal utilizada para representar um ponto de acesso e dos processos adicionais de apresentação dos relacionamentos entre nomes, obras e assuntos”. Gorman (2004, p. 12, tradução nossa) enfatiza a necessidade do controle de autoridade ao considerá-lo, junto do controle bibliográfico, “dois lados de uma mesma moeda”. Para o autor, No mínimo, o controle bibliográfico é literalmente impossível sem o controle de autoridade. A catalogação não pode existir sem pontos de acesso padronizados e o controle de autoridade é o mecanismo pelo qual alcançamos o grau necessário de padronização. A catalogação trata de ordem, lógica, objetividade, denotação precisa e consistência, e deve ter mecanismos para assegurar esses atributos. (GORMAN, 2004, p. 12, tradução nossa) O controle de autoridade é central e vital às atividades que nós chamamos de catalogação. Catalogação – a reunião lógica de dados bibliográficos dentro de registros recuperáveis e utilizáveis – é a atividade que permite a biblioteca prosseguir em suas missões centrais de serviço e de acesso gratuito e aberto a todo o conhecimento e informação registrados. Não podemos ter um serviço real de biblioteca sem uma arquitetura bibliográfica e não podemos ter essa arquitetura bibliográfica sem o controle de autoridade. (GORMAN, 2004, p. 21, tradução nossa). Sobre a importância do controle de autoridade, Assumpção e Santos (2012), ao analisarem as declarações de Cutter, de Verona, de Domanovszky, de Lubetzky e de Svenonius acerca dos objetivos e funções dos catálogos, assim como aquelas 30 apresentadas nos “Princípios de Paris”, no Functional Requirements for Bibliographic Records (FRBR) e na Declaração dos Princípios Internacionais de Catalogação, destacam que o controle de autoridade é necessário para que o catálogo permita ao usuário encontrar um recurso informacional conhecido, encontrar um conjunto de recursos informacionais que compartilham determinada característica e navegar no catálogo por meio dos relacionamentos existentes entre as entidades. Alguns autores, ao definirem o controle de autoridade o relacionam ao conceito de trabalho de autoridade: O termo authority control é utilizado frequentemente com um termo guarda-chuva para indicar um conjunto de práticas e procedimentos (authority work) que visa à criação de um “arquivo” (authority file) de registros de autoridade (authority record). (BOZZARELLI, 2004, p. 5, tradução nossa). Segundo Marais (2004, p. 62, tradução nossa), o “controle de autoridade é um termo abrangente e genérico para os processos técnicos do trabalho de autoridade e objetiva alcançar o controle sobre as formas variantes dos pontos de acesso”. Para Burger (1985, p. 3, tradução nossa), o “trabalho de autoridade permite que o controle de autoridade ocorra”. O autor, na falta de uma definição abrangente sobre o escopo e o propósito, opta por inferir, a partir da literatura, que trabalho de autoridade consiste, ao menos, em cinco processos: 1. a criação de registros de autoridade (que, por sua vez, são utilizados para criar registros bibliográficos autorizados); 2. a compilação de registros em um arquivo de autoridade; 3. a vinculação do arquivo de autoridade ao arquivo bibliográfico; juntos eles formam um sistema de autoridade; 4. a manutenção do arquivo e do sistema de autoridade; 5. a avaliação do arquivo e do sistema de autoridade. (BURGER, 1985, p. 3, grifo do autor, tradução nossa). Assumpção e Santos (2012, p. 6), concordam com Burger e enfatizam que a consistência necessária ao controle de autoridade implica “[...] uma entidade ser identificada por apenas um ponto de acesso autorizado e um ponto de acesso autorizado identificar somente uma entidade”, o que é destacado por Chan (2007, p. 164-165) com o princípio dos cabeçalhos uniformes e o princípio dos cabeçalhos únicos. Hagler (1997, p. 112-113, tradução nossa) considera que as tarefas de 31 1) determinar se existe ou não um relacionamento significante entre diferentes nomes ou termos e se um mesmo nome ou termo pode referir-se a mais de uma diferente pessoa, conceito, etc. 2) estabelecer e vincular todos os possíveis pontos de acesso que podem razoavelmente expressar cada pessoa, conceito, etc. distinto são coletivamente chamadas de trabalho de autoridade. Ainda segundo o autor, o trabalho de autoridade impõe a decisão do catalogador sobre como melhor organizar e apresentar as entidades e os significados implícitos nas palavras em linguagem natural e que, portanto, tal trabalho não pode ser reduzido à mera aplicação de regras (HAGLER, 1997, p. 113). Maxwell (2002, p. 3-4, destaque do autor, tradução nossa) ressalta a importância do trabalho de autoridade enquanto responsável por manter registros das decisões tomadas em relação a cada ponto acesso autorizado utilizado no catálogo: Geralmente há espaço para a decisão do catalogador na escolha da forma para um determinado nome ou assunto, assim, diferentes catalogadores podem chegar a diferentes cabeçalhos para um mesmo nome. [...] Se um registro das decisões anteriores não é mantido, o único modo de descobrir [qual decisão foi tomada] será verificando os registros bibliográficos e observando o que foi utilizado no passado. Isso pode funcionar na maioria dos casos, mas um método mais eficiente é manter separado um registro das decisões tomadas, de modo que os catalogadores não precisem retomá-las cada vez que um cabeçalho for necessário. Esses registros criam uma base de dados ou um arquivo usualmente referido como um “arquivo de autoridade”. Os registros aos quais Maxwell refere-se são hoje denominados registros de autoridade. Segundo a Declaração dos Princípios Internacionais de Catalogação, um registro de autoridade é “um conjunto de elementos de dados que identifica uma entidade e pode ser utilizado para facilitar o acesso ao ponto de acesso autorizado para a entidade ou a exibição de qualquer ponto de acesso para ela” (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS, 2009, p. 9, tradução nossa). Taylor e Joudrey (2009, p. 252, tradução nossa) acrescentam que um registro de autoridade “inclui evidências de todas as decisões tomadas e de todos os relacionamentos entre as variações identificadas”. Os dados dos registros de autoridade são considerados dados de autoridade. Segundo o modelo conceitual Functional Requirements for Authority Data (FRAD) (IFLA WORKING GROUP ON FRANAR, 2013, p. 1), os dados de autoridade representam os pontos de acesso controlados e outras informações que as instituições utilizam para agrupar as obras de uma pessoa, família ou entidade coletiva, ou as várias edições de uma obra. 32 Para os propósitos desta pesquisa, considera-se que o termo dados de autoridade indica o conjunto de dados formado pelos pontos de acesso controlados utilizados na identificação de uma determinada entidade e pelos dados que apoiam o uso destes pontos de acesso, sejam eles dados sobre a entidade, por exemplo, pontos de acesso relacionados, dados biográficos ou históricos, ou sobre o processo de estabelecimento dos pontos de acesso, por exemplo, as regras utilizadas, as fontes de informação consultadas e a instituição na qual ou para a qual os dados de autoridade foram criados. Esta compreensão acerca dos dados de autoridade respalda-se em conceitos de dados como o apresentado por Santos e Sant’Ana (2013, p. 205): [...] dado é uma unidade de conteúdo necessariamente relacionada a determinado contexto e composta pela tríade entidade, atributo e valor, de tal forma que, mesmo que não esteja explícito o detalhamento sobre contexto do conteúdo, ele deverá estar disponível de modo implícito no utilizador, permitindo, portanto, sua plena interpretação. Os tipos de dados de autoridade variam conforme (1) os instrumentos de descrição, por exemplo, regras de catalogação e padrões de metadados, utilizados na criação do registro de autoridade, e (2) a natureza da entidade representada pelo registro, por exemplo, os dados de autoridade associados a uma pessoa são diferentes dos dados associados a uma entidade coletiva que, por sua vez, são diferentes dos dados associados a um conceito, etc. Uma relação dos principais tipos de dados de autoridade é apresentada na Seção 2.4, em que são abordados os modelos conceituais FRAD e Functional Requirements for Subject Authority Data (FRSAD). Os registros de autoridade, quando reunidos, constituem os arquivos de autoridade (BURGER, 1985, p. 3; TAYLOR, 2006, p. 19-20), também denominados catálogos de identidade (MEY; SILVEIRA, 2009, p. 195). Para Hagler (1997, p. 117), o arquivo de autoridade é o principal produto do trabalho de autoridade e a expressão tangível de um vocabulário controlado. Segundo o autor, esse arquivo nunca está finalizado, pois “novos nomes, termos e relacionamentos devem ser acrescentados e os obsoletos devem ser removidos, e o trabalho já realizado está sujeito a melhorias” (HAGLER, 1997, p. 118, tradução nossa). Calhoun (1998, tradução nossa) lista quatro funções dos arquivos de autoridade: (1) “função de autoridade”, relativa à manutenção da consistência nos catálogos; (2) “função de localização”, relativa à habilidade dos usuários buscarem e encontrarem entidades utilizando um de seus vários nomes; (3) “função informativa”, relativa à 33 documentação das fontes de informação consultadas pelo catalogador para a criação dos pontos de acesso; e (4) “função de manutenção”, relativa à possibilidade de uso do arquivo de autoridade para a identificação e a correção de erros no catálogo. Registros e arquivos de autoridade podem apresentar-se de diferentes formas em razão das tecnologias utilizadas e das políticas de catalogação de cada instituição. Em sistemas manuais, por exemplo, registros representando nomes de pessoas e de entidades coletivas e registros representando conceitos eram frequentemente mantidos em arquivos de autoridade separados, enquanto que em sistemas digitais podem ser mantidos em uma mesma base de dados e integralmente vinculados ou não ao catálogo (CHAN, 1994, p. 12). A junção de um arquivo de autoridade com um catálogo, segundo Burger (1985), resulta em um sistema de autoridade, cujos componentes e relacionamentos estão sintetizados na Figura 3. Para o autor, o fato de arquivo de autoridade conter os pontos de acesso utilizados no catálogo já indica um vínculo implícito entre os dois, no entanto, a explicitação deste vínculo é que indica o tipo de relacionamento entre o catálogo e o arquivo de autoridade (BURGER, 1985, p. 32). Figura 3 – Sistema de autoridade com seus componentes e relacionamentos Fonte: Elaborada pelo autor. 34 Na década de 1980, Burger identificou quatro tipos possíveis para esse relacionamento (vínculo): (1) o arquivo de autoridade independente do catálogo, quando os dois existem como bases de dados distintas, sem que as alterações realizadas no arquivo de autoridade sejam refletidas no catálogo; (2) o arquivo de autoridade coordenado com o catálogo, quando não há um vínculo explícito entre os dois, mas as mudanças realizadas no arquivo de autoridade são realizadas também no catálogo, como ocorre com os catálogos em fichas; (3) o arquivo de autoridade como parte do catálogo, quando não há registros de autoridade e os registros bibliográficos do catálogo são utilizados para o registro e a consulta aos pontos de acesso autorizados; e (4) o arquivo de autoridade conectado ao catálogo, quando os dois estão vinculados de modo que uma alteração realizada no arquivo de autoridade seja automaticamente refletida no catálogo (BURGER, 1985, p. 32-34). Alguns desses vínculos são notados na revisão sobre o controle de autoridade nos catálogos em livros, em fichas e digitais, conduzida nas Seções 2.2 e 2.3. O trabalho envolvido no controle de autoridade, por demandar pessoal especializado e tempo, é custoso (MAXWELL, 2002, p. 6; MARAIS, 2004, p. 70), o que faz com que, frequentemente, a busca por palavras-chave não controladas (keyword searching) seja considerada suficiente para a recuperação de recursos informacionais (TAYLOR; JOUDREY, 2009, p. 189). Nesse sentido, em defesa do controle de autoridade, Taylor e Joudrey (2009, p. 189, tradução nossa) destacam que […] pesquisas têm demonstrado que a busca por palavras-chave pode gerar resultados falsos (ou seja, recuperar resultados irrelevantes) porque a palavra recuperada possui um significado diferente do pretendido e pode também reduzir a revocação, pois os sinônimos e os quase sinônimos não foram recuperados com a palavra pesquisada. Tillett (2002, p. 7, tradução nossa) defende o controle de autoridade destacando sua importância enquanto diferencial de um catálogo em relação a uma mera lista: Nos catálogos bibliográficos automatizados e, atualmente, na Web – assim como nos antigos catálogos manuais em forma de livro ou de fichas – o conceito de autoridade segue sendo essencial para assegurar a estrutura sindética que transforma uma simples lista de busca em um autêntico catálogo. Também nesse sentido, Taylor (2006, p. 20) pontua que o controle de autoridade, por permitir o relacionamento entre as obras, faz com que a catalogação seja mais que 35 um processo de criar registros bibliográficos para representar obras sem qualquer relacionamento aparente entre si. Por fim, como síntese desta seção, para os propósitos desta pesquisa, entende-se que o controle de autoridade é um estado alcançado em um catálogo quando os pontos de acesso são utilizados consistentemente, ou seja, quando um ponto de acesso autorizado representa uma única entidade e quando uma entidade é representada por apenas um ponto de acesso autorizado. O controle de autoridade é alcançado mediante os procedimentos agrupados sob o termo trabalho de autoridade; entre estes procedimentos estão a criação de dados de autoridade a partir da definição de pontos de acesso autorizados, não autorizados e relacionados com vistas à criação e a gestão de registros, arquivos e sistemas de autoridade (ASSUMPÇÃO; SANTOS, 2012, p. 6). A necessidade do controle dos pontos de acesso nos catálogos e a existência de instrumentos para esse controle são observadas no decorrer da história da Catalogação, ora de modo implícito, ora de modo explícito. Como pontuam Alves e Santos (2013, p. 23-24), “[...] as bibliotecas procuraram melhorar, cada vez mais, as formas de construção dos catálogos com o desenvolvimento e a utilização de métodos eficazes e econômicos, sempre utilizando as tecnologias disponíveis”. A busca por essa melhoria e o uso constante de tecnologias fizeram com que os catálogos evoluíssem dos tabletes de argila até os bancos de dados bibliográficos atuais, passando, entre outros, pelos catálogos em livros, pelos catálogos em fichas e pelas fitas magnéticas e formatos de intercâmbio de dados desenvolvidos ainda nas décadas de 1960 e 1970. Evoluindo junto dos catálogos esteve a necessidade de controle dos pontos de acesso e os instrumentos utilizados para tanto, como é apresentado nas duas seções seguintes deste capítulo, que abordam o controle de autoridade nos catálogos em livros e em fichas (Seção 2.2) e nos catálogos digitais (Seção 2.3). 2.2 Controle de autoridade nos catálogos em livros e em fichas Ainda que a existência de catálogos remonte a períodos da antiguidade (SANTOS; PEREIRA, 2014, p. 15), esta revisão de literatura inicia-se com considerações acerca dos catálogos e do controle de autoridade a partir, aproximadamente, da segunda metade do século XIX. Essa delimitação respalda-se em dois principais motivos. Primeiramente, nota-se a escassez de informações sobre os catálogos anteriores a esse período, escassez 36 essa decorrente da falta de acesso às fontes de informação primárias (por exemplo, os catálogos e as regras de catalogação anteriores ao século XIX), e das revisões de literatura e pesquisas históricas que não proveem informações suficientes para uma análise sobre os dados presentes nesses catálogos. Em segundo lugar, tem-se que a partir da segunda metade do século XIX é que os princípios de catalogação receberam uma primeira sistematização (ORTEGA; LARA, 2010, p. 10) e tiveram início “as tentativas de consolidação de princípios e de regras unificadas para a representação, no intuito de criar um embasamento teórico para as práticas de descrição” (ALVES; SANTOS, 2013, p. 27). Também data dessa época o início do período semimecanizado da catalogação (ALVES; SANTOS, 2013, p. 27-28) tendo entre seus expoentes “Antony Panizzi, Charles Coffin Jewett e Charles Ammi Cutter com a revisão e o aprimoramento das regras de catalogação existentes na época, com o estabelecimento de novas regras e, principalmente, com o estabelecimento de princípios para o processo de catalogação” (ALVES; SANTOS, 2013, p. 27-28). Segundo Obille (2012, p. 7), a partir da segunda metade do século XIX surgiram objetivos que se tornaram subjacentes aos catálogos e aos instrumentos utilizados em sua construção. Esses objetivos, criados a partir de questões de natureza teórica e não apenas prática, são considerados parte do paradigma vigente ainda hoje na Catalogação (OBILLE, 2012, p. 7). É nesse período que, segundo Tait (19699 apud GUERRINI, 2009, p. 1, tradução nossa), “se inicia a introdução do conceito de responsabilidade intelectual por parte de Antony Panizzi, aperfeiçoado por Charles Ammi Cutter e continuado ininterruptamente até os dias atuais”. Desse período remontam os esforços de Panizzi, que, no British Museum, advogou a favor de um compêndio de regras para a elaboração do catálogo da biblioteca do referido museu (LUBETZKY, 2000; SANTOS; PEREIRA, 2014, p. 24-25). O compêndio de regras, publicado em 1841 no início do primeiro volume do Catalogue of Printed Books in the British Museum, tornou-se conhecido como as 91 regras de Panizzi e é considerado um dos primeiros códigos de catalogação de que se tem conhecimento (BARBOSA, 1978, p. 26; GARRIDO ARILLA, 1996, p. 76). 9 TAIT, J. A. Authors and titles: an analytical study of the author concept in codes of cataloguing rules in the English language, from that of the British Museum in 1841 to the Anglo-American Cataloguing Rules 1967. London: Bingley, 1969. 37 Segundo Lubetzky (2000, p. 425, tradução nossa), o estabelecimento das 91 regras de Panizzi foi parte do primeiro acontecimento pivô da história da catalogação anglo-americana, uma vez que ele Diz respeito principalmente ao fundamento ideológico do catálogo – o problema fundamental de quais seriam os objetivos aos quais o catálogo de uma biblioteca deveria ser projetado para servir e os métodos para alcançar esses objetivos. E influenciou as discussões e o curso da catalogação anglo-americana desde então [...]. Ainda segundo Lubetzky, as 91 regras de Panizzi diferem das regras até então utilizadas principalmente no entendimento do que um livro10 representa: Como as regras de Panizzi diferem das regras previamente utilizadas no British Museum e em outros lugares? Curiosamente, elas diferem principalmente, e basicamente, na visão do que um livro representa. As regras tradicionais veem os livros de uma biblioteca como entidades distintas e o catálogo como um registro designado a ajudar alguém a encontrar o livro desejado sob o nome do autor, o título ou sob qualquer outra indicação pela qual o usuário pode razoavelmente buscá-lo. As regras de Panizzi compreendiam os livros como edições de obras distintas, sendo os livros que representassem a mesma obra integrados e arranjados no catálogo em uma ordem prescrita, de modo que o leitor que recorresse ao catálogo da biblioteca para buscar um determinado livro o encontraria em um contexto com outros livros representando edições da mesma obra e poderia selecionar a edição ou as edições que melhor servissem aos seus interesses. (LUBETZKY, 2000, p. 422, tradução nossa). Na época de Panizzi, os registros dos catálogos eram escritos à mão, datilografados ou impressos (CHAN, 2007, p. 22) e apresentados principalmente em fichas e em páginas agrupadas no formato de códices, os chamados catálogos em livro (book catalogs) (SVENONIUS, 2000, p. 62; TILLETT, 1992, p. 24). Nesses catálogos, o modo com que as entradas eram arranjadas determinava como elas seriam recuperadas e apresentadas (CHAN, 2007, p. 24). A tecnologia utilizada na criação dos catálogos em livros – o códice – influenciou diretamente as 91 regras de Panizzi, como destaca Tillett (1989, p. 152, tradução nossa): Como resultado das restrições econômicas sobre o tamanho dos catálogos em livro e o extenso tempo envolvido na redação de fichas para catálogos escritos a mão, as regras de Panizzi instruíram para que um item bibliográfico fosse descrito completamente uma única vez por meio de uma “entrada”. 10 É necessário considerar que o termo “livro” tem sido usado na catalogação, muitas vezes, como termo abrangente para designar os diversos tipos de documentos presentes nos acervos das bibliotecas. 38 Garrido Arilla (1996, p. 76) aponta que as 91 regras foram redigidas para a criação de catálogos alfabéticos, principalmente de autores pessoais ou corporativos, que permitissem aos usuários a localização rápida e fácil de uma obra ou o agrupamento das obras de um mesmo autor com suas distintas edições e traduções. A organização das entradas nos catálogos em livros de acordo com as 91 regras é descrita por Svenonius (2000, p. 62, destaque do autor, tradução nossa): Abaixo do nome de cada autor eram listadas, por título, as obras escritas por ele. A primeira edição de uma obra custodiada pela biblioteca era descrita por completo. Se a biblioteca possuísse uma segunda edição, sua entrada seria incluída abaixo da entrada da primeira edição assim: “––––––– Another edition.” Se necessárias, informações que serviam para distinguir a segunda edição da primeira seriam providas. Se a biblioteca possuísse mais de uma cópia da edição, era descrito: “––––––– – Another copy.”. Para a autora, essa forma de organização das entradas [...] assegurava que cada documento seria integrado ao catálogo no sentido de que seria apresentado no contexto de todas as edições, traduções e adaptações da obra manifestada nele. [...] A exibição hierárquica não só assegurava a integração; ela também alcançava economia de expressão ao limitar o que tinha de ser dito sobre uma entrada a somente aquelas características que não poderiam ser derivadas usando relacionamentos de participação e de inclusão. (SVENONIUS, 2000, p. 62, tradução nossa). Tillett (1989, p. 152) destaca que Panizzi incluiu remissivas para prover acesso mais completo às entradas e para tornar o catálogo mais que uma mera lista ou inventário da coleção. Sobre a função das remissivas, Svenonius (2000, p. 62-63, tradução nossa) explica que elas indicavam os relacionamentos não hierárquicos entre os recursos informacionais: Nos catálogos em livros, os relacionamentos de um tipo não hierárquico (ou seja, outros que não fossem de participação ou de inclusão) eram indicados por remissivas. Remissivas Ver vinculavam obras relacionadas, tal como a Bíblia e um comentário sobre ela. Elas eram usadas também para alcançar a disposição de obras quando o acesso era através de atributos secundários. Por exemplo, se um documento era de autoria de duas pessoas, a descrição principal (ou entrada principal) seria feita para o primeiro autor, e sob o nome do autor secundário uma remissiva Ver direcionaria o usuário para a descrição principal, que exibiria o documento em seu contexto integrado. Svenonius (2000, p. 62-63, tradução nossa) complementa que “a necessidade de remissivas bibliográficas de um tipo não hierárquico para auxiliar na navegação e na 39 disposição foi bem entendida por Panizzi, que observou que quanto maior a quantidade de remissivas, mais útil o catálogo seria”. Em suas 91 regras, Panizzi (1841, p. vii) especificou o uso de três tipos de remissivas: de nome para nome, de nome para obra e de obra para obra. Tillett (1989, p. 152; 1992, p. 24) explica esses três tipos de remissivas:  nome para nome: direcionava de uma forma variante do nome para a forma do nome escolhida para a entrada;  nome para obra: direcionava para a entrada de uma obra a partir de cabeçalhos que poderiam ser considerados tão importantes quanto o cabeçalho presente na entrada da obra; esses cabeçalhos que direcionavam para a entrada da obra incluíam nomes pessoais, de entidades coletivas, de conferências, de localizações geográficas e de obras (títulos);  obra para obra: direcionava de uma obra para outra, comumente de partes de uma obra para a obra como um todo. Enquanto Panizzi publicava suas regras na Inglaterra, Charles Coffin Jewett iniciou nos Estados Unidos a elaboração de um catálogo para o acervo da University of Brown. Esse catálogo foi publicado em 1843 dividido em duas partes: “um catálogo descritivo de todas as obras que a Biblioteca possui e um índice de assuntos” (JEWETT, 1843, p. xix, tradução nossa). Na primeira parte (o “catálogo descritivo”), entradas contendo descrições completas das obras estavam organizadas, de modo geral, pelos nomes dos autores e em ordem alfabética, enquanto que na segunda parte entradas contendo descrições abreviadas com referências às entradas da primeira parte estavam organizadas por assunto também em ordem alfabética (JEWETT, 1843; BIAGETTI, 2008, p. 135). Nas duas partes é observada a presença de remissivas “Ver” (See) e “Ver também” (See also), por exemplo:  “FOXTON, THOMAS. See BURNET, THOMAS”  “Holy War. See Crusades”  “JEBB, JOHN, D. D., B’p of Limerick. Correspondence with Knox. (See Forster Charles) Note. See also BURNET, GILBERT.”  “LONDON AND WESTMINSTER REVIEW [...] (See also Westminster Review.)”  “Agriculture [...] See also Gardening” (BROWN UNIVERSITY, 1843, p. 169, 517, 236, 266, 491). 40 As remissivas de nome para nome utilizadas por Panizzi, junto das remissivas utilizadas por Jewett, são consideradas aqui um dos primeiros meios de se alcançar o que hoje se entende por controle de autoridade, ainda que não seja identificada naquela época a presença de registros de autoridade. Segundo Santos e Pereira (2014, p. 26), o catálogo de Jewett “[...] foi elogiado como um avanço na prática catalográfica”. Para Biagetti (2008, p. 135, tradução nossa), “[...] o elemento inovador foi o fato de que os cabeçalhos eram apresentados em uma única ordem alfabética, com uma relevante presença de remissivas”. Em 1852, enquanto atuava no Smithsonian Institution, Jewett publicou o relatório On the Construction of Catalogues of Libraries, and of a General Catalogue; and their Publication by Means of Separate, Stereotyped Titles: with Rules and Examples 11 contendo “[…] regras de catalogação baseadas nas 91 regras de Panizzi [...] apresentava agradecimentos a Panizzi, e apontava algumas soluções diferentes para muitos pontos de descrição” (SANTOS; PEREIRA, 2014, p. 27). Em sua obra, Jewett apresentou também seu projeto para a reprodução de entradas utilizando a estereotipia, projeto esse que não foi concretizado (TAYLOR; JOUDREY, 2009, p. 75). Ainda no século XIX, o desenvolvimento da Catalogação contou com a colaboração de Charles Ammi Cutter que, em 1861, começou a trabalhar com Ezra Abbot na Harvard College library na construção de “um catálogo público em cartões, planejado para ajudar os leitores no uso da biblioteca” (SANTOS; PEREIRA, 2014, p. 29). Diferente da maioria dos catálogos de biblioteca contemporâneos que eram na forma de volumes publicados, Abbott e Cutter utilizaram cartões de fichários [index cards, do original em inglês], permitindo, assim, a flexibilidade para acrescentar ou remover itens à vontade, ao invés de ter de esperar até a próxima edição do catálogo. (STROMGREN, 2004, tradução nossa). Para Santos e Pereira (2014, p. 29), “o catálogo em cartões de duas polegadas, escritos à mão e armazenados em gavetas etiquetadas, provou ser uma maneira nova e facilitadora para o uso público.” Segundo as autoras, em 1868 Cutter assumiu a posição de bibliotecário do Boston Athenaeum, onde trabalhou por 24 anos. Em sua primeira tarefa, a publicação de um catálogo da coleção, Cutter tornou-se pioneiro no uso de 11 JEWETT, C. C. On the construction of catalogues of libraries, and of a general catalogue; and their publication by means of separate, stereotyped titles: with rules and examples. Washington: Smithsonian Institution, 1852. Disponível em: . Acesso em: 12 dez. 2017. http://hdl.handle.net/2027/mdp.39015023260733 41 cabeçalhos de assunto. O catálogo foi publicado em cinco volumes entre 1874 e 1882, tendo servido como modelo de catálogo dicionário em forma de livro (SANTOS; PEREIRA, 2014, p. 29). Além de criar um sistema de classificação (Expansive Classification) e um sistema para a notação de autores (Three-Figure Author Table), Cutter contribui com a Catalogação também com seu conjunto de regras publicado em 1876 sob o título Rules for a Printed Dictionary Catalogue e que teve sua quarta e última edição em 1904 sob o título Rules for a Dictionary Catalog (CUTTER, 1904). De notável contribuição, Apesar do título, as regras não tratam somente de catálogos dicionários, configura-se como um código com 369 regras, de fácil leitura, incluindo uma parte descritiva e regras tanto para pontos de acesso de autor, título e assunto, quanto para alfabetação, catalogação de materiais especiais, normas de transliteração e elaboração de catálogos auxiliares. (SANTOS; PEREIRA, 2014, p. 29). Cutter também é considerado o primeiro autor a definir as funções dos catálogos. Segundo ele, um catálogo deve: 1. Possibilitar que uma pessoa encontre um livro do qual (A) o autor (B) o título é conhecido. (C) o assunto 2. Apresentar o que a biblioteca possui (D) de um determinado autor (E) sobre um determinado assunto (F) em um determinado tipo de literatura. 3. Auxiliar na escolha de um livro (G) quanto a sua edição (bibliograficamente). (H) quanto ao seu caráter (literário ou temático). (CUTTER, 1904, p. 12, tradução nossa). Para o alcance desses objetivos, Cutter listou seis meios: 1. Entrada por autor com as remissivas necessárias (para A e D). 2. Entrada por título ou remissiva de título (para B). 3. Entrada por assunto, remissivas e tabela de classes de assuntos (para C e E). 4. Entrada de forma e entrada de idioma (para F). 5. Informando a edição e a imprenta, com notas quando necessário (para G). 6. Notas (para H). (CUTTER, 1904, p. 12, tradução nossa). } 42 Sobre as contribuições de Panizzi e de Cutter para o desenvolvimento dos catálogos, Tillett (1989, p. 154, tradução nossa) destaca que eles […] foram influentes no estabelecimento da estrutura básica do catálogo enquanto um conjunto de registros com vínculos entre si. Esses registros incluíam entradas e remissivas; seus vínculos eram remissivas para nomes e obras. Mas, sua representação da estrutura do catálogo foi alterada na mudança de século quando uma nova tecnologia para a produção de catálogos foi introduzida. A tecnologia a qual a autora refere-se é a ficha catalográfica. Com o crescimento dos acervos das bibliotecas surgia a necessidade de inclusão de novas entradas nos catálogos. Nos catálogos em livros, as novas entradas eram acrescentadas nos espaços deixados entre as entradas existentes, preservando, assim, a ordenação já estabelecida. No entanto, conforme esses espaços eram ocupados, novas folhas eram intercaladas no catálogo ou as novas entradas eram acrescentadas fora da ordenação, o que causava dificuldades no uso do catálogo (GUERRINI, 2009, p. 1; SVENONIUS, 2000, p. 63). Uma alternativa seria a impressão de uma nova edição do catálogo incluindo as novas entradas, no entanto, além de custosa, tal alternativa representaria uma demora na atualização do catálogo. Nos catálogos em fichas, as entradas eram registradas individualmente12 em papéis retangulares (fichas) (SVENONIUS, 2000, p. 63), que eram ordenadas e, então, armazenadas em gavetas. Uma vez que as fichas não estavam presas umas as outras, como ocorria com as folhas de um catálogo em livro, elas poderiam ser movimentadas para permitir a inclusão e a remoção de entradas sem prejuízos à ordenação do catálogo. Com isso, os catálogos em fichas, por sua economia e dinamicidade (FRÍAS; PÉREZ ALVAREZ, 1995, p. 283), passaram a substituir gradualmente os catálogos em livros, de produção custosa e que rapidamente tornavam-se desatualizados (TAYLOR, 2006, p. 9). Ainda que remontem ao século XVIII, quando Abbeé Rosier utilizou fichas na catalogação das publicações da Académie des Sciences, na França, em 1775 (SAYERS; STEWART, 1913, p. 8), os catálogos em fichas popularizaram-se entre as bibliotecas a partir do final do século XIX (CHAN, 2007, p. 22-23). O uso de catálogos em fichas como substitutos dos catálogos em livros também se deu no Brasil, como descreve Bettencourt (2014) em seu estudo sobre a representação da informação na Biblioteca Nacional. 12 Cabe aqui uma menção à nota feita por Svenonius (2000, p. 208, tradução nossa): “Às vezes, várias fichas eram utilizadas na descrição de um documento e, ocasionalmente, fichas com entradas tracejadas eram utilizadas para descrever vários documentos”. 43 Segundo a autora, catálogos em livros eram utilizados para a representação de coleções de recursos informacionais na Biblioteca Nacional e há evidências do uso de catálogos em fichas a partir de 1876, na época denominados catálogos em cartões (BETTENCOURT, 2014, p. 110). As primeiras fichas manuscritas eram denominadas “cartões alfabéticos” estavam acompanhadas das respectivas “referências e remissões”, todas ordenadas em um “catálogo móvel”, disponível para os usuários na chamada sala de consulta pública. (BETTENCOURT, 2014, p. 111, destaque do autor). Além das vantagens mencionadas anteriormente, um dos fatores que contribuíram para a popularização dos catálogos em fichas foi o início do serviço de distribuição de fichas catalográficas em janeiro de 1901 pela Library of Congress, nos Estados Unidos (BARBOSA, 1978, p. 72; SVENONIUS, 2000, p. 63; TILLETT, 1989, p. 154). A utilização de fichas, por facilitar a reprodução das entradas, alterou o modo com que os componentes dos catálogos eram dispostos e apresentados aos usuários e alavancou o surgimento de outros componentes, tais como as entradas secundárias (TILLETT, 1989, p. 154), que possibilitaram o oferecimento de uma quantidade maior de pontos de acesso aos usuários. Em um catálogo em livro, de modo geral, a descrição completa de um recurso informacional era apresentada apenas na entrada que iniciava com o ponto de acesso autorizado do responsável principal pelo recurso. Ao buscar pelo nome de um responsável que não fosse o responsável principal, por exemplo, o segundo autor, o usuário poderia encontrar uma descrição abreviada do recurso sob o nome do responsável buscado; essa descrição abreviada funcionava como uma remissiva, pois direcionava o usuário para a entrada na qual a descrição completa do recurso informacional estava presente. Situações semelhantes poderiam ocorrer também com partes de obras, como mencionado anteriormente nos tipos de remissivas definidos nas 91 regras de Panizzi, e com assuntos, como notado na segunda parte do catálogo de Jewett. Nos catálogos em fichas, a ficha que iniciava com o ponto de acesso autorizado para o responsável principal era denominada entrada principal13 (main entry), ficha 13 Foi utilizada aqui a definição de entrada principal apresentada no Glossário do AACR2r: “Entrada principal. Main entry. Registro catalográfico completo de um item, apresentado na forma que permita seja ele identificado e citado de maneira uniforme. A entrada principal pode incluir a pista (q.v.).” (CÓDIGO..., 2004, p. D-5, grifo do autor). 44 principal ou ficha matriz. Para prover pontos de acesso adicionais referentes aos demais responsáveis, aos títulos e aos assuntos do recurso informacional, a entrada principal era reproduzida e, no topo de cada cópia, era acrescentado o cabeçalho14 referente a um responsável, a um título ou a um assunto. As entradas criadas a partir da reprodução da entrada principal passaram a ser denominadas entradas secundárias (added entries). Com o surgimento das entradas secundárias, as remissivas contendo descrições abreviadas que apontavam para a descrição completa deixaram de ser utilizadas; as remissivas passaram a ser utilizadas, então, apenas para indicar ao usuário os cabeçalhos autorizados e os cabeçalhos relacionados (TILLETT, 1989, 1992). Cabe notar, no entanto, que o uso de entradas secundárias teve início no século XX de forma gradual e com pouca clareza por parte dos códigos de catalogação, como indica a análise realizada por Tillett (1989, p. 154-156). Os catálogos em fichas, por permitirem uma fácil intercalação das entradas, favoreceram a criação dos catálogos dicionários. Nesse tipo de catálogo, todas as entradas, independentemente do tipo do cabeçalho utilizado (responsáveis, títulos ou assuntos), eram reunidas e ordenadas em uma única sequência, de modo que os usuários do catálogo poderiam encontrar, em uma mesma gaveta, entradas com cabeçalhos representando os autores, os títulos e os assuntos dos recursos informacionais (GARRIDO ARILLA, 1996, p. 81; MEY; SILVEIRA, 2009, p. 188). Na história da Biblioteca Nacional, Bettencourt (2014, p. 111) descreve o uso inicial de catálogos separados por tipos de pontos de acesso e, posteriormente, a reunião desses catálogos em um catálogo dicionário: Quanto à sua tipologia, os catálogos em fichas inicialmente representavam os autores principais e os assuntos em módulos separados. A busca poderia ser feita no catálogo de autores ou no catálo