Universidade Estadual Paulista “Júlio de Mesquita Filho” Faculdade de Filosofia e Ciência Campus de Marília Fabrício Silva Assumpção Conversão de registros em XML para MARC 21: um modelo baseado em folhas de estilo XSLT Marília 2013 Universidade Estadual Paulista “Júlio de Mesquita Filho” Faculdade de Filosofia e Ciência Campus de Marília Fabrício Silva Assumpção Conversão de registros em XML para MARC 21: um modelo baseado em folhas de estilo XSLT Dissertação apresentada ao Programa de Pós- Graduação em Ciência da Informação da UNESP, Faculdade de Filosofia e Ciências, Campus de Marília, como exigência para a obtenção do título de Mestre em Ciência da Informação. Linha de pesquisa: Informação e Tecnologia. Orientadora: Dra. Plácida Leopoldina Ventura Amorim da Costa Santos. Financiamento: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). Marília 2013 Assumpção, Fabrício Silva. A851c Conversão de registros em XML para MARC 21 : um modelo baseado em folhas de estilo XSLT / Fabrício Silva Assumpção. – Marília, 2013. 135 f. ; 30 cm. Dissertação (Mestrado em Ciência da Informação) - Universidade Estadual Paulista, Faculdade de Filosofia e Ciências, 2013. Bibliografia: f. 107-114. Orientadora: Plácida Leopoldina Ventura Amorim da Costa Santos. Financiamento: CAPES. 1. Registros bibliográficos. 2. Conversão de metadados. 3. Formatos MARC. 4. XML (Linguagem de marcação de documentos). 5. ISO 2709. 6. XSLT (Linguagem de programação de computador). 7. PHL – Personal Home Library. 8. Migração de dados. 9. Catalogação descritiva. I. Título. CDD 025.302854 Agradecimentos Agradeço a minha Mãe, aos meus irmãos e a todos meus familiares que sempre me incentivaram em meus estudos. À Professora Plácida, pela oportunidade de mais uma vez contar com sua orientação e pela confiança depositada no desenvolvimento desta pesquisa. Aos colegas do Grupo de Pesquisa Novas Tecnologias em Informação (GPNTI), que acompanharam o desenvolvimento desta pesquisa e têm feito parte de minha formação pessoal, acadêmica e profissional. Aos professores doutores Zaira Regina Zafalon, Silvana Aparecida Borsetti Gregorio Vidotti, Ricardo Cesar Gonçalves Santana e Maria Elisabete Catarino, titulares e suplentes no exame de qualificação e na defesa, pelas importantes contribuições ao desenvolvimento e à conclusão desta pesquisa. Aos colegas do Programa de Pós-Graduação em Ciência da Informação da UNESP, docentes e discentes, com os quais tive a oportunidade de conviver e aprender. À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo apoio financeiro para a realização desta pesquisa. Resumo Os Formatos MARC 21 são padrões de metadados internacionalmente utilizados no domínio bibliográfico para o intercâmbio de registros. Apesar da importância desses e de outros padrões de metadados internacionalmente aceitos, existem sistemas de gerenciamento de bibliotecas que utilizam padrões de metadados próprios, o que reduz as possibilidades de intercâmbio de registros e pode ocasionar conflitos durante a migração entre sistemas. Diante dos sistemas de gerenciamento de bibliotecas que não utilizam qualquer padrão de metadados internacionalmente aceito, tem-se como problema a conversão dos registros desses sistemas em registros nos Formatos MARC 21. Para que possam ser processados, os registros nos Formatos MARC 21 devem estar codificados de forma que seu conteúdo possa ser identificado por aplicações de informática. As tecnologias para essa codificação têm evoluído da tradicional norma ISO 2709 até a Extensible Markup Language (XML). A codificação com a XML trouxe a possibilidade de converter os registros utilizando folhas de estilo de transformação elaboradas com a linguagem Extensible Stylesheet Language for Transformation (XSLT). Considerando a necessidade de converter registros para os Formatos MARC 21 e as possibilidades trazidas pela XML, o objetivo geral desta pesquisa é elaborar um modelo para a conversão de registros de distintos padrões de metadados codificados com a XML em registros nos Formatos MARC 21, tendo como um dos pontos centrais desse modelo a utilização de folhas de estilo de transformação elaboradas com a XSLT. Para esse objetivo, é realizada uma revisão de literatura sobre a conversão de registros, os Formatos MARC 21, a ISO 2709, a XML, a XSLT e o MARCXML. São destacados os principais aspectos da utilização da XML na codificação de documentos e as possibilidades oferecidas pela XSLT. Para discutir a relação entre os Formatos MARC 21 e a XML é apresentada a linguagem de marcação MARCXML. A partir do estudo teórico, é elaborado um modelo para a conversão de registros. São descritas as etapas e os componentes do modelo, assim como sua validação por meio da aplicação na conversão de registros bibliográficos exportados pelo sistema de gerenciamento de bibliotecas Personal Home Library (PHL). Como considerações finais, são destacadas as características do modelo e são sumarizadas algumas questões sobre sua utilização e sobre os instrumentos resultantes de sua aplicação na conversão de registros do PHL. Palavras-chave: Conversão de registros. Formatos MARC 21. MARCXML. ISO 2709. Extensible Markup Language (XML). Extensible Stylesheet Language for Transformation (XSLT). Personal Home Library (PHL). Catalogação descritiva. Informação e Tecnologia. Abstract MARC 21 Formats are metadata standards internationally used for records interchange in bibliographic domain. Despite the importance of the MARC 21 Formats and other international metadata standards, there are integrated library systems that use their own metadata standard. The non-use of international metadata standards decreases the possibilities of records interchange and it might cause problems during data migration between systems. In face to the integrated library systems that do not use international metadata standards, our research question is the conversion of the records from these systems to MARC 21 records. In order to be read, MARC 21 records must be coded in such a way that allows informatics applications to recognize the record content. The technologies used for this codification have evolved from traditional ISO 2709 standard to Extensible Markup Language (XML). The use of XML in the codification gave us the possibility to use transformation stylesheets created with Extensible Stylesheet Language for Transformation (XSLT) for the records conversion. Considering the need of records conversion and the possibilities brought by XML, we aim to develop a model for conversion of records that were created with different metadata standards and are coded in XML to MARC 21 records using XSLT stylesheets. For this purpose, we made a literature review about record conversion, MARC 21 Formats, ISO 2709, XML, XSLT and MARCXML. We highlighted the main issues on the use of the XML for documents codification and the possibilities provided by XSLT. In order to discuss the relation between MARC 21 and XML, we presented MARCXML markup language. Starting from the literature review, we developed a model for record conversion and described its components and its steps, as well as its validation through the use in the conversion of bibliographic records from Personal Home Library (PHL) integrated library systems. In conclusion, we highlighted the characteristics of the model and we summarized some issues related to the use of the model and to the instruments that came from the application of the model in the PHL records conversion. Keywords: Record conversion. MARC 21 Formats. MARCXML. ISO 2709. Extensible Markup Language (XML). Extensible Stylesheet Language for Transformation (XSLT). Personal Home Library (PHL). Descriptive cataloging. Information and Technology. Lista de figuras Figura 1 – Partes que compõem a catalogação...................................................................................... 17 Figura 2 – Instrumentos do domínio bibliográfico ................................................................................ 19 Figura 3 – Organização dos metadados do Formato MARC 21 para Dados Bibliográficos ................. 24 Figura 4 – Exemplos de campos do Formato MARC 21 para Dados Bibliográficos ........................... 25 Figura 5 – Campo 260 do Formato MARC 21 para Dados Bibliográficos ........................................... 25 Figura 6 – Registro no formato MARC 21 para Dados Bibliográficos ................................................. 26 Figura 7 – Registro no Formato MARC 21 para Dados Bibliográficos codificado com a ISO 2709 ... 29 Figura 8 – Lista de contatos em um documento XML .......................................................................... 38 Figura 9 – Transformação de documentos XML utilizando folhas de estilo XSLT ............................. 44 Figura 10 – Documento XML desejado ................................................................................................ 46 Figura 11 – Folha de estilo para a transformação do documento Agenda ............................................ 46 Figura 12 – Fragmento de um registro no Formato MARC 21 para Dados Bibliográficos codificado com a DTD XML .................................................................................................................................. 52 Figura 13 – Marcação de registros nos Formatos MARC 21 com o MARCXML ............................... 53 Figura 14 – Registro no Formato MARC 21 para Dados Bibliográficos codificado com o MARCXML ............................................................................................................................................................... 54 Figura 15 – Transformação de registros nos Formatos MARC 21 ....................................................... 57 Figura 16 – Página HTML criada a partir da transformação de um registro MARCXML com uma folha de estilo XSLT ............................................................................................................................. 58 Figura 17 – Componentes e possibilidades de codificação de registros nos Formatos MARC 21 ....... 60 Figura 18 – Cenários para a conversão de registros (1) ........................................................................ 67 Figura 19 – Cenários para a conversão de registros (2) ........................................................................ 69 Figura 20 – Modelo para a conversão de registros ................................................................................ 71 Figura 21 – Exemplo de campos, etiquetas e definições do Formato PHL ........................................... 82 Figura 22 – Registro bibliográfico no Formato PHL ............................................................................ 83 Figura 23 – Marcação de registros no Formato PHL com o PHLXML ................................................ 84 Figura 24 – Registro no Formato PHL codificado com o PHLXML .................................................... 85 Figura 25 – Fragmento de um registro no Formato PHL de um recurso com dois autores .................. 93 Figura 26 – Fragmento de um registro no Formato MARC 21 para Dados Bibliográficos de um recurso com dois autores .................................................................................................................................... 94 Figura 27 – Fragmento de um registro no Formato MARC 21 para Dados Bibliográficos obtido a partir da conversão de um registro no Formato PHL ...................................................................................... 94 Figura 28 – Código inicial da folha de estilo ........................................................................................ 97 Figura 29 – O template bibliographicRecord e algumas regras de transformação ............................... 97 Lista de quadros Quadro 1 – Expressões-chave para a elaboração de regras de conversão ............................................. 75 Quadro 2 – Mapa do Formato PHL e do Formato MARC 21 para Dados Bibliográficos .................... 86 Quadro 3 – Mapa dos esquemas de codicação utilizados para representar idiomas ............................. 95 Lista de siglas AACR2r Anglo-American Cataloguing Rules, 2nd ed., 2002 revision (Código de Catalogação Anglo-Americano, 2. ed., revisão de 2002) ABNT Associação Brasileira de Normas Técnicas ANSI American National Standards Institute (Instituto Nacional Americano de Padrões) ASCII American Standard Code for Information Interchange (Código Padrão Americano para o Intercâmbio de Informação) CALCO Catalogação Legível por Computador CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior CSS Cascading Style Sheets (Folhas de Estilo em Cascata) CSV Comma-Separated Values (Valores Separados por Vírgula) DC Dublin Core DTD Document Type Definitions (Definição de Tipo de Documento) FRAD Functional Requirements for Authority Data (Requisitos Funcionais para Dados de Autoridade) FRBR Functional Requirements for Bibliographic Records (Requisitos Funcionais para Registros Bibliográficos) FRSAD Functional Requirements for Subject Authority Data (Requisitos Funcionais para Dados de Autoridade de Assunto) HTML HyperText Markup Language (Linguagem de Marcação de Hipertexto) IFLA International Federation of Library Associations and Institutions (Federação Internacional de Associações e Instituições de Bibliotecas) ISBD International Standard Bibliographic Description (Padrão Internacional de Descrição Bibliográfica) ISO International Organization for Standardization (Organização Internacional para Padronização) LC Library of Congress (Biblioteca do Congresso) LILACS Literatura Latino-americana e do Caribe em Ciências da Saúde MADS Metadata Authority Description Schema (Esquema de Metadados para a Descrição de Autoridade) MARC MAchine-Readable Cataloging (Catalogação Legível por Máquina) MODS Metadata Object Description Schema (Esquema de Metadados para a Descrição de Objeto) OAI Open Archives Initiative (Iniciativa dos Arquivos Abertos) OCR Optical Character Recognition (Reconhecimento Ótico de Caracteres) PDF Portable Document Format (Formato de Documento Portável) PHL Personal Home Library PPGCI Programa de Pós-Graduação em Ciência da Informação RDA Resource Description and Access (Descrição de Recursos e Acesso) SGML Standard Generalized Markup Language (Linguagem Padronizada de Marcação Genérica) TDI Tratamento Descritivo da Informação TEI Text Encoding Initiative (Iniciativa de Codificação de Texto) UNESP Universidade Estadual Paulista “Júlio de Mesquita Filho” UNIMARC Universal Machine Readable Cataloging (MARC Universal) USMARC United States MARC (MARC dos Estados Unidos) W3C World Wide Web Consortium (Consórcio World Wide Web) XML Extensible Markup Language (Linguagem de Marcação Extensível) XSL Extensible Stylesheet Language (Linguagem Extensível para Folhas de Estilo) XSL-FO Extensible Stylesheet Language – Formatting Objects (Linguagem Extensível para Folhas de Estilo – Formatação de Objetos) XSLT Extensible Stylesheet Language for Transformation (Linguagem Extensível para Folhas de Estilo de Transformação) Sumário 1 Introdução .............................................................................................................................. 10 1.1 Problema ......................................................................................................................... 11 1.2 Proposição ....................................................................................................................... 12 1.3 Objetivos ......................................................................................................................... 12 1.4 Justificativa ..................................................................................................................... 13 1.5 Metodologia .................................................................................................................... 14 1.6 Estrutura do trabalho ....................................................................................................... 15 2 Padrões de metadados do domínio bibliográfico: Formatos MARC 21 ................................ 16 2.1 Formatos MARC 21: histórico e características ............................................................. 20 2.2 Codificação com a ISO 2709 .......................................................................................... 27 2.3 Considerações e críticas aos Formatos MARC 21 .......................................................... 30 3 Marcação e transformação: XML, XSLT e MARCXML ..................................................... 35 3.1 Marcação de documentos: XML ..................................................................................... 36 3.2 Transformação de documentos XML: folhas de estilo XSLT ........................................ 41 3.3 Marcação e transformação de registros MARC 21: MARCXML .................................. 50 4 Modelo para a conversão de registros ................................................................................... 63 4.1 Modelo para a conversão de registros ............................................................................. 66 4.2 Mapeamento e regras de conversão ................................................................................ 73 4.3 Elaboração da folha de estilo XSLT ............................................................................... 76 4.4 Verificação da folha de estilo ......................................................................................... 78 4.5 Exportação dos registros e conversão para MARCXML ............................................... 79 4.6 Conversão para ISO 2709 ............................................................................................... 80 5 Aplicação do modelo na conversão de registros do Formato PHL ....................................... 81 5.1 Personal Home Library (PHL) ....................................................................................... 81 5.2 Mapeamento e regras de conversão ................................................................................ 86 5.3 Elaboração da folha de estilo XSLT ............................................................................... 96 5.4 Verificação da folha de estilo ......................................................................................... 99 5.5 Exportação e conversão dos registros ............................................................................. 99 6 Considerações finais ............................................................................................................ 102 Referências ............................................................................................................................. 107 APÊNDICE A – Manual para a conversão dos registros bibliográficos do PHL .................. 115 10 1 Introdução Esta pesquisa, intitulada “Conversão de registros em XML para MARC 21: um modelo baseado em folhas de estilo XSLT”, foi desenvolvida com o financiamento da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) na linha de pesquisa Informação e Tecnologia do Programa de Pós-Graduação em Ciência da Informação (PPGCI) da UNESP. A Ciência da Informação, segundo Le Coadic (2004, p. 25), “tem por objeto o estudo das propriedades gerais da informação (natureza, gênese, efeito), e a análise de seus processos de construção, comunicação e uso”. Para Borko (1968, p. 3, tradução nossa), a Ciência da Informação preocupa-se “com o corpo de conhecimento relacionado à origem, coleção, organização, armazenamento, recuperação, interpretação, transmissão, transformação e utilização da informação”. Uma vez que suas preocupações podem ser de naturezas diversas, a Ciência da Informação busca aporte em campos com especificidades que auxiliem em suas discussões. Assim, a Ciência da Informação mostra-se como um campo interdisciplinar, relacionando-se com campos como a Biblioteconomia e a Ciência da Computação (SARACEVIC, 1996; LE COADIC, 2004). Como apontado por Alves (2010, p. 122), em razão de seu caráter interdisciplinar, a Ciência da Informação utiliza-se, em parte, dos processos de tratamento descritivo da informação (TDI) desenvolvidos na disciplina de Catalogação na área de Biblioteconomia para solucionar os problemas inerentes a essa ciência: tornar acessível e disponível a variedade crescente de recursos informacionais, bem como promover uma melhora na recuperação desses recursos. A catalogação, entendida como “um processo de representação documentária que desde a antiguidade atua como instrumento de acesso a informação e ao documento” (PEREIRA; SANTOS, 1998, p. 123), busca “individualizar um item documentário e ao mesmo tempo multidimensionar suas formas de acesso por meio de recursos tecnológicos” (PEREIRA; SANTOS, 1998, p. 122). No domínio bibliográfico, a partir da década de 1960 surgiram padrões de metadados que, juntamente com as estruturas para a codificação, permitiram que os dados resultantes das atividades de catalogação fossem processados e intercambiados entre aplicações de 11 informática.1 Atualmente, uns dos padrões de metadados internacionalmente utilizados para o intercâmbio de registros no domínio bibliográfico são os Formatos MARC 21. Os registros criados com esses padrões, de modo geral, ainda são codificados com a norma 2709 da International Organization for Standardization (ISO), que define uma estrutura para a codificação semelhante àquela utilizada na década de 1960. Além da ISO 2709, os Formatos MARC 21 dispõem hoje de estruturas para a codificação tecnologicamente mais vantajosas e mais condizentes com a atualidade, como é caso da Extensible Markup Language (XML) que, presente na linguagem de marcação MARC 21 XML Schema (MARCXML), tem a sua disposição as possibilidades de transformação das folhas de estilo elaboradas com a Extensible Stylesheet Language for Transformation (XSLT). No Brasil, o suporte a importação e a exportação de registros nos Formatos MARC 21 tem se tornado uma característica buscada nos sistemas de gerenciamento de bibliotecas (CAFÉ; SANTOS; MACEDO, 2001; CÔRTE et al., 1999; PARANHOS, 2004). No entanto, em uma análise exploratória, observa-se a existência de sistemas que não satisfazem esse requisito como, por exemplo, os sistemas Personal Home Library (PHL), OpenBiblio, MiniBiblio, Biblioteca Fácil, Biblioscape e Autec Biblioteca. Alguns desses sistemas, entre eles o PHL, utilizam padrões de metadados próprios, o que interfere na possibilidade de intercâmbio de registros e pode ocasionar problemas durante a migração entre sistemas de gerenciamento de bibliotecas. Com base nesse cenário são traçados o problema, a proposição, os objetivos, a justificativa e a metodologia desta pesquisa, descritos nas seções seguintes. 1.1 Problema Os Formatos MARC 21 são padrões de metadados internacionalmente utilizados para o intercâmbio de registros no domínio bibliográfico. Apesar da importância desses e de outros padrões de metadados internacionalmente aceitos, existem sistemas de gerenciamento de bibliotecas que utilizam padrões de metadados próprios. A não utilização de padrões de metadados internacionalmente aceitos reduz as possibilidades de intercâmbio de registros e pode ocasionar conflitos durante a migração entre sistemas de gerenciamento de bibliotecas. Diante dos sistemas de gerenciamento de bibliotecas que não utilizam qualquer padrão de 1 O termo aplicação de informática é utilizado nesta pesquisa para designar qualquer programa de computador. Os termos sistema de gerenciamento de bibliotecas, processador XML, processador de transformação e analisador sintático, também utilizados nesta pesquisa, se referem a tipos de aplicações de informática. 12 metadados internacionalmente aceito, tem-se como problema a questão: como converter os registros exportados por esses sistemas de gerenciamento de bibliotecas em registros nos Formatos MARC 21? 1.2 Proposição Existem sistemas de gerenciamento de bibliotecas que não utilizam padrões de metadados internacionalmente aceitos, por exemplo, os Formatos MARC 21. Ao invés disso, utilizam padrões de metadados próprios, às vezes baseados nas tabelas de seus bancos de dados. Nesses casos, as diferenças entre os bancos de dados dos sistemas de gerenciamento de bibliotecas inviabilizam a criação de uma aplicação de informática que possa ser utilizada na conversão dos registros exportados por diferentes bancos de dados. Assim, para cada banco de dados diferente é necessário criar uma nova aplicação ou modificar uma já existente, o que se mostra dispendioso (ZAFALON, 2012, p. 24, 27 e 28). A codificação de documentos utilizando a Extensible Markup Language (XML) trouxe benefícios como a possibilidade de uso de folhas de estilo elaboradas com a Extensible Stylesheet Language for Transformation (XSLT), que, de modo mais acessível que as linguagens de programação, permitem a transformação de documentos de modo a atender distintos propósitos. Considerando a provável efemeridade das aplicações de informática específicas para a conversão dos registros de cada sistema de gerenciamento de bibliotecas e a acessibilidade das folhas de estilo XSLT, esta pesquisa tem por proposição a elaboração de um modelo para a conversão de registros de distintos padrões de metadados codificados com a XML em registros nos Formatos MARC 21, de modo a favorecer o intercâmbio de registros e a minimizar os conflitos durante a migração entre sistemas de gerenciamento de bibliotecas. 1.3 Objetivos O objetivo geral desta pesquisa é elaborar um modelo para a conversão de registros de distintos padrões de metadados codificados com a Extensible Markup Language (XML) em registros nos Formatos MARC 21, tendo como um de seus pontos centrais a utilização de folhas de estilo de transformação elaboradas com Extensible Stylesheet Language for Transformation (XSLT). Os objetivos específicos são: 13 realizar estudo teórico sobre a conversão de registros, os Formatos MARC 21, a codificação com a ISO 2709, a XML, a XSLT e o MARCXML; destacar os principais aspectos da utilização da XML na codificação de documentos e as possibilidades oferecidas pela XSLT na transformação de documentos XML; elaborar um modelo para a conversão de registros, definindo suas etapas e seus componentes; validar o modelo na conversão de registros bibliográficos exportados pelo sistema de gerenciamento de bibliotecas Personal Home Library (PHL). 1.4 Justificativa Em âmbito científico, esta pesquisa provê contribuições à Ciência da Informação por fomentar as discussões sobre a catalogação, sobre os instrumentos de representação do domínio bibliográfico e sobre a conversão de registros no contexto dos ambientes informacionais digitais possibilitados pelas tecnologias de informática. Por abordar a conversão de registros, esta pesquisa contribui também nas discussões sobre a interoperabilidade no âmbito dos sistemas de gerenciamento de bibliotecas. Em âmbito social e profissional, os resultados desta pesquisa subsidiarão os profissionais da Ciência da Informação e da Ciência da Computação envolvidos nos processos de conversão de registros, favorecendo o intercâmbio de registros, por exemplo, em programas de catalogação cooperativa, e minimizando os conflitos durante a migração entre sistemas de gerenciamento de bibliotecas. A aplicação do modelo na conversão dos registros bibliográficos exportados pelo PHL, além de possibilitar a validação do modelo, apresenta uma solução para as instituições que utilizam esse sistema e que desejam converter seus registros para o Formato MARC 21 para Dados Bibliográficos. Por fim, cabe destacar como justificativa que o modelo proposto tem como seu ponto forte o delineamento da interação e da integração de profissionais da Ciência da Informação e da Ciência da Computação, cada qual atuando em sua área de competência de forma interdisciplinar na tarefa de conversão de registros. Entre os fatores motivadores do desenvolvimento desta pesquisa, estão: (1) a observação de situações em que a proferida “impossibilidade” de converter registros ocasionou retrabalhos; (2) a percepção de que a falta de conhecimentos básicos sobre a XML e sobre as tecnologias relacionadas à ela desfavorece o profissional da Ciência da Informação, principalmente o catalogador, no diálogo com profissionais da Ciência da Computação e, 14 acima de tudo, no uso estratégico das tecnologias de informática em prol das atividades de catalogação; (3) e o interesse pessoal pela XML e pelas tecnologias relacionadas a ela. 1.5 Metodologia Esta pesquisa caracteriza-se como qualitativa em relação à forma de sua abordagem. Quanto aos seus fins, é descritiva e exploratória. É descritiva porque tem por objetivo “a identificação, registro e análise das características, fatores ou variáveis que se relacionam com o fenômeno ou processo” (OLIVEIRA NETTO, 2008, p. 29) e exploratória porque “objetiva a descoberta, o achado, a elucidação de fenômenos ou a explicação daqueles que não eram aceitos apesar de evidentes” (OLIVEIRA NETTO, 2008, p. 29). Em razão de seu objetivo geral (elaborar um modelo para a conversão de registros), esta é uma pesquisa metodológica. Segundo Demo (1995, p. 13), a pesquisa metodológica é aquela “dedicada a indagar por instrumentos, por caminhos, por modos de se fazer ciência, ou a produzir técnicas de tratamento da realidade, ou a discutir abordagens teórico-práticas”. Para o primeiro e segundo objetivos específicos, utilizou-se da pesquisa bibliográfica, que “tem como princípio básico conhecer as diferentes formas de contribuição científica que se realizaram sobre determinado assunto ou fenômeno” (OLIVEIRA NETTO, 2008, p. 30) ou, segundo Macedo (1996, p. 13), procura “identificar, localizar e obter documentos pertinentes ao estudo de um tema bem delimitado, levantando-se a bibliografia básica”. Para o terceiro objetivo específico, a elaboração do modelo e a definição de suas etapas e componentes, foi utilizada a pesquisa metodológica. Para o quarto objetivo específico, foram utilizadas a versão 8.2 do PHL, o Manual do PHL 8.2, revisão de 27 de setembro de 2011 (OLIVEIRA, 2011), e a documentação oficial do Formato MARC 21 para Dados Bibliográficos, provida pela Library of Congress (2012). Para a criação da folha de estilo XSLT foi utilizado o Oxygen XML Editor2 e, para a transformação dos registros com a folha de estilo, foi utilizado o MarcEdit3. A escolha pela aplicação do modelo na conversão dos registros bibliográficos exportados pelo PHL ocorreu em razão do número de instituições usuárias desse sistema. Dados de 18 de fevereiro de 2013 apontam a existência de 3176 instituições usuárias do PHL, divididas entre aquelas que disponibilizam o sistema em rede (intranet ou Web) e aquelas que fazem uso no modo monousuário (NOSSOS CLIENTES, 2013). O PHL.netopac, projeto que 2 Disponível em: . Acesso em: 11 ago. 2013. 3 Disponível em: . Acesso em: 11 ago. 2013. 15 possibilita a busca no catálogo de 345 instituições que utilizam o PHL na Web, possui 5.329.165 registros bibliográficos (dados de 18 de fevereiro de 2013) (PHL.NETOPAC, 2013). 1.6 Estrutura do trabalho Este capítulo reservou-se à apresentação do problema de pesquisa, da proposição, dos objetivos, da justificativa e da metodologia. Os demais capítulos deste trabalho estão arranjados como descrito a seguir. O Capítulo 2, Padrões de metadados do domínio bibliográfico: Formatos MARC 21, contextualiza a catalogação descritiva e os padrões de metadados do domínio bibliográfico. Apresenta um breve histórico dos Formatos MARC, as características do Formato MARC 21 para Dados Bibliográficos e a codificação de registros utilizando a norma ISO 2709. Por fim, destaca considerações e críticas sobre os Formatos MARC 21 encontradas na literatura. O Capítulo 3, Marcação e transformação: XML, XSLT e MARCXML, descreve a XML como uma forma de marcar documentos de modo estruturado, permitindo o posterior processamento de seu conteúdo. Aborda as possibilidades para a transformação de documentos XML utilizando folhas de estilo XSLT e finaliza com um resgate histórico sobre os principais esforços para a utilização da XML na marcação (codificação) de registros nos Formatos MARC 21. O Capítulo 4, Modelo para a conversão de registros, inicia com uma revisão de literatura sobre a conversão de registros no domínio bibliográfico. Em seguida é apresentado um modelo para a conversão de registros de distintos padrões de metadados codificados com a XML em registros nos Formatos MARC 21. Os processos compreendidos pelo modelo, assim como seus componentes, são descritos nesse capítulo. O Capítulo 5, Aplicação do modelo na conversão de registros do Formato PHL, descreve a aplicação do modelo proposto na conversão dos registros bibliográficos exportados pelo sistema de gerenciamento de bibliotecas PHL. O Capítulo 6, Considerações finais, traz considerações sobre a conversão de registros no domínio bibliográfico, sobre o modelo apresentado no Capítulo 4 e sobre sua aplicação na conversão dos registros bibliográficos exportados pelo PHL, descrita no Capítulo 5. 16 2 Padrões de metadados do domínio bibliográfico: Formatos MARC 21 Os componentes-chave do modelo para a conversão de registros elaborado nesta pesquisa são os padrões de metadados, tanto o padrão utilizado nos registros a serem convertidos (padrão de metadados de origem) quanto o padrão para o qual os registros serão convertidos (padrão de metadados de destino). Os Formatos MARC 21 têm se tornado padrões de metadados internacionalmente utilizados no domínio bibliográfico, assim, no modelo para a conversão de registros, o padrão de metadados de destino poderá ser qualquer um dos Formatos MARC 21. Essa família de padrões de metadados, seu surgimento, características e tradicional codificação são os objetos de estudo deste capítulo. Inerente aos mais distintos sistemas de informação, a atividade de representação da informação ou de representação de recursos informacionais tem sido realizada e estudada em diversos domínios, entre eles o domínio bibliográfico, atualmente abarcado pela Ciência da Informação. Para Alves e Santos (2009), a construção de representações padronizadas dos recursos informacionais sempre foi uma preocupação da Ciência da Informação e, em especial, da Biblioteconomia. As autoras observam também que, no decorrer da história dessas áreas, foram desenvolvidas e aperfeiçoadas metodologias, técnicas e ferramentas para a construção e a padronização das representações dos recursos informacionais. No domínio bibliográfico, a representação ou a descrição de recursos informacionais tem sido frequentemente pautada na atividade de catalogação, esta orientada pelas especificidades das disciplinas de catalogação descritiva e de catalogação de assunto, oriundas da prática biblioteconômica. Segundo Mey (1995, p. 5), a catalogação é “o estudo, preparação e organização de mensagens codificadas, com base em itens existentes ou passíveis de inclusão em um ou vários acervos, de forma a permitir a interseção entre as mensagens contidas nos itens e as mensagens internas dos usuários”. Santos e Corrêa (2009) destacam que a catalogação lida com representações sintéticas e codificadas de recursos informacionais de modo a torná-los únicos e a possibilitar sua recuperação e sua utilização. Para Alves (2010, p. 12) a catalogação é entendida como um processo de representação informacional que garante a identificação única do recurso informacional para fins de recuperação e, portanto, essencial para proporcionar a recuperação eficiente dos recursos nos variados tipos de sistemas de informação. Desenvolvida na área da 17 Biblioteconomia, a catalogação é um método para construção de representações do qual a Ciência da Informação se utiliza de forma interdisciplinar. Garrido Arilla (1996, p. 25, tradução nossa) concebe a catalogação como um processo unitário que, partindo da descrição do documento (descrição bibliográfica), passa pela escolha dos pontos de acesso (pessoais, corporativos, de títulos, temáticos e sistemáticos) e se encerra, em nível local, com a formação e a transcrição dos dados locais (atribuição e registro). A autora destaca também que a descrição bibliográfica, juntamente com o estabelecimento dos pontos de acesso pessoais, corporativos e de título, é chamada de catalogação descritiva (GARRIDO ARILLA, 1996, p. 26), tal como apresentado na Figura 1. Figura 1 – Partes que compõem a catalogação Fonte: Garrido Arilla (1996, p. 26, tradução nossa). Para referir-se à catalogação descritiva, Alves (2010, p. 13) tem utilizado o termo Tratamento Descritivo da Informação (TDI), que “designa o processo de representação informacional do recurso, ou seja, individualização e caracterização de um item documentário, diferenciando-o do tratamento temático também realizado na área de Biblioteconomia”. A catalogação descritiva desenvolveu-se quase que exclusivamente sobre seus próprios aspectos teóricos e práticos e tomou para si também a responsabilidade pelo intercâmbio, tanto no ambiente analógico quanto no digital, das representações dos recursos informacionais, representações estas contidas nos registros bibliográficos e complementadas pelos registros de autoridade e pelos registros de itens. Visando a possibilitar o intercâmbio dessas representações, diversas tecnologias têm sido utilizadas desde a antiguidade, de modo que os vários instrumentos da catalogação descritiva, construídos sobre princípios, modelos e aspectos teóricos e práticos, estão apoiados também em tecnologias. Entre essas tecnologias, destacam-se a ficha catalográfica, 18 padronizada no início do século XX, e, a partir da década de 1960, a fita magnética e as tecnologias de informática (BARBOSA, 1978, p. 72). Entende-se que um dos pilares que serviram de base para o desenvolvimento da catalogação até os dias de hoje foi a proposta de que um recurso informacional fosse catalogado uma única vez e que todos os esforços fossem realizados no sentido de evitar que uma instituição precisasse catalogar um recurso já catalogado por outra instituição (BALBY, 1995, p. 30). Essa proposta foi mantida e, em parte, realizada pelos programas de catalogação na publicação, de catalogação centralizada e de catalogação cooperativa. No entanto, o estabelecimento de qualquer um desses programas, ou de qualquer atividade de intercâmbio dos registros provenientes dos processos da catalogação, trouxe a necessidade de padronizar as formas de representação oriundas de tais processos, o que culminou no estabelecimento de regras de catalogação (SANTOS; CORRÊA, 2009, p. 16), utilizadas em conjunto com vocabulários e convenções. As regras de catalogação têm evoluído desde pequenos conjuntos de regras para a listagem de livros até complexos conjuntos de regras que, projetados e arranjados com base nos mais recentes modelos conceituais, se propõem a prover diretrizes e instruções para o registro dos atributos e dos relacionamentos dos mais variados tipos de recursos informacionais (RESOURCE..., 2013). Os vocabulários, enquanto instrumentos dos processos de catalogação, são entendidos não apenas como os conjuntos de pontos de acesso destinados a representar conceitos durante a catalogação de assunto, mas sim como quaisquer conjuntos de termos padronizados destinados a representar dados das mais diversas naturezas, tais como nomes de países, idiomas, tipos de conteúdo, de suporte, etc. As convenções, por sua vez, têm sido expressas em políticas e em manuais de catalogação, podendo ter abrangência tanto local quanto internacional. A utilização das tecnologias de informática a partir da década de 1960 trouxe consigo os ambientes digitais e, assim, a necessidade de estruturas que tornassem as representações provenientes da catalogação, até então suficientemente padronizadas para o ambiente analógico, processáveis nos ambientes digitais. A partir do desenvolvimento dessas estruturas surgiram os formatos para o intercâmbio de dados catalográficos (BALBY, 1995, p. 30), nos últimos anos considerados padrões de metadados (ALVES, 2010), e as codificações. Os metadados são elementos descritivos ou atributos que representam características próprias ou atribuídas a um recurso, ao passo que os padrões de metadados são conjuntos predeterminados de metadados, metodologicamente construídos e padronizados (ALVES, 19 2010, p. 47-48). As codificações, nos ambientes digitais, permitem que os metadados e os valores a eles atribuídos sejam processados por aplicações de informática. Em síntese, as codificações permitem que os dados indicados pelos metadados de um padrão e provenientes do uso de regras de catalogação, de vocabulários e de convenções sejam processados por aplicações de informática. Os elementos destacados nesta seção – regras de catalogação, vocabulários, convenções, padrões de metadados e codificações – fazem parte do cenário sobre o qual é elaborado o modelo para a conversão de registros, objetivo central desta pesquisa. Esses e outros instrumentos encontrados no domínio bibliográfico, tais como os princípios e modelos conceituais, podem ser categorizados de diversas formas (ALVES, 2010; PICCO; ORTIZ REPISO, 2012). Entre as categorizações existentes, é utilizada aqui a categorização apresentada na Figura 2, desenvolvida por Picco e Ortiz Repiso (2012, p. 149). Figura 2 – Instrumentos do domínio bibliográfico 20 Fonte: Picco e Ortiz Repiso (2012, p. 149, tradução nossa). As autoras consideram três principais níveis: um nível abstrato abrangendo os modelos e princípios do domínio bibliográfico; um nível de representação dos dados, que compreende os instrumentos destinados ao conteúdo das representações; e um nível relacionado às aplicações de informática, compreendendo os formatos ou padrões de metadados e as codificações. Cabe notar que, conforme a Figura 2, tanto as codificações quanto os padrões de metadados podem ser entendidos como estruturas. As codificações são estruturas que permitem o processamento dos registros por aplicações de informática. Os padrões de metadados são estruturas que permitem a identificação dos dados nos registros durante seu processamento. Assim, dadas essas possibilidades de interpretação da palavra estrutura, nesta pesquisa serão utilizados, sempre que possível, os termos codificação e padrão de metadados, ao invés de estrutura. Além dos instrumentos elencados pelas autoras como relacionados à representação dos dados, são consideradas aqui também as convenções, anteriormente mencionadas, uma vez que, apesar de estarem intrinsicamente relacionadas às necessidades locais de cada instituição, devem ser consideradas na conversão de registros. A adoção dessa categorização justifica-se por ela favorecer uma visualização clara dos instrumentos do domínio bibliográfico relacionados ao modelo para a conversão de registros proposto nesta pesquisa. Essa categorização, no delineamento do nível das aplicações de informática, explicita também a relação que o domínio bibliográfico tem mantido com a Ciência da Computação, relação esta que, como já mencionado, tem sido uma característica da Ciência da Informação. Partindo dos conceitos até então apresentados, da categorização de Picco e Ortiz Repiso (2012) e servindo de base para a elaboração do modelo para a conversão de registros, as seções seguintes abordam os padrões de metadados Formatos MARC 21, seu histórico e características (seção 2.1), a tradicional codificação de registros com a norma ISO 2709 (seção 2.2) e algumas das considerações sobre e críticas aos Formatos MARC 21 (seção 2.3). 2.1 Formatos MARC 21: histórico e características No domínio bibliográfico, as questões sobre a representação de recursos informacionais no ambiente digital estavam em debate já na década de 1960, mesmo que tal 21 ambiente fosse pensado apenas como ferramenta para potencializar as atividades dos ambientes analógicos. Nesse contexto, Barbosa (1978, p. 196) destaca que A necessidade de prover serviços em maior profundidade e de forma mais rápida a um maior número de usuários, bem como o aumento quantitativo dos materiais tradicionais, acrescentado ao aparecimento de novas formas de materiais, levaram as bibliotecas dos países desenvolvidos a optar pelo uso de computadores para processamento de suas operações internas. Por meio de processos simplesmente manuais tornava-se impossível garantir o tratamento técnico atualizado das coleções e o atendimento, em tempo hábil, aos usuários. Exigia-se portanto, um melhor nível de serviços. Nos Estados Unidos, em 1964, o Council on Library Resources financiou um estudo dos possíveis métodos para a conversão de fichas catalográficas da Library of Congress (LC) para uma forma legível por máquina (machine-readable) com o objetivo de utilizar computadores na impressão de bibliografias. O estudo deu origem a um relatório que levou a realização da First Conference on Machine-Readable Catalog Copy em janeiro de 1965 (AVRAM, 1968, p. 3). Entre os tópicos de discussão dessa conferência estavam o formato para registros catalográficos legíveis por máquina, os elementos bibliográficos compreendidos por esse formato, a distribuição de dados catalográficos legíveis por máquina e o futuro dos catálogos em fichas e impressos (AVRAM, 1968, p. 3). Entre as conclusões da conferência estavam: 3. A Library of Congress deve provavelmente incluir em seu registro legível por máquina todos os dados impressos na ficha catalográfica e informações adicionais. A maioria dos conferencistas foi favorável à codificação de tantos dados quanto possível para assegurar uma máxima recuperação no futuro. Parece ser desejável para a Library of Congress ir adiante com suas próprias necessidades e que outras bibliotecas utilizem o que quiserem de um registro legível por máquina da LC. 4. O registro legível por máquina seria utilizado para uma variedade de produtos bibliográficos, tais como catálogos em fichas, catálogos impressos, bibliografias, listas de aquisição, etc. (AVRAM, 1968, p. 3, tradução nossa). A discussão desses tópicos, a realização de análises dos dados catalográficos na LC e a revisão do formato proposto conduziram a uma segunda conferência em novembro de 1965. Em fevereiro de 1966 foi realizada a terceira conferência, marcando o início oficial do MARC (MAchine-Readable Cataloging) Pilot Project. Em novembro do mesmo ano teve início o serviço semanal de distribuição de registros que, ao ser finalizado em junho de 1968, havia distribuído aproximadamente 50 mil registros em fitas magnéticas (AVRAM, 1968, p. 4-7). Durante o projeto piloto foi utilizado o formato MARC I. Com base na experiência obtida nesse projeto, foi desenvolvido o MARC II, que passou a ser utilizado a partir de 22 março de 1969 na distribuição de registros de publicações monográficas em língua inglesa (AVRAM, 2003, p. 1714). Tendo como base o MARC II, formatos com características semelhantes surgiram em diversos lugares, como o CAN/MARC (Canadá), o IBERMARC (Espanha), o MARCAL (América Latina) e o UKMARC (Reino Unido), além do UNIMARC, desenvolvido e mantido pela International Federation of Library Associations and Institutions (IFLA) (Federação Internacional de Associações e Instituições de Bibliotecas) (BARBOSA, 1978, p. 212; EITO BRUN, 2008, p. 147; MORENO, BRASCHER, 2007, p. 15), fazendo com que, na década de 1970, fossem encontradas mais de 50 variações do formato original (FLAMINO, 2006, p. 83). No Brasil destaca-se a iniciativa da bibliotecária Alice Príncipe Barbosa que, em 1972, defendeu em seu mestrado o Formato Catalogação Legível por Computador (CALCO), baseado no Formato MARC II. Apesar da iniciativa, o CALCO não foi atualizado e caiu em desuso (SANTOS; CORRÊA, 2009, p. 49). Na década de 1980 o MARC II tornou-se USMARC (LIBRARY OF CONGRESS, 2006). Na década seguinte surgiu a denominação MARC 21 a partir da harmonização entre os Formatos USMARC e CAN/MARC, que passaram a ser publicados sob o novo nome: MARC 21. O MARC 21 não é um novo formato. De 1994 a 1997 as comunidades de usuário do USMARC e do CAN/MARC trabalharam para eliminar todas as diferenças remanescentes em seus dois formatos já similares. A compatibilidade tem sido uma característica do processo de desenvolvimento de ambos os formatos por muitos anos. Em 1997 e no início de 1998, atualizações dos formatos foram emitidas para tornar as especificações idênticas. MARC 21, a continuação do USMARC e do CAN/MARC, publica os formatos em uma edição sob um novo nome. (LIBRARY OF CONGRESS, 1998, tradução nossa). Desde a harmonização entre os formatos, o MARC 21 tem sido mantido e atualizado, sendo que as atualizações mais recentes destinaram-se à inclusão e/ou à modificação de campos e subcampos para apoiar a utilização do Resource Description and Access (RDA) (Descrição de Recursos e Acesso), diretrizes e instruções desenvolvidas para substituir o Anglo-American Cataloguing Rules, 2nd ed., 2002 revision (AACR2r) (Código de Catalogação Anglo-Americano, 2. ed., revisão de 2002) (LIBRARY OF CONGRESS, 2012b). Os Formatos MARC 21 têm sido descritos como padrões de metadados do domínio bibliográfico (ALVES, 2010). Enquanto padrões de metadados, cada Formato MARC 21 apresenta “um conjunto predeterminado de metadados (atributos codificados ou 23 identificadores de uma entidade) metodologicamente construídos e padronizados” (ALVES, 2010, p. 47-48). Os cinco formatos que são coletivamente chamados de Formatos MARC 21 e os tipos de dados a que seus metadados se destinam são: MARC 21 Format for Bibliographic Data (Formato MARC 21 para Dados Bibliográficos): compreende os metadados necessários para descrever, recuperar e controlar diversos tipos de materiais bibliográficos: livros, publicações seriadas, arquivos de computador, mapas, músicas, matérias visuais e materiais mistos; MARC 21 Format for Holdings Data (Formato MARC 21 para Dados de Itens): compreende os metadados relacionados aos itens e a sua localização; MARC 21 Format for Authority Data (Formato MARC 21 para Dados de Autoridade): compreende os metadados que identificam ou controlam o conteúdo e a designação do conteúdo das partes de um registro bibliográfico que podem estar sujeitas ao controle de autoridade; MARC 21 Format for Classification Data (Formato MARC 21 para Dados de Classificação): compreende os metadados relacionados aos números de classificação e às rubricas associadas a eles, favorecendo a manutenção e o desenvolvimento de esquemas de classificação; MARC 21 Format for Community Information (Formato MARC 21 para Informação Comunitária): compreende os metadados sobre eventos, programas e serviços voltados à comunidade, etc. de modo que estes possam ser descritos e constar nos catálogos (LIBRARY OF CONGRESS, 1996). Um registro MARC 21, em qualquer um dos cinco formatos, envolve três componentes: a estrutura do registro, a designação do conteúdo e o conteúdo (LIBRARY OF CONGRESS, 1996). Esses três componentes têm estado presentes desde o Formato MARC II: A filosofia por detrás do MARC II foi o projeto de uma estrutura de formato (a representação física sobre um meio legível por máquina) capaz de conter informações bibliográficas de todos os tipos de materiais (livros, publicações seriadas, mapas, músicas, artigos de periódicos, etc.) e os registros relacionados (registros de remissivas de nomes e assuntos, etc.). A estrutura, ou “container vazio”, os designadores do conteúdo (etiquetas, indicadores e códigos de subcampo) usados para identificar explicitamente ou adicionalmente caracterizar os elementos de dados, e o conteúdo, os próprios dados (nomes dos autores, títulos, etc.), são os três componentes do formato. (AVRAM, 2003, p. 1713-1714, tradução nossa). Seguindo a categorização de Picco e Ortiz Repiso (2012, p. 49), apresentada no início deste capítulo, a estrutura do registro é dada pela codificação, a designação do conteúdo é 24 provida pelo padrão de metadados e o conteúdo está de acordo com regras de catalogação, vocabulários e convenções. O padrão de metadados Formato MARC 21 para Dados Bibliográficos, destinado a prover a designação do conteúdo para registros bibliográficos, será apresentado nesta seção. A codificação usualmente empregada com os registros criados com esse padrão de metadados será abordada na seção seguinte, enquanto que outras codificações alternativas serão apresentadas no próximo capítulo. As regras de catalogação, os vocabulários e as convenções que proveem o conteúdo de um registro bibliográfico não serão abordados nesta pesquisa de forma extensa. Nos registros de qualquer um dos Formatos MARC 21, os metadados são representados pela designação do conteúdo, podendo esta ser de três tipos: etiqueta de campo (composta por três caracteres numéricos), indicador (composto por um espaço de caractere) ou código de subcampo (composto por um caractere alfanumérico). Essa designação do conteúdo é apresentada na documentação de cada padrão de metadados constituinte dos Formatos MARC 21. Em razão da ampla utilização e estudo do Formato MARC 21 para Dados Bibliográficos, a designação de conteúdo utilizada para indicar os metadados compreendidos por tal padrão é brevemente exemplificada nesta pesquisa. Os metadados do Formato MARC 21 para Dados Bibliográficos estão organizados em grupos, como mostrado na Figura 3. Figura 3 – Organização dos metadados do Formato MARC 21 para Dados Bibliográficos 00X Campos de controle 01X–09X Campos de números e códigos 1XX Campos do ponto de acesso principal 20X–24X Campos de título e títulos relacionados 25X–28X Campos de edição, imprenta, etc. 3XX Campos de descrição física 4XX Campos de indicação de série 5XX Campos de nota 6XX Campos dos pontos de acesso de assunto 70X–75X Campos dos pontos de acesso secundários 76X–78X Campos dos pontos de acesso de ligação 80X–83X Campos dos pontos de acesso secundários de série 841–88X Campos de itens, localização, gráficos alternativos, etc. Fonte: Adaptado de . Acesso em: 24 out. 2012. 25 Cada grupo é composto por um conjunto de campos, como exemplificado na Figura 4. Cada campo, exceto os campos de controle, compreende dois indicadores e um número de subcampos que varia de campo para campo, como mostrado na Figura 5. Figura 4 – Exemplos de campos do Formato MARC 21 para Dados Bibliográficos 25X-28X: Campos de edição, imprenta, etc. 250 Indicação de edição (NR) 254 Indicação de apresentação musical (NR) 255 Dados cartográficos matemáticos (R) 256 Características de arquivo de computador (NR) 257 País da entidade produtora (R) 258 Dados sobre material filatélico (R) 260 Publicação, distribuição, etc. (imprenta) (R) 263 Data planejada para a publicação (NR) 264 Produção, distribuição, manufatura e copyright (R) 270 Endereço (R) Fonte: Adaptado de . Acesso em: 24 out. 2012. Figura 5 – Campo 260 do Formato MARC 21 para Dados Bibliográficos 260: Publicação, distribuição, etc. (imprenta) (R) Primeiro indicador Segundo indicador Sequência das indicações de publicação # – Não aplicável/Nenhuma informação provida/Publicador mais antigo disponível 2 – Publicador interveniente 3 – Atual/último publicador Indefinido # – Indefinido Códigos dos subcampos $a – Local de publicação, distribuição, etc. (R) $b – Nome do publicador, distribuidor, etc. (R) $c – Data de publicação, distribuição, etc. (R) $e – Local de manufatura (R) $f – Manufaturador (R) $g – Data de manufatura (R) $3 – Materiais especificados (NR) $6 – Vínculo (NR) $8 – Vínculo de campo e sequência numérica (R) Fonte: Adaptado de . Acesso em: 24 out. 2012. As indicações (R) e (NR) presentes na Figura 4 e na Figura 5 indicam se o campo ou o subcampo é repetível ou não repetível, respectivamente. Se repetível, um campo pode ocorrer mais de uma vez em um registro; se não repetível, sua ocorrência está limitada a uma única vez. Se o subcampo é repetível, pode ocorrer mais de uma vez dentro daquele subcampo, se não repetível pode apresentar no máximo uma ocorrência em cada instância do campo ao qual pertence. 26 De modo geral, os indicadores são utilizados para prover dados adicionais sobre o conteúdo registrado em um determinado campo ou subcampo, por exemplo, indicar se uma nota é um resumo, uma resenha ou um alerta sobre o conteúdo do recurso, e indicar o vocabulário ao qual um ponto de acesso de assunto pertence. Apesar de estarem disponíveis em todos os campos, exceto nos campos de controle, nem sempre os indicadores são utilizados, nesses casos são declarados como “Indefinidos” e não são preenchidos, ou seja, os espaços destinados a eles são deixados em branco. Além desses campos, indicadores e subcampos, cada registro contém um líder, elemento obrigatório composto por 24 caracteres que comporta metadados relacionados ao processamento do registro, tal como seu tamanho, o tipo do recurso descrito, o nível bibliográfico, o esquema de codificação dos caracteres do registro e a forma da catalogação descritiva. A Figura 6 traz um registro no Formato MARC 21 para Dados Bibliográficos que faz uso de alguns dos metadados disponíveis em tal padrão. Figura 6 – Registro no formato MARC 21 para Dados Bibliográficos LDR 00822nam#a2200229#a#4500 005 20121108132540.0 008 121107s2007####bl#a###gr#####000#0#por#d 020 # # $a857642004X 082 0 4 $a001.42$222 100 1 # $aPescuma, Derna 245 1 0 $aProjeto de pesquisa :$bo que é? como fazer? : um guia para sua elaboração /$cDerna Pescuma, Antonio Paulo F. de Castilho ; colaboração de Paulo Angelo Lorandi. - 250 # # $a4. ed. - 260 # # $aSão Paulo :$bOlho d'Água,$c2007 300 # # $a96 p. :$bil. ;$c21 cm 490 1 # $aMétodo ;$v3 500 # # $aSegue as mais recentes normas da ABNT 650 0 4 $aRedação acadêmica 650 0 4 $aTrabalhos científicos$xMetodologia 650 0 4 $aRelatórios$xRedação 700 1 # $aCastilho, Antonio Paulo Ferreira de,$d1953- 700 1 # $aLorandi, Paulo Angelo 830 # 0 $aMétodo Fonte: Elaborada pelo autor. Legenda: cada # indica uma posição de caractere em branco ou um indicador indefinido (em branco); o $ é utilizado para identificar os códigos dos subcampos. 27 O registro da Figura 6 foi elaborado com base na documentação oficial do Formato MARC 21 para Dados Bibliográficos (LIBRARY OF CONGRESS, 2012a) e no AACR2r, sendo o número de classificação (campo 082) e os pontos de acesso de assunto (campos 650) registrados a partir dos dados presentes na catalogação na fonte que acompanha o recurso representado pelo registro. A forma de apresentação com que o registro é exibido na Figura 6 é convencionalmente utilizada para propósitos de leitura por agentes humanos e envolve a designação do conteúdo e o conteúdo do registro, não sendo utilizada com o propósito de possibilitar o processamento por uma aplicação de informática. Para que isso ocorra é necessário dotar o registro de uma estrutura que o torne processável por aplicações de informática, tal estrutura é a codificação do registro. A codificação tradicionalmente utilizada com os registros nos Formatos MARC 21 é especificada pela norma ISO 2709, abordada na seção seguinte. 2.2 Codificação com a ISO 2709 Como anteriormente mencionado, um dos componentes dos registros nos Formatos MARC 21 é a estrutura, provida pela codificação. Para Barbosa (1978, p. 209), essa “estrutura é o arranjo da informação bibliográfica em fita magnética, ou seja, é a moldura básica do formato. Contém certas informações de controle, necessárias à transmissão de informações e define o ‘layout’ dos campos de dados”. Balby (1995, p. 31) entende a codificação como as regras para a estruturação dos dados em meio legível por computador. Para a autora, as codificações são definidas por normas, “conjuntos de regras, externos ao formato de intercâmbio, que orientam a distribuição dos dados no meio físico de armazenamento (fita, disquete etc.)”. Os formatos legíveis por máquina desenvolvidos pela LC na década de 1960 visavam à transmissão de registros em fitas magnéticas, surgiu assim o caráter sequencial da codificação utilizada originalmente e ainda atualmente na transmissão de registros MARC. Essa codificação foi reconhecida nacionalmente nos Estados Unidos pelo American National Standards Institute (ANSI) (Instituto Nacional Americano de Padrões) em 1971 como a norma Z39.2, e internacionalmente em 1981 pela International Organization for Standardization (ISO) (Organização Internacional para Padronização) como a 2709, Documentation – Format for bibliographic information interchange on magnetic tape (Documentação – Formato para intercâmbio de informação bibliográfica em fita magnética). 28 No decorrer dos anos essas normas foram atualizadas, sendo de 1994 a última versão da ANSI Z39.2 e de 2008 a última versão da ISO 2709. Em razão das semelhanças entre as duas normas, esta pesquisa fará menções somente a norma ISO, devido ao seu caráter internacional e por ser a mais recente. A ISO 2709 “descreve uma estrutura geral, um framework projetado especialmente para comunicações entre sistemas de processamento de dados e não para o uso como um formato de processamento dentro dos sistemas” (INTERNATIONAL ORGANIZATION FOR STANDARDIZATION, 2008, tradução nossa). Essa norma não define o tamanho ou o conteúdo de registros individuais, também não atribui qualquer significado às etiquetas, aos indicadores ou aos códigos de subcampos, uma vez que prover tais especificações é função dos formatos (INTERNATIONAL ORGANIZATION FOR STANDARDIZATION, 2008). Assim, os elementos de um registro definidos por essa norma são: líder: compreende os 24 primeiros caracteres de um registro trazendo informações sobre o mesmo, tais como o tamanho do registro e o número de indicadores utilizado em cada campo; diretório: compreende um número variado de partes, cada uma indicando um campo, o tamanho do campo e a posição do caractere inicial do campo; o diretório termina com um caractere separador de campo; campos: compreendem todo o conteúdo dos campos presentes no registro (campo identificador do registro – 001, campos de referência – 002-009 e 00A-00Z, e campos de dados – 010-999 e 0AA-ZZZ), os indicadores e os identificadores (códigos dos subcampos); cada campo termina com um separador de campo; ao final do último campo é adicionado um separador de registros (INTERNATIONAL ORGANIZATION FOR STANDARDIZATION, 2011). O exemplo de um registro no Formato MARC 21 para Dados Bibliográficos codificado com a ISO 2709 é apresentado na Figura 7. 29 Figura 7 – Registro no Formato MARC 21 para Dados Bibliográficos codificado com a ISO 2709 00822nam a2200229 a 450000500170000000800410001702000150005808200150 00731000019000882450171001072500013002782600038002913000026003294900 01700355500004200372650002500414650004000439650002700479700004800506 700002600554830001200580RS20121108132540.0RS121107s2007 bl a gr 000 0 por dRS USa857642004XRS04USa001.42US222RS1 USaPescuma, DernaRS10USaProjeto de pesquisa :USbo que é? como fazer? : um guia para sua elaboração /UScDerna Pescuma, Antonio Paulo F. de Castilho ; colaboração de Paulo Angelo Lorandi. -RS USa4. ed. -RS USaSão Paulo :USbOlho d'Água,USc2007RS USa96 p. :USbil. ;USc21 cmRS1 USaMétodo ;USv3RS USaSegue as mais recentes normas da ABNTRS04USaRedação acadêmicaRS04USaTrabalhos científicosUSxMetodologiaRS04USaRelatóriosUSxRedaçãoRS1 USaCastilho, Antonio Paulo Ferreira de,USd1953-RS1 USaLorandi, Paulo AngeloRS 0USaMétodoRSGS Fonte: Elaborado pelo autor. O registro mostrado na Figura 7 constitui-se de uma linha contínua de caracteres, no entanto, é apresentado com quebras de linha com vistas a possibilitar uma melhor exibição. As indicações RS, US e GS representam os caracteres ASCII não imprimíveis4 utilizados para separar, respectivamente, campos, subcampos e registros. Esse registro é intercambiado entre aplicações de informática e seu conteúdo é processado de acordo com os dados presentes no líder e no diretório e com os indicadores, as etiquetas dos campos e os códigos dos subcampos definidos no Formato MARC 21 para Dados Bibliográficos. Apesar das normas para a codificação terem sido atualizadas no decorrer dos anos, nota-se que não houve mudanças substanciais na codificação, de modo que os registros nos atuais Formatos MARC 21 são, em sua maior parte, codificados quase que da mesma forma com que eram codificados os registros na década de 1960, seja para propósitos de recuperação, por exemplo, via protocolo Z39.505, de importação entre sistemas de gerenciamento de bibliotecas ou de armazenamento em bancos de dados. 4 No contexto do American Standard Code for Information Interchange (ASCII) (Código Padrão Americano para o Intercâmbio de Informação), esses caracteres significam, respectivamente, record separator (separador de registro), unit separator (separador de unidade) e group separator (separador de grupo). Nota-se que cada registro ISO 2709 é entendido como um grupo de dados, dentro do qual os campos são separados por separadores de registros (RS) e os subcampos por separadores de unidades (US). Mais informações em: . Acesso em: 18 fev. 2013. 5 O protocolo Z39.50 é amplamente utilizado nos sistemas de gerenciamento de bibliotecas internacionais e é definido pelo norma ANSI/NISO Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. A norma estabelece um modelo genérico para o processo de recuperação em bases de dados entre sistemas informatizados conectados em rede: o 30 2.3 Considerações e críticas aos Formatos MARC 21 García Melero e García Camarero (19996 apud EITO BRUN, 2008, p. 148, tradução nossa) sintetizam os objetivos básicos que levaram à criação do MARC: 1. A criação de descrições bibliográficas reutilizáveis em distintos processos (aquisição, catalogação, recuperação e circulação ou empréstimo). 2. Normalizar a estrutura dos registros bibliográficos para facilitar seu intercâmbio entre bibliotecas. 3. Alcançar a independência dos dados bibliográficos frente aos sistemas de informação utilizados para seu tratamento automatizado. Sobre a importância dos Formatos MARC, Moreno e Brascher (2007, p. 14) destacam que a necessidade de intercâmbio de informações de forma padronizada, o planejamento e a implantação da catalogação cooperativa para redução de custos e retrabalhos, ganhou impulso com tais formatos. Alves (2010, p. 33) relaciona a ampla utilização dos formatos MARC com a consonância existente entre esses formatos e as regras de catalogação. Nas palavras da autora, é importante destacar que o formato passou a ser amplamente utilizado pela comunidade biblioteconômica por refletir a lógica de descrição contemplada nas estruturas descritivas dos códigos de catalogação, possibilitando, dessa forma, uma facilidade na importação e exportação de dados bibliográficos. (ALVES, 2010, p. 33). Alves (2010, p. 70) entende também que, apesar dos termos metadados e padrões de metadados não terem sido utilizados na época de seu desenvolvimento, o Formato MARC 21 para Dados Bibliográficos sem dúvida se constitui como um padrão de metadados do domínio bibliográfico. O formato MARC 21 apresenta como escopo criar representações padronizadas dos recursos informacionais de uma unidade de informação, por meio de seu esquema de metadados e esquemas associados (princípios e códigos de catalogação), com o intuito de intercambiar metadados descritivos ou mais especificamente metadados bibliográficos. (ALVES, 2010, p. 70). Para Zafalon (2012, p. 23), o Formato MARC 21 para Dados Bibliográficos “é um dos instrumentos indispensáveis ao catalogador que intenciona prover de meios automatizados de acesso aos, e compartilhamento de, registros bibliográficos na unidade de informação em que sistema cliente envia consultas ao sistema servidor, que recupera os registros de uma ou mais bases de dados e os envia ao sistema cliente (EITO BRUN, 2008, p. 303). 6 GARCÍA MELERO, L. A.; GARCÍA CAMARERO, E. Automatización de bibliotecas. Madrid: ArcoLibros, 1999. 31 atua”. Para a autora, esse padrão ainda não é utilizado por grande parte das instituições nacionais, sendo que alguns dos motivos que levam à não utilização desse padrão são: o desconhecimento dos padrões ou das vantagens em adotá-los; as limitações oriundas de infra-estrutura tecnológica; as restrições orçamentárias para o tratamento dos dados, por requerer pessoal capacitado; a falta de habilidades de gestão para o gerenciamento de diferenciados recursos necessários ao processo de mudança ou implantação de sistemas automatizados; a inexperiência no processo de seleção de software de gerenciamento que atenda aos requisitos de compartilhamento de dados e uso do formato MARC21 no delineamento das bases de dados; e o desconhecimento dos processos necessários para o compartilhamento, a conversão e a migração de dados bibliográficos, apesar de se ter conhecimento da existência de padrões e das vantagens na adoção. (ZAFALON, 2012, p. 26-27). Além das considerações sobre sua importância e sobre os benefícios de sua utilização, também são encontradas na literatura diversas críticas aos Formatos MARC 21. Um ponto destacado por diversos autores é que, em razão dos Formatos MARC terem sido criados na década de 1960 para possibilitar principalmente a produção de fichas catalográficas, um registro MARC 21, ainda hoje, simula uma ficha catalográfica no ambiente digital. Segundo Coyle (2004, p. 166), o registro MARC foi criado como um reflexo digital das regras de catalogação de seu tempo, regras estas que não são tão diferentes das regras de catalogação atuais. Essas regras foram originalmente projetadas para a produção de fichas e ainda mantêm essa característica, o que é possível observar por meio dos pontos de acesso das entradas principais, da forma invertida dos nomes e do agrupamento de elementos em segmentos semelhantes a parágrafos. Danskin (2004, p. 115) acrescenta à discussão outros aspectos. Para o autor, o registro MARC moderno é uma “reencarnação” da ficha catalográfica e tão ineficiente quanto esta, pois, toda vez que um catalogador cria um registro para uma nova edição de uma obra que a biblioteca já possui um exemplar, ele digita (ou copia) dados que já estão presentes na base de dados, mas não estão hierarquicamente estruturados de modo que possam ser reutilizados. Para Danskin, isso é ignorar a capacidade das bases de dados relacionais presentes na maioria dos modernos sistemas de gerenciamento de bibliotecas. Mönch e Aalberg (2003, p. 405) descrevem algo semelhante. Os autores exemplificam que uma busca por uma obra literária que existe em numerosas edições e traduções está suscetível a resultar em um grande conjunto de resultados, pois cada edição ou tradução está 32 representada por um registro individual que não está relacionado aos outros registros que descrevem a mesma obra. Segundo Gorman (1997, tradução nossa), “[...] o MARC tem suas origens na ficha catalográfica. Isso não é somente visto na ordem de seus campos, que preserva exatamente a ordem dos dados na ficha catalográfica, incluindo a separação do cabeçalho da ‘entrada principal’ (1XX) de outros pontos de acesso (7XX)”. Gorman (1997, tradução nossa) complementa que Todos os problemas que temos com o MARC derivam da violação inicial da lei fundamental da automação de bibliotecas – “nunca automatize apenas o que você tem”. Anos atrás, clamei por uma reforma completa do MARC que deveria, essencialmente, substituir por simples registros (nomes, descrições, assuntos) com muitas e complexas conexões o que temos hoje – complexos registros com poucas conexões.7 É evidente que meu chamado não foi ouvido. Como uma consequência, estamos lidando com os efeitos de milhões de registros MARC e centenas de sistemas baseados nesses registros sem a capacidade de tirar vantagem da sofisticação dos modernos sistemas online. Do ponto de vista da construção de catálogos digitais, Fusco (2011) destaca os problemas resultantes da modelagem dos bancos de dados utilizando os Formatos MARC 21 como base. Para o autor, É importante destacar que o MARC21 é um formato para intercâmbio de dados, que informa como um registro bibliográfico e catalográfico deve estar descrito para que sua importação ou exportação ocorra com sucesso, porém o modelo de dados do catálogo não necessariamente deve estar organizado estruturalmente no mesmo formato de um registro MARC21. (FUSCO, 2011, p. 57). Fusco expõe que o uso indevido dos Formatos MARC 21 resulta em anomalias nos bancos de dados: Isso [anomalias no banco de dados] ocorre porque padrões de metadados como o formato MARC têm uma estrutura linear em suas estruturas de registros, ou seja, um modelo bidimensional de atributo-valor e determinam o formato de entrada e de intercâmbio de dados, sem determinar o conceito de domínio dos objetos representados com seus relacionamentos. (FUSCO, 2011, p. 119). Miller e Clarke (2003) apontam alguns problemas com os Formatos MARC 21, em síntese: 7 A proposta de Gorman é descrita em: GORMAN, Michael. Authority files in a developed machine system (with particular reference to AACR II). In: FURUYA, Natsuko Y. (Ed.). What’s in a name: control of catalogue records through automated authority files. Toronto: University of Toronto Press, 1978. p. 179-202. 33 inconsistência dos dados – um mesmo tipo de dado é registrado em diferentes campos/subcampos de diferentes formas (por exemplo, datas); redundância de dados – um mesmo dado é registrado em mais de um campo/subcampo, ora de modo codificado, ora literalmente (por exemplo, idiomas); mistura de dados e seus atributos; dispersão e irregularidade dos relacionamentos; e extrema complexidade na codificação. Os autores acrescentam que, Onde há informação hierárquica envolvida, a estrutura relativamente plana do MARC a torna difícil de ser refletida. As limitações do tamanho do campo variam de sistema para sistema. A granularidade injustificada existe, enquanto que a funcionalidade indicando a granularidade está faltando. (MILLER; CLARKE, 2003, p. 116, tradução nossa). Miller e Clarke (2003, p. 116) finalizam que os problemas são tantos que o MARC deve ser completamente reavaliado e reconstruído. Afirmam também que o MARC efetivamente evita que as bibliotecas tirem total vantagem da XML e das tecnologias relacionadas e coloca as bibliotecas em desvantagem na arena competitiva do gerenciamento informacional. “Apesar de sua vida longa e de suas contribuições úteis, o MARC representa agora mais uma desvantagem que uma vantagem” (MILLER; CLARKE, 2003, p. 116, tradução nossa). Com o objetivo de explorar os vários problemas que alguns autores têm associado aos Formatos MARC 21, Yee (2004) analisa e define quatro tipos de problemas: problemas que na verdade não são culpa do MARC 21, mas sim das regras e das práticas de catalogação que proveem o conteúdo dos registros MARC 21, por exemplo, o AACR2r; problemas que realmente não são problemas, ao invés disso são soluções para problemas imperfeitamente compreendidos pelos autores; problemas devido ao ambiente de catalogação compartilhada para o qual o MARC 21 foi projetado; problemas causados ou parcialmente causados pelo MARC 21 e que talvez possam ser solucionados nos processos de migração dos dados para um novo padrão de estrutura de dados no futuro. 34 Sobre os problemas do quarto tipo, Yee (2004, p. 166, tradução nossa) destaca que uma parte desses problemas poderia ser resolvida nos software e não no próprio Formato MARC 21. Infelizmente, muitos dos problemas que são atribuídos ao MARC 21 são, na verdade, problemas que derivam do insucesso dos distribuidores de software em suportar as capacidades totais do MARC 21. Às vezes isso se deve às considerações de ordem financeira (o desenvolvimento é feito somente quando um número significante de clientes será beneficiado); às vezes isso ocorre devido à falta de entendimento que os distribuidores de softwares têm do MARC 21, dos registros catalográficos, dos problemas que surgem em complexas bases de dados de registros bibliográficos e dos problemas de face pública no acesso aos catálogos online de acesso público. (YEE, 2004, p. 166, tradução nossa). Apesar das críticas que têm recebido, os Formatos MARC 21 ocupam ainda o status de padrões de metadados consolidados para o intercâmbio de registros no domínio bibliográfico. Uma discussão exaustiva sobre a adequação ou não de tal padrão de metadados não cabe como um dos objetivos desta pesquisa. Nascidos no início da automação das unidades de informação, os Formatos MARC e seus derivados se constituem como um dos resultados do uso estratégico das tecnologias em prol do processo de catalogação (PEREIRA; SANTOS, 1998, p. 124). Com o desenvolvimento da Ciência da Computação, uma gama de tecnologias de informática tem surgido, oferecendo à Ciência da Informação e à catalogação novas oportunidades para a melhoria de seus processos. Algumas dessas tecnologias e o modo com que elas foram, são e podem ser utilizadas a favor da catalogação são os objetos de discussão do capítulo seguinte. 35 3 Marcação e transformação: XML, XSLT e MARCXML Os padrões de metadados de origem e de destino são elementos-chave do modelo para a conversão de registros elaborado nesta pesquisa. Os registros criados de acordo com esses padrões precisam, no entanto, de uma estrutura que os tornem processáveis por aplicações de informática. Essa estrutura é chamada de codificação. A tradicional codificação utilizada com os registros nos Formatos MARC 21, a ISO 2709, foi apresentada no capítulo anterior. Além dela, o modelo para a conversão de registros proposto nesta pesquisa faz uso da XML. A codificação de registros com a XML e a transformação de documento XML com folhas de estilo XSLT são os objetos de estudo deste capítulo. O desenvolvimento da Ciência da Computação tem trazido uma gama de tecnologias de informática, oferecendo à Ciência da Informação novos ambientes e ferramentas para a discussão das questões relacionadas à origem, à coleção, à organização, ao armazenamento, à recuperação, à interpretação, à transmissão, à transformação e ao uso da informação. Nesse contexto, surgem novas possibilidades para a catalogação no que diz respeito à representação, ao uso e ao intercâmbio de dados em ambientes digitais. Para Siqueira (2003, p. 33), “a trajetória histórica da catalogação mostra que esta, sempre utilizou as tecnologias vigentes em cada época em busca de métodos mais eficientes e econômicos para facilitar a representação, a recuperação e a disseminação da informação”. Segundo Santos e Alves (2009), “a organização, a representação e a recuperação dos recursos informacionais sempre estiveram relacionadas com a tecnologia vigente em cada época e, atualmente, com as tecnologias de informática”. É nesse sentido que Balby (1995, p. 29) aponta que os próprios Formatos MARC 21, apresentados no capítulo anterior, “são um desenvolvimento da Biblioteconomia cuja origem está ligada à adoção de inovações tecnológicas no trabalho de catalogação”. Alves (2010, p. 98) aponta que, em razão de sua atuação como agentes de mudança no tratamento descritivo de recursos informacionais, as tecnologias de informática vêm contribuindo para uma reavaliação da teoria, dos princípios, dos fundamentos, dos métodos e dos instrumentos de representação do domínio bibliográfico. Essa reavaliação vem sendo desenvolvida com o objetivo de tornar mais consistente o processo de TDI em relação aos novos ambientes informacionais digitais e às novas necessidades dos usuários diante das tecnologias. A Extensible Markup Language (XML) e a Extensible Stylesheet Language for Transformation (XSLT) são algumas das tecnologias de informática que podem contribuir 36 para uma reavaliação dos instrumentos de representação do domínio bibliográfico e oferecer métodos mais eficientes e econômicos para os processos de catalogação, facilitando, assim, a representação, a recuperação e a disseminação da informação. Tais tecnologias são apresentadas neste capítulo. Primeiramente, a XML é descrita como um meio de marcar documentos de modo estruturado, permitindo o posterior processamento de seu conteúdo (seção 3.1). Em seguida, aborda-se a XSLT e as possibilidades para a transformação de documentos XML (seção 3.2). Por fim, é realizado um resgate histórico sobre os principais esforços empreendidos para a utilização da XML na codificação de registros nos Formatos MARC 21 e sobre algumas possibilidades de uso da XSLT na conversão de tais registros (seção 3.3). 3.1 Marcação de documentos: XML Em 1986 a ISO publicou a norma 8879 Information processing – Text and office systems – Standard Generalized Markup Language (SGML) (Linguagem Padronizada de Marcação Genérica), provendo uma linguagem – a SGML – para facilitar a produção e o compartilhamento de documentos eletrônicos (MILLER; CLARKE, 2004, p. 2) ou, segundo Moreno e Brascher (2007, p. 15), “uma linguagem para descrever a estrutura dos documentos, ou qualquer tipo de dado textual, deixando a interpretação dos dados para outros programas”. Com base na SGML, em 1998, o World Wide Web Consortium (W3C) (Consórcio World Wide Web) lançou a Extensible Markup Language (XML) (Linguagem de Marcação Extensível). Como afirma o próprio W3C (2012b, tradução nossa), “originalmente projetada para vencer os desafios da publicação eletrônica em larga escala, a XML está desempenhando um papel de crescente importância na troca de uma ampla variedade de dados na Web e em outros lugares”. Segundo Ray (2001, p. 2), Em um nível, a XML é um protocolo para conter e gerenciar informações. Em outro, é uma família de tecnologias que pode fazer de tudo, desde formatar documentos até filtrar dados. E, no nível mais alto, é uma filosofia para o tratamento de informações, que busca o máximo de utilidade e flexibilidade para os dados, definindo-os à sua forma mais pura e mais estruturada. O autor destaca também que a XML “é um conjunto de regras para a criação de linguagens de marcação” (RAY, 2001, p. 2). Segundo Almeida (2002, p. 6) a palavra marcação tem sido utilizada “para descrever anotações ou marcas em um texto, que tem por objetivo dar instruções ao desenhista ou datilógrafo sobre a maneira como uma parte do texto 37 deveria ser representada”. Ray (2001, p. 2) apresenta aspectos que complementam a visão de Almeida. Para o autor, a marcação é entendida como “a informação incluída em um documento para melhorar seu significado de certas maneiras, por identificar as partes e como elas se relacionam umas com as outras” (RAY, 2001, p. 2). Uma linguagem de marcação, por sua vez, é “um conjunto de símbolos que pode ser colocado no texto de um documento para demarcar e rotular as partes desse documento” (RAY, 2001, p. 2) ou um conjunto de convenções utilizadas para a codificação de textos que especificam quais marcas são permitidas, quais são exigidas, como se deve fazer distinção entre as marcas e o texto e qual o significado da marcação (ALMEIDA, 2002, p. 6). No contexto da marcação de documentos digitais, Almeida (2002, p. 6) aponta que “Codificar ou ‘marcar’ um texto para processamento por computadores é também um processo de tornar explícito o que é conjetural”, indicando como seu conteúdo deve ser interpretado. Para Ray (2001, p. 2), A marcação é importante para os documentos eletrônicos porque eles são processados por programas de computador. Se um documento não tiver rótulos ou limites, então um programa não saberá como tratar uma parte do texto para distingui-la de outra parte. A XML não especifica qualquer símbolo ou marca, melhor dizendo, elemento, para a marcação de documentos. O que ela especifica são regras ou restrições sintáticas para a marcação de documentos, e, com base nessas regras é possível criar linguagens e utilizá-las para marcar documentos. As principais regras da XML são: um elemento que não seja vazio deve conter tags (etiquetas) de início e de fim; a tag de um elemento vazio precisa ter uma barra antes do sinal de maior; o valor de cada atributo deve estar entre aspas; os elementos não podem se sobrepor; caracteres de marcação isolados não podem aparecer no conteúdo analisado (aqui são incluídos os sinais <, ]]> e &); os nomes dos elementos podem começar apenas com letras e com o caractere de sublinhado, e podem conter apenas letras, números, hifens, pontos e sublinhados. Os sinais de dois pontos são reservados para indicar namespaces (RAY, 2001, p. 60). Quando um documento XML satisfaz essas regras, como é o caso do documento Lista de contatos, exemplificado na Figura 8, é considerado um documento bem formado (RAY, 2001, p. 60). 38 Figura 8 – Lista de contatos em um documento XML Fonte: Elaborada pelo autor. Em razão de sua estrutura hierárquica, um documento XML é entendido como uma árvore; seus componentes, chamados de nós, dividem-se em sete tipos: elementos – são os blocos de um documento XML; os nós do tipo elemento e o nó raiz (descrito a seguir) são os únicos nós que podem conter outros nós; atributos – acompanham os elementos descrevendo seus detalhes, tal como uma propriedade, um comportamento específico ou um subtipo; por mais que os atributos dependam dos elementos para existir em um documento XML, eles são considerados como nós separados; textos – são cadeias de caracteres que podem compor o conteúdo de um elemento; comentários – são notas no documento que não são interpretadas pelo processador de XML; 39 instruções de processamento – são indicações para o processamento do documento XML por uma aplicação de informática específica; namespaces – os documentos XML podem conter elementos e atributos de diferentes vocabulários, nesses casos, para especificar de qual vocabulário provém cada elemento ou atributo, são adicionados prefixos de namespaces aos seus nomes; um namespace representa um grupo de elementos e atributos que compõem o vocabulário de uma linguagem de marcação, assim, o prefixo de namespace é uma cadeia de caracteres que precede o nome do elemento ou do atributo indicando a qual namespace ele pertence; raiz – é um ponto abstrato acima do elemento do documento que abrange todo o documento (RAY, 2001). O documento da Figura 8 utiliza a linguagem de marcação Agenda, criada apenas para o propósito de exemplificação nesta pesquisa. A linguagem Agenda compreende os elementos agenda, contato, nome, email, telefone, endereco, rua, numero, CEP e cidade e seus atributos (tipo e estado), as regras sobre sua localização, sobre seu número mínimo ou máximo de ocorrência e sobre seu conteúdo, entre outros. Algumas dessas regras são: o elemento contato pode ocorrer quantas vezes for necessário dentro do elemento agenda; cidade pode ocorrer somente dentro do endereco e uma única vez; o conteúdo de cada telefone deve conter dez dígitos numéricos, etc. No documento da Figura 8 nada impediria, por exemplo, que fosse acrescido após o elemento telefone o elemento ISBN, de forma semelhante, nada impediria que, dentro do endereco, fossem adicionados dois elementos cidade. Esses acréscimos não tornariam o documento mal formado, uma vez que estariam de acordo com as restrições sintáticas da XML, no entanto, o tornaria inválido em relação à linguagem Agenda, uma vez que ela não permite a existência de um ISBN e nem a existência, dentro de um endereco, de mais de um elemento cidade. Assim como o processamento, a validação de documentos XML é desempenhada por aplicações de informática, o que requer a especificação das linguagens de marcação (seus elementos, as regras sobre sua localização, etc.) de modo processável por essas aplicações. O processo de especificação de uma linguagem de marcação é chamado de modelagem de documentos (RAY, 2001, p. 6), sendo que distintas tecnologias podem ser utilizadas para representar o resultado dessa modelagem. 40 Uma dessas tecnologias é a Document Type Definition (DTD) (Definição de Tipo de Documento), que compreende “regras ou declarações que especificam quais tags8 podem ser usadas e o que podem conter” (RAY, 2001, p. 6). Originalmente, as DTDs foram criadas para validar documentos SGML, no entanto, passaram a ser utilizadas também para a validação de documentos XML, embora ainda preservem características da SGML. Ou seja, uma DTD é um documento que contém especificações sobre uma linguagem para a marcação de documentos XML, no entanto, uma DTD não é um documento XML. Como uma alternativa ao uso de DTDs, o W3C aprovou em 2001 a linguagem XML Schema, também utilizada para a especificação de linguagens de marcação. Essa linguagem, além de prover maiores possibilidades que a DTD, foi projetada para e seguindo a XML. Assim, um esquema XML, ou seja, um documento que especifica uma linguagem de marcação construído com a XML Schema, é também um documento XML, podendo fazer uso das mesmas ferramentas utilizadas na criação e na edição de documentos XML, o que é visto como uma vantagem da utilização de esquemas XML em vez de DTDs (RAY, 2001, p. 7). Segundo o W3C (2012a, tradução nossa), os “esquemas XML expressam vocabulários9 compartilhados e permitem que máquinas executem regras feitas por pessoas. Eles provêm meios para definir a estrutura, o conteúdo e a semântica de documentos XML”. Os esquemas XML “também apresentam uma verificação mais poderosa quanto ao tipo de dados, permitindo a descoberta de erros no conteúdo e também no uso das tags” (RAY, 2001, p. 7). Para Tidwell (2008, p. 8), tanto a DTD quanto a XML Schema são metalinguagens que permitem a definição das características de um vocabulário XML. Após a confrontação de um documento XML com a especificação da linguagem nele utilizada, diz-se que o documento é válido, se está de acordo com a linguagem, ou inválido, se não está de acordo. Cabe notar que a especificação da linguagem de marcação por meio de uma DTD ou de um esquema XML e a validação dos documentos XML não são ações obrigatórias ao uso da XML, embora garantam a adequação do documento aos propósitos para os quais ele foi criado. Por serem arquivos de texto, os documentos XML podem ser criados e editados em simples editores de texto, por exemplo, no aplicativo Bloco de notas que acompanha as diferentes versões do sistema operacional Microsoft Windows. Existem também editores de 8 Nessa citação o termo “tags” é utilizado como sinônimo de “elementos”. 9 Um vocabulário, como descrito pelo W3C, é entendido como o conjunto de termos de uma linguagem de marcação. 41 texto livres e gratuitos que oferecem maiores possibilidades que o Bloco de notas na criação e na edição de documentos XML, como é caso do Notepad++10. No entanto, esses editores de texto nem sempre estão aprimorados para trabalhar com documentos XML e podem não possibilitar a validação ou a transformação (abordada na seção seguinte) desses documentos. Para suprir essa necessidade, existem aplicações direcionadas e otimizadas para a criação e a edição de documentos XML, são algumas dessas aplicações: Liquid XML Studio, Oxygen XML Editor, Stylus Studio, XML Notepad, XMLBlueprint e XMLSpy.11 A XML tem sido objeto de diversos estudos na Ciência da Informação, inclusive no cenário nacional. Desse modo, não será conduzida nesta pesquisa uma extensa apresentação sobre suas possibilidades de uso e seus aspectos técnicos. Santos e Flamino (2004, p. 128) atentam para o fato de que “são as tecnologias associadas a XML que ampliam seu potencial”. A DTD e a XML Schema são apenas duas dessas tecnologias. Enquanto essas tecnologias destinam-se à validação de documentos, outras tecnologias foram criadas para atender a outros propósitos. A linguagem Extensible Stylesheet Language for Transformation (XSLT), tecnologia criada para a transformação de documentos XML e que possui um papel de destaque no modelo para a conversão de registros proposto nesta pesquisa, é apresentada na seção seguinte. 3.2 Transformação de documentos XML: folhas de estilo XSLT Uma das características da XML é a diferenciação de estrutura e conteúdo do documento da sua apresentação (EITO BRUN, 2008, p. 89). A XML lida com a estruturação do conteúdo, ao passo que sua apresentação fica a cargo de outras tecnologias: as folhas de estilo (stylesheets). Em linhas gerais, uma folha de estilo é um conjunto de regras para a apresentação de um documento XML de modo a atender uma dada necessidade. Para Eito Brun (2008, p. 90), as folhas de estilo permitem gerar múltiplas apresentações para um mesmo conteúdo. Segundo o autor, “se associamos um documento XML a distintas folhas de estilo, sua apresentação na tela ou impressa mudará, sem a necessidade de realizar alterações no próprio documento” (EITO BRUN, 2008, p. 90, tradução nossa). Ou seja, por meio de folhas de estilo é possível, por exemplo, fazer com que 10 O Notepad++ é um aplicativo livre e gratuito. Requer a instalação de um complemento (plugin) para executar a validação e a transformação de documentos XML. Mais informações podem ser obtidas em: . 11 Uma comparação entre alguns dos editores XML pode ser consultada em . Acesso em: 11 ago. 2013. 42 um determinado documento XML seja apresentado em um telefone celular de modo diferente do modo como é apresentado em um computador desktop. Podem ser criadas também uma apresentação para um tablet e uma versão para a impressão, sem que seja necessário alterar o documento XML original. Atualmente, o W3C possui especificações de três linguagens para a criação de folhas de estilo. A primeira delas é a Cascading Style Sheets (CSS) (Folhas de Estilo em Cascata), que define as propriedades de um elemento de marcação e que, embora possa ser utilizada em documentos XML, é mais frequentemente utilizada para definir os estilos em um documento HTML. As propriedades da CSS podem ser usadas para definir, por exemplo, que o conteúdo de um determinado elemento será apresentado em azul, com uma fonte de tamanho 58 ou em negrito (TIDWELL, 2008, p. 1-2). A segunda linguagem é a Extensible Stylesheet Language for Transformation (XSLT) (Linguagem Extensível para Folhas de Estilo de Transformação), criada para ser uma linguagem mais poderosa e flexível para a transformação de documentos XML (TIDWELL, 2008, p. 2). A especificação mais recente da XSLT (W3C, 2007) define, entre outros, um conjunto de elementos e atributos para a criação de regras de transformação que, em folhas de estilo, são utilizadas principalmente para transformar documentos XML em documentos HTML, visando sua apresentação em browsers, e para transformar documentos XML criados com uma linguagem de marcação em documentos de acordo com outra linguagem de marcação. A terceira linguagem é a Extensible Stylesheet Language (XSL) (Linguagem Extensível para Folhas de Estilo), conhecida também como Formatting Objects (XSL-FO) (Formatação de Objetos), que lida com a transformação de documentos XML. Normalmente está associada à criação de documentos para exibição em browsers ou para a impressão, e de documentos paginados, por exemplo, documentos em Portable Document Format (PDF). No entanto, é utilizada também para transformar documentos XML como documentos em Braille ou como arquivos de áudio (EITO BRUN, 2008, p. 90; TIDWELL, 2008, p. 18).12 Entre as três linguagens para a criação de folhas de estilo, a presente pesquisa focará apenas na XSLT, pois, por possibilitar a transformação de documentos XML criados com uma linguagem de marcação em documentos de acordo com outra linguagem de marcação, a XSLT desempenha um papel de destaque na elaboração do modelo para a conversão de registros, principal objetivo desta pesquisa. 12 O nome Extensible Stylesheet Language é também utilizado para denominar a família de linguagens para folhas de estilo que inclui a XSLT e a XSL-FO. 43 A primeira versão da XSLT foi publicada pelo W3C em 1999 (W3C, 1999). Em 2007 foi publicada a versão 2.0 (W3C, 2007), trazendo um conjunto maior de funções para a construção das