JACQUELIN TERESA CAMPEROS REYES METADADOS NAS INSTRUÇÕES DE GOVERNOS PARA PUBLICADORES DE DADOS Marília 2018 Universidade Estadual Paulista “Júlio de Mesquita Filho” Faculdade de Filosofia e Ciências Campus de Marília JACQUELIN TERESA CAMPEROS REYES METADADOS NAS INSTRUÇÕES DE GOVERNOS PARA PUBLICADORES DE DADOS Dissertação apresentada ao Programa de Pós- graduação em Ciência da Informação do Departamento de Ciência da Informação da Universidade Estadual Paulista Faculdade de Filosofia e Ciências como requisito para a obtenção do título de Mestre em Ciência da Informação. Linha de Pesquisa: Informação e Tecnologia Orientador: Dr. Ricardo César Gonçalves Sant´Ana Marília 2018 Universidade Estadual Paulista “Júlio de Mesquita Filho” Faculdade de Filosofia e Ciências Campus de Marília Camperos Reyes, Jacquelin Teresa. C195m Metadados nas instruções de governos para publicadores de dados / Jacquelin Teresa Camperos Reyes. – Marília, 2018. 102 f. ; 30 cm. Orientador: Ricardo César Gonçalves Sant’Ana. Dissertação (Mestrado em Ciência da Informação) – Universidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, 2018. Bibliografia: f. 96-102 1. Transparência na administração pública. 2. Metadados - Brasil. 3. Metadados - Colômbia. 4. Metadados – Portugal. 5. Metadados – Espanha. 6. Tecnologia da informação. I. Título. CDD 005.72 Ficha catalográfica elaborada por André Sávio Craveiro Bueno Bibliotecário CRB 8/8211 JACQUELIN TERESA CAMPEROS REYES METADADOS NAS INSTRUÇÕES DE GOVERNOS PARA PUBLICADORES DE DADOS Dissertação apresentada ao Programa de Pós−Graduação em Ciência da Informação, como parte dos requisitos para a obtenção do título de Mestre em Ciência da Informação. Linha de Pesquisa: Informação e Tecnologia. Data de defesa: 29/01/2018 Banca Examinadora: Prof. Dr. Ricardo César Gonçalves Sant’Ana (UNESP/Marília) Livre-docente em Sistemas de Informação Gerenciais (orientador) Profa. Dra. Plácida L.V. A. da Costa Santos (UNESP/Marília) Doutorado em Letras (Linguística e Semiótica) Prof. Dr. Cristian Berrío Zapata (UFPA/Belém) Doutorado em Ciência da Informação Realmente, con mi humanidad, utilizando el absolutismo del NUNCA, nunca, hubiese siquiera comenzado este desafío personal y académico. Por eso, esta conquista la dedico al ser que me brindó la posibilidad de hacerlo: Dios. El Ser que Es, que no tiene y no va tener explicación científica, y que permite que sus hijos humanos se debrucen en otra hija, la ciencia. AGRADECIMENTOS A César, mi esposo, porque su sí ante este sueño académico y ante tantos otros, me ayudan a entender un significado más del amor. A mis queridos padres, Rafael y Mery, por siempre creer en mí y por ser mis modelos de fortaleza, tenacidad y honestidad. A María Juliana, mi hija, por enseñarme sobre valentía y portugués. A Juan Diego, mi hijo, por mostrarme que la esperanza ayuda a nacer las ideas y por recordarme la importancia de sonreír. A mis queridos hermanos, Freddy, Nataly y Jhonatan, porque recibí su amor en la distancia y con sus alegres conversas, sin ellos saberlo me animaban. Y gracias por las fotos semanales de Salomé, Angel, Massimiliano, Adrian e Isaac. Ellas extendían mi batería diaria. A mis suegros, Luis Eduardo y Emperatriz, porque confiaron en mí, y me enseñaron que los sacrificios con amor saben mejor. A Doris, cuñada, por apoyarme confiando sin dudar, y con sus visitas a Brasil. A Juan Carlos y a Edgar Eduardo ‘Kini’, por animarme con cariño en la certeza que da la academia. A mis cuñados Alexa, Sonia, Gloria, Julián, Edgar y Erika, por contribuir con pequeñas dichas que nacen en sus lindas familias. A las tías Nancy Reyes, Celina Bustos, Josefa Bustos y Stella Angarita porque no dejaron un día de orar por todos nosotros. A Alonso Yáñez y Janeth Castro por animarnos y enseñarnos a tener calma ante todos los desafíos que estábamos viviendo. Al profesor Ricardo Sant’Ana por interesarse en mi proyecto de investigación, por mantener la permanentemente reflexión tanto académica como ética, y, por obligarme a escribir en portugués desde el comienzo de esta etapa. A la profesora Plácida Santos por inspirarme no solamente el desarrollo de mis capacidades académicas y profesionales, además, por dar aulas tácitas sobre fortaleza y confianza en el Señor Dios. A la profesora Raquel Alves, por abrazar la montaña de incertezas que percibí al comenzar la maestría. A la profesora Silvana Vidotti por mostrarme con nobleza el significado de ser acogedor y afectuoso. A la profesora Ângela Grossi de Carvalho, porque de ella escuché por primera vez en aula, que los alumnos de un programa de post-graduación somos ante todo humanos, y por ayudarme en la reflexión que definió mis intereses de investigación. A Cristian Berrio, por orientarme en mi llegada a la Unesp, y por los aportes al desarrollo de esta investigación. Al profesor Rogério Ramalho por sus pertinentes observaciones en la banca de cualificación de esta pesquisa. A los profesores Zaira Zafalón, Eduardo Santarém, Fernando Vechiatto, Henry Poncio, Daniel Martínez Ávila y José Augusto Chaves Guimarães, por ayudarme a descubrir poco a poco cada camino posible de pesquisa. A Sandra Roa y Kamilo Garreta por tener fe en nosotros, confiar en lo desconocido, abrir su hogar, y después, acompañarnos a “matar saudades” de comidas colombianas. A los amigos Caio Coneglian, Ana Maria Ferreira, Edgar Bisset y Paloma Arraiza por ser las primeras personas que me motivaron a responder con certeza que sí estaba “Gostando do Brasil”, y por ayudarme a recordar que en la vida universitaria se sufre, pero también se goza. A Diana Aleixo, Elaine Affonso, Elizabete Monteiro y Cristina Nagai, por entender con total precisión lo que estaba pasando por mi cabeza cuando pedía auxilio y me sentía caer en los intentos. Sufrimos juntas el dolor de la academia, pero el amor recibido en familia y con los amigos, sustentó y permitió que la perseverancia no se cansara. A Felipe Arakaki, por escuchar y entender mis primeros lamentos académicos, y por abrir tanto su amabilidad como los archivos que contenían los textos que estaba precisando conocer. A Maira Nani, por tener un corazón tan amplio y fuerte que se sale a veces del pecho y hace mover las manos para comenzar a cocinar con amor y ternura. A Luiza Romanetto, Juliano Ferreira, Ilidio Lobato y Luiz Galeffi por nuestras conversas sobre aspectos más importantes que los que nos asaltaban por las noches de la vida académica: el amor, el cine, la música y las mascotas. A Liliana Serra, por abrir su corazón y enseñarme que así pasemos por situaciones que sean difíciles, la vida es bella, y vale la pena luchar. A todos los demás familiares y amigos que desde Colombia torcieron para que esta etapa fuera provechosa para nosotros como de hecho lo está siendo. A la OEA por el financiamiento de esta pesquisa. A las comunidades del Camino Neocatecumenal, tanto de Colombia como de Brasil que nos acogieron con tanto cariño y colaboración. Nos han mostrado tantos rostros de Dios que no sabíamos que era posible conocer. A María de Nazareth, mi maestra del sacrificio silencioso. A Jesús de Nazareth por ser y estar, por, a pesar de lo que soy, mediar mi salvación, por enseñarme acerca de la nobleza de corazón, y por aumentar mi fe en su Divino Padre. A Dios, por permitir todo lo anterior. “La tarea de un hombre […] es no aflojar el propio ánimo en la consideración de las cosas celestiales y transitar sin inquietarse entre las múltiples preocupaciones, no como un tonto, sino con la prerrogativa de un alma libre que no tiene afecto desordenado a ninguna criatura”. Tomás de Kempis RESUMO Gerar valor para a sociedade a partir da abundância de dados governamentais tornou-se imperativo nas estratégias de disponibilização de dados que estão sendo publicados por meio de conjuntos de dados ou datasets. Os datasets, dados tabulados com certa estrutura, constituem um exemplo de reunião de bases de dados que pretendem obter sucesso erguendo-se como catálogos centrais do ponto de vista dos cidadãos, ampliando a visibilidade sobre e das ações da gestão pública. Atingir a estruturação desses recursos informacionais, de forma que auxilie na sua revalorização, é um dos desafios da Ciência da Informação. A questão de investigação é: Como está sendo abordada a aderência ao uso de metadados nas instruções entregues aos publicadores de dados em governos? O objetivo é descrever a aderência ao uso de metadados nos datasets de governos de países, tomando como base o contexto e o marco conceitual apresentados nas instruções para publicadores de dados, encontradas nos sites de dados abertos oficiais dos países analisados. Acredita-se que estudos como este podem fornecer elementos que atuem como subsídios para as estratégias governamentais, atendendo dimensões sociais a partir dos profissionais da informação. Trata-se de pesquisa descritiva, de natureza qualitativa, focada na observação crítica dos documentos que abordam o tratamento descritivo dos datasets governamentais. Utilizam-se como procedimentos a análise bibliográfica e documental, e a definição de estudos de caso nos países Colômbia, Brasil, Espanha e Portugal, abordando o volume de dados e informações mediante a técnica de análise de conteúdo. Percebe-se o esforço realizado pelos detentores dos documentos disponibilizados nos quatro países analisados pela ampla abordagem de conteúdo temático relacionado com o uso experimental dos metadados, dando assim maior importância ao aspecto prático em relação ao teórico, sem desconsiderar a relevância das explanações teóricas. Acredita-se na importância da criação e implementação de perfis de aplicação entre comunidades de países, como o caso do DCAT-AP, criado e recomendado pela comunidade europeia de nações e sugerido pelos sites de dados dos países estudados. Admitem-se inquietações referentes aos processos de publicação de dados de governo e suas relações com outros tópicos de interesse socioeconômico, tais como possíveis vínculos com indicadores de desenvolvimento em países e regiões, sob o prisma de pesquisas originadas a partir da Ciência da Informação. Palavras-chave: Metadados. Representação de dados. Dados governo. Instruções para publicação de dados. Publicadores de dados. Datasets. Colômbia. Brasil. Espanha. Portugal. ABSTRACT Generating value to society from the abundance of government data, has become imperative in the strategies of data availability that are being published through datasets. The datasets, tabulated data with a certain structure, are an example of a meeting of databases that aim to be successful setting up as central catalogs from the point of view of the citizens, increasing the visibility on and of the actions of the public management. Accomplishing the structuring of these informational resources, so that this helps in their revaluation, is one of the challenges of Information Science. The research question is: How is the adherence to the use of metadata in the instructions given to data publishers in South American governments being addressed? The objective is to describe the adherence to the use of metadata in the datasets of governments of South American countries, based on the context and conceptual framework presented in the instructions for data publishers, found on the official open data sites of the analyzed countries. It is believed that studies such as this one can provide elements that act as subsidies for government strategies, addressing social dimensions deriving out of the information professionals. It is a descriptive research, of qualitative nature, focused on the critical observation of the documents that approach the descriptive treatment of the governmental datasets. Bibliographic and documentary analyses are used as methodological procedures, and the definition of case studies in the countries Colombia, Brazil, Spain and Portugal, addressing the volume of data and information through the technique of content analysis. The effort made by the holders of the documents available in the four analyzed countries by the broad thematic content related to the experimental use of the metadata is noticed, thus giving greater importance to the practical aspect in relation to the theoretical, without disregarding the relevance of the theoretical explanations. It is believed that creating and implementing application profiles among communities of countries, such as the DCAT-AP, created and recommended by the European community of nations and suggested by the data sites of the analyzed countries, is important. Concerns referent to the publication processes of government data and their relations with other topics of socio-economic interest are admitted, such as possible linkages with indicators of development in countries and regions, under the prism of research originated from the Information Science. Keywords: Metadata. Data representation. Government data. Instructions for data publishing. Data publishers. Datasets. Colombia. Brazil. Spain. Portugal. LISTA DE QUADROS Quadro 1 – Sites de dados como pontos de entrada dos estudos de caso ............................................. 30 Quadro 2 – Caracterização do material da análise .......................................................................................... 35 Quadro 3 – Síntese da técnica a aplicar na pesquisa ...................................................................................... 36 Quadro 4 – Caracterização do corpus da pesquisa .......................................................................................... 68 Quadro 5 – Resumo de intensidades nas categorias ....................................................................................... 90 LISTA DE FIGURAS Figura 1 – Caraterísticas de importância no acesso a dados publicados por governos ................... 21 Figura 2 – Elementos do contexto e foco da pesquisa .................................................................................... 23 Figura 3 – Esquema geral da pesquisa .................................................................................................................. 26 Figura 4 – Fluxograma descoberta de recursos na fase de pré-análise .................................................. 29 Figura 5 – OURDATA Index do estudo .................................................................................................................. 39 Figura 6 – Esquema gráfico básico do Dublin Core ......................................................................................... 53 Figura 7 – Modelo de dados do DCAT (Colômbia) ........................................................................................... 56 Figura 8 – Dados gerais da coleta ........................................................................................................................... 64 Figura 9 – Peso por país no total ............................................................................................................................. 65 Figura 10 – Gênese de cada site de dados abertos de governo .................................................................. 66 Figura 11 – Apresentação sintética da caraterização do corpus da pesquisa Colômbia ................. 74 Figura 12 – Apresentação sintética da caraterização do corpus da pesquisa Brasil ......................... 81 Figura 13 – Apresentação sintética da caraterização do corpus da pesquisa Espanha ................... 84 Figura 14 – Modelo de dados do DCAT (Espanha) .......................................................................................... 85 Figura 15 – Apresentação sintética da caraterização do corpus da pesquisa Portugal ................... 89 Figura 16 – Estados na evolução do modelo de metadados ........................................................................ 89 Figura 17 – Ocorrências das categorias com os níveis de intensidade ................................................... 91 LISTA DE ABREVIATURAS E SIGLAS ABRAJI Associação Brasileira de Jornalismo Investigativo BID Banco Interamericano de Desenvolvimento CERN European Organization for Nuclear Research CKAN Comprehensive Knowledge Archive Network CPCSAE Comisión Permanente del Consejo Superior de Administración Electrónica CSAE Consejo Superior de Administración Electrónica DANE Departamento Administrativo Nacional de Estadística DARPA Defense Advanced Research Project Agency DC Dublin Core DCAT Data Catalog Vocabulary DCAT–AP Data Catalog Vocabulary Application Profile DCAP Dublin Core Application Profile DCMES Dublin Core Metadata Element Set DCMI Dublin Core Metadata Initiatives DCMI-TERMS Metadata Terms DERI Digital Enterprise Research Institute EPMG Padrão de Metadados para o Governo Eletrônico FOAF Friend of a Friend GLD Government Linked Data GODAN Global Open Data for Agriculture & Nutrition IBGE Instituto Brasileiro de Geografia e Estatística IODC International Open Data Conference MINTIC Ministerio de Tecnologías de la Información y las Comunicaciones MNU Metadados No Uso MT Metadados Teoria NISO National Information Standards Organization OCDE Organização para a Cooperação e Desenvolvimento Económico OGP Open Government Partnership OKFN Open Knowledge Foundation OKI Open Knowledge International RDF Resource Description Framework SKOS Simple Knowledge Organization System TIC Tecnologias da Informação e Comunicação VCGE Vocabulário Controlado do Governo Eletrônico W3C World Wide Web Consortium SUMÁRIO 1 INTRODUÇÃO ............................................................................................................................... 19 1.1 Objetivos da dissertação .......................................................................................................... 22 1.1.1 Objetivo geral ...................................................................................................................................... 22 1.1.2 Objetivos específicos ........................................................................................................................ 22 1.2 Justificativa ............................................................................................................................... 24 1.3 Metodologia .............................................................................................................................. 25 1.3.1 Fase de pré-análise ............................................................................................................................ 28 1.3.2 Fase da exploração do material .................................................................................................... 31 1.3.3 Fase de tratamento dos resultados ............................................................................................. 36 1.3.4 Síntese da técnica a ser aplicada .................................................................................................. 36 1.4 Por que a escolha da Colômbia como pré-teste? ......................................................... 37 1.5 Colômbia, Brasil, Espanha e Portugal ............................................................................. 38 2 DEMARCAÇÃO DA REPRESENTAÇÃO DE RECURSOS INFORMACIONAIS ................. 41 2.1 Dado e seu peso na representação ................................................................................... 43 3 DADOS ABERTOS NO ÂMBITO GOVERNAMENTAL ......................................................... 45 3.1 Iniciativas estratégicas para o fomento da abertura de dados governamentais .............................................................................................................................................................. 47 3.2 Plataformas como opções pró-implementação de sites de dados abertos governamentais ............................................................................................................................. 49 4 MECANISMOS DE REPRESENTAÇÃO NO CONTEXTO WEB ............................................ 52 4.1 Dublin Core ............................................................................................................................... 52 4.2 O Friend of a Friend ............................................................................................................... 54 4.3 Simple Knowledge Organization System ....................................................................... 54 4.4 Data Catalog Vocabulary ...................................................................................................... 55 4.5 GEONAMES ................................................................................................................................ 56 4.6 Desenvolvimento de perfil de aplicação ........................................................................ 57 5 RELATO DOS ESTUDOS DE CASO ........................................................................................... 60 5.1 Resultados da fase pré-análise .......................................................................................... 60 5.1.1 Colômbia ................................................................................................................................................ 60 5.1.2 Brasil ....................................................................................................................................................... 61 5.1.3 Espanha ................................................................................................................................................. 62 5.1.4 Portugal ................................................................................................................................................. 63 5.1.5 Dados gerais na coleta do corpus ................................................................................................ 63 5.2 Resultados da exploração do material ........................................................................... 66 5.3 Tratamento dos resultados ................................................................................................ 73 5.3.1 Colômbia ................................................................................................................................................ 73 5.3.2 Brasil............. .......................................................................................................................................... 80 5.3.3 Espanha ................................................................................................................................................. 83 5.3.4 Portugal ................................................................................................................................................. 88 5.3.5 Inferências no grupo de países ..................................................................................................... 90 6 CONSIDERAÇÕES ........................................................................................................................ 93 REFERÊNCIAS .................................................................................................................................. 96 19 1 INTRODUÇÃO Gerar valor para a sociedade a partir da abundância de dados, neste caso de estudo, dados governamentais, tornou-se imperativo nas estratégias de disponibilização de dados que estão sendo publicados por meio de conjuntos de dados ou datasets. Um dos desafios da Ciência da Informação é transformar essa abundância de dados de modo que permitam além da tomada de decisões, acrescentar valor nas atividades de um determinado negócio (SANTOS, 2010). Assim faz-se necessário considerar a estruturação desses recursos informacionais, dados de governo, como um processo basilar na busca da ampliação e eficiência no acesso e uso desses dados. McGarry (1999) assevera que os recursos informacionais devem ser estruturados de alguma forma para evitar o seu amorfismo e sua inutilidade. Para ele “A informação deve ser representada para nós de alguma forma e transmitida por algum tipo de canal” (McGARRY, 1999, p. 11). Para Sant´Ana (2013) diante da demanda do excesso de oferta nos fluxos informacionais digitais, a tomada de decisão no desenvolvimento de meios inovadores de representação desses conteúdos, contribuem com a recuperação e acesso a esses recursos informacionais, coadjuvando na condição primária de convivência e de sobrevivência do fortalecimento das capacidades humano-informacionais. Os datasets são dados tabulados com certa estrutura. Para a comunidade Schema.org, conhecida como uma atividade colaborativa que visa promover, criar e manter esquemas para dados na internet, os datasets são uma coleção de recursos informacionais estruturados que “[...] descrevem um ou vários temas de interesse" (SCHEMA, 2017, tradução nossa). O caso dos datasets governamentais constitui um exemplo de reunião de bases de dados que pretendem obter sucesso estruturando-se como catálogos centrais a partir do ponto de vista dos cidadãos, ampliando a visibilidade sobre e das ações da gestão pública, e como "[...] uma forma inteligente de medir e monitorar a saúde das bases públicas disponíveis para a sociedade" (SÃO PAULO, 2015, p. 43). Conforme Sant’Ana (2009) indica, as Tecnologias da Informação e Comunicação (TIC) podem ser observadas a partir de dois pontos segundo seu uso nas organizações públicas: para uso interno e para uso externo. O uso interno, faz referência ao uso das TIC em processos internos da administração pública e suas organizações. O uso externo 20 corresponde à utilização das TIC como apoio das relações estabelecidas entre essas organizações e outras chamadas externas, que podem ser individuais (pessoas ou organizações), ou em grupos (indivíduos ou organizações). Assim, os datasets, objeto deste estudo, encaixam-se no contexto do uso externo das TIC, por corresponderem em conjuntos de dados que estão sendo visíveis à sociedade geral, não incluindo aqueles conjuntos de dados com dados internos dos governos, ou das instâncias deles. Considerando a representação da informação, quanto estruturação de recursos informacionais, Santos (2017) assevera que a correta representação que possibilita e simplifica a busca e a recuperação desses recursos informacionais, configura-se "[...] como uma das especificidades do fazer da ciência da informação e uma atividade imprescindível no armazenamento, no acesso e na recuperação de informações e de recursos” (SANTOS, 2017, p. 2). Segundo Santos (2010), uma das características potenciais do ciberespaço, que aglomera ambientes informacionais dinâmicos, é a revalorização dos metadados para a construção de um saber coletivo na representação dos recursos informacionais. Encontram-se nesse contexto os datasets que estão, assim, sendo focados com o intuito de aproveitar ao máximo seus conteúdos, isto é, dados disponibilizados por governos. Interessados em países com economias em desenvolvimento, Verhulst e Young (2017, destaque nosso) elencam seis características como distintivas, que demarcam a importância no acesso e uso de dados publicados a partir de governos, ilustrados ainda na Figura 1: a) possibilidade de escrutínio pela sociedade; b) igualdade na distribuição da informação; c) flexibilidade nos formatos de apresentação para a posterior utilização; d) amplo alcance de participação, tanto interna quanto na tomada de experiências fora do contexto regional; e) aumento da confiança por parte do grupo social representado pelo governo; e f) amplificação do valor dos dados. 21 Figura 1 – Caraterísticas de importância no acesso a dados publicados por governos Fonte: Adaptado de Verlhust e Young (2017). Para eles esses seis elementos têm uma qualidade similar de importância no concernente a economias em desenvolvimento, por isso a ilustração em um mesmo nível hierárquico. Nesse contexto, esta dissertação centra a atenção na seguinte inquietação: Como está sendo abordada a aderência ao uso de metadados nas instruções entregues a publicadores de dados em governos? Segundo Saracevic (1996) o imperativo tecnológico da Ciência da Informação, faz com que ela seja partícipe da transformação da sociedade moderna em sociedade da informação, considerando sua forte dimensão social e humana, a qual ultrapassa a tecnologia. Acredita-se que estudos como este, emergidos a partir da Ciência da Informação, focados no acompanhamento de processos de publicação de dados, podem fornecer elementos que atuem como subsídios para as estratégias governamentais, atendendo as dimensões indicadas pelo autor supracitado, a partir de uma interseção que pode ser proveitosa tanto para a comunidade científica, quanto para os órgãos oficiais responsáveis pela publicação de dados. Espera-se contribuir então, no fortalecimento da Ciência da Informação, como asseverado por Borko (1968), ao investigar as propriedades e fluxos da informação, relacionadas aos dados governamentais, junto às forças que governam esses fluxos, emergidas a partir dos mesmos governos, buscando otimizar o armazenamento, recuperação e disseminação da informação. 22 1.1 Objetivos da dissertação Nesta seção são apresentados o objetivo geral e os objetivos específicos da pesquisa. 1.1.1 Objetivo geral Descrever a aderência ao uso de metadados nos datasets de governos de países, tomando como base o contexto e o marco conceitual apresentados nas instruções para publicadores de dados, encontradas nos sites de dados abertos oficiais dos países analisados. 1.1.2 Objetivos específicos a) Identificar o referencial teórico que sustenta a proposta desta pesquisa, no que se refere à descrição de datasets de governos como recursos informacionais; b) recuperar e analisar documentos em sites oficiais que abordam o uso de metadados para a descrição de datasets a serem publicados nos sites de dados governamentais; c) realizar análise de conteúdo categorizando as informações encontradas nas instruções recuperadas; e, d) explanar o resultado dos estudos de caso desenvolvidos em cada site de dados de governo. Com o fim de contribuir com a elucidação e delimitação da pesquisa, foi concebida a Figura 2, a qual apresenta graficamente os elementos do contexto e do foco deste trabalho investigativo. 23 Figura 2 – Elementos do contexto e foco da pesquisa Fonte: Elaborado pela autora. Percebe-se nesta figura a ilustração da interseção entre o âmbito governamental e a sociedade em geral, na observância dos dados governamentais, especificamente na dimensão externa, obtendo as fontes de informação a partir de sites oficiais, que além de permitir a publicação dos datasets, disponibilizam documentos de apoio e instruções para quem quer publicar dados nesses sites. A Figura 2 expõe o fluxo e as relações existentes entre esses ativos informacionais, datasets, e atores de governo, que nesta pesquisa são os publicadores de dados, e, a sociedade. Nesse cenário, espera-se recuperar instruções disponibilizadas pelo governo aos publicadores de dados e, a partir deste ponto, distinguir aquelas que especificamente atingem a descrição de datasets. No caso dos atores publicadores de dados quanto da sociedade, representam-se com diversos desenhos, salientando que os membros desses grupos são de natureza heterogênea, mesmo que alguns membros estejam dentro do governo e os outros unicamente do lado da sociedade mantêm-se essa heterogeneidade. 24 O desenvolvimento desta dissertação tem como foco o conteúdo de documentos de apoio que estão disponibilizados nos sites de dados abertos em países da América do Sul e da Europa, os quais poderiam conter as devidas instruções para a publicação de datasets, nos atentando no relacionado ao uso de metadados dentro do processo descritivo desses recursos informacionais. Acredita-se que uma interseção entre governo e sociedade se dá mediante os datasets e os metadados que descrevem esses recursos informacionais, marcando assim a conjuntura de interesse no desenvolvimento desta pesquisa. 1.2 Justificativa Nesta contemporaneidade, profissionais de diversas áreas do conhecimento, neste caso da Ciência da Informação, que pesquisam realidades regionais ou de grupos sociais ligados mediante características que os fazem similares, são requeridos de maneira que possam enlaçar a comunidade acadêmica e científica ao desenvolvimento e crescimento integral da sociedade. Acredita-se, como indicado no estudo do Verhulst e Young (2017), na contribuição que a abertura dos governos tem trazido em casos específicos, a qual não somente pode ser assinalada como apoio na melhora dos índices de transparência dos aparelhos dos Estados. Há outros pontos de referência que tem a ver diretamente com o aprimoramento na qualidade de vida e da economia, situação que norteia o desenvolvimento desta pesquisa ao motivá-la e fundamentá-la com sentido altruísta, fundado a partir da comunidade científica, porém, visando a realidade que não pode ser alheia ao desenvolvimento deste grupo acadêmico que pertence de fato às ciências sociais aplicadas. Espera-se com este estudo contribuir, concomitante com tantos outros como o de Gurstein (2007), no que diz respeito às condições de acesso as TIC, as quais podem fazer, ou não, com que elas sejam usáveis e úteis para a população. O Gurstein discorre no âmbito de comunidades particularmente distantes ou excluídas no uso das TIC, bem como grupos de indivíduos comuns no meio da heterogeneidade inata, salientando a possibilidade de desenvolver novas formas que permitam uma maior aproximação a sistemas de informação, procurando a diminuição da distância entre elas e a possibilidade do desenvolvimento econômico local, as condições de justiça social e o empoderamento político. 25 Este estudo pretende aproximar o desenvolvimento acadêmico à realidade de países com similaridades sociais, econômicas, históricas e tecnológicas, visando a melhoria no contexto de publicação de ativos informacionais, como os dados abertos governamentais. Neste sentido, sintetizam-se as seguintes relevâncias: a) científica: ao afirmar o objeto social e prático da Ciência da Informação, Ciência Social Aplicada, criando subsídios alicerçados nela, dentro de entornos informacionais contemporâneos que brindam novas possibilidades e abrem horizontes a grupos sociais, bem como o empoderamento na retomada de ativos informacionais que per se lhes correspondam e b) social: na perspectiva do verdadeiro aproveitamento da conjuntura da publicação de recursos informacionais, os dados abertos em datasets governamentais, auxiliando para que a sociedade possa utilizar e reutilizar, enfim, apropriar-se de recursos informacionais que possuam valor para esse conglomerado social, como mais uma possibilidade que contribua com e para o seu desenvolvimento integral. 1.3 Metodologia Para atingir o objetivo desta pesquisa, que é de natureza qualitativa, focada na observação crítica dos documentos que abordam o tratamento descritivo dos datasets governamentais, adotou-se a pesquisa descritiva, com o intuito de caracterizar o panorama das instruções sugeridas por governos da América do Sul e da Europa aos publicadores de dados. Serão utilizados como procedimentos metodológicos a análise bibliográfica e documental, e a aplicação de estudos de caso por países – para assim delinear o cenário atual no que concerne à representação de recursos informacionais objeto desta pesquisa, datasets governamentais. Optou-se por aproximar o estudo de caso às pesquisas bibliográfica e documental, considerando que uns dos propósitos desse procedimento metodológico são a exploração de situações da vida real e a preservação do caráter unitário dos objetos da pesquisa (GIL, 2002). A Figura 3 apresenta o esquema geral da pesquisa, considerando a inquietação norteadora junto às relevâncias do projeto nas dimensões científica e social, bem como o 26 cruzamento dos procedimentos metodológicos junto aos conceitos-chave que orientam o processo. Figura 3 – Esquema geral da pesquisa Fonte: Elaborado pela autora. 27 Os conceitos chaves apresentados no elemento nuvem da figura, foram os tópicos que nortearam a construção do referencial teórico. O intuito do esquema foi auxiliar na guarda da coerência durante todo o processo de desenvolvimento da pesquisa, buscando assim a efetivação dos objetivos específicos e o foco na questão norteadora da dissertação. O volume de dados e informações obtido durante a realização dos procedimentos metodológicos foi abordado mediante a técnica de análise de conteúdo, aplicada nas fontes obtidas, baseando-se em que o processo de interpretação é fundamentalmente interativo, no qual “[...] o pesquisador elabora pouco a pouco uma explicação lógica do fenômeno ou da situação estudados, examinando as unidades de sentido, as inter-relações entre essas unidades e entre as categorias em que elas se encontram reunidas” (GIL, 2002, p. 90). Contando que no estudo de caso devem-se redobrar os cuidados tanto no planejamento quanto na coleta e análise dos dados (GIL, 2002), espera-se encontrar na análise de conteúdo o rigor científico desejado na consecução do objetivo geral da pesquisa. Os dois polos que segue a análise de conteúdo são o desejo de rigor na superação da incerteza e a necessidade de descobrir o conteúdo das mensagens, além das aparências. Considerando esses polos, são duas as funções que Bardin (2010, p. 31) apresenta a esse tipo de análise: a) a verificação prudente em função de uma administração da prova, onde uma possível consequência seja uma “afirmação”, mesmo que provisória: “A análise de conteúdo para servir de prova” e a b) função heurística, quanto interpretação dos conteúdos para “ver o que dá”. A autora supracitada conceitua a análise de conteúdo como um conjunto de técnicas de análise das comunicações visando obter por procedimentos sistemáticos e objetivos de descrição do conteúdo de mensagens indicadores (quantitativos ou não), que permitam a inferência de conhecimentos relativos às condições de produção/recepção (variáveis inferidas) destas mensagens (BARDIN, 2010, p. 44). O intuito é, após recuperação dos documentos que contém as indicações e estratégias dos governos alvo da pesquisa, desenvolver uma análise para inferir o 28 panorama com relação às estratégias que buscam a aderência de metadados nos datasets publicados no site de dados dos governos. O desenvolvimento da análise de conteúdo foi realizado conforme prescrito por Bardin (2010) nessas três fases cronológicas: Pré-análise → Exploração do material → Tratamento dos resultados A seguir, estão descritas cada uma das fases que compõem a análise de conteúdo realizada. 1.3.1 Fase de pré-análise De acordo com a proposta de Bardin (2010) no que diz respeito ao privilégio que têm os procedimentos exploratórios na fase de pré-análise, a Figura 4 ilustra o método que permite a descoberta dos recursos, documentos com as instruções para publicadores de dados governamentais, os quais vão compor o corpus desta pesquisa. 29 Figura 4 – Fluxograma descoberta de recursos na fase de pré-análise Fonte: Elaborado pela autora. No primeiro estágio apresentado na Figura 4, Definição da amostra, optou-se por considerar, em um primeiro momento, a realidade do continente americano, em específico, no tocante às condições geográficas, sociais e econômicas de países do cone sul. Esses países apresentam similitudes históricas fundamentadas em seus processos de colonização, a disponibilidade dos seus recursos naturais e na forma em que esses países foram inseridos na economia mundial; incluindo as similitudes econômicas e sociais que vêm se configurando desde a época colonial (LUCCI; BRANCO; MENDOÇA, 2013). Não apenas foi tocada a realidade da América do Sul no alcance da pesquisa. Dois países atuam sob uma relação tanto histórica quando cultural e política. Nesse ponto, incluem-se como foco na amostra da pesquisa uma dupla de governos da Europa. Esta pesquisa apontou, em uma primeira instância, à realidade da Colômbia, desenvolvendo um pré-teste com as informações recuperadas nesse país. Logo após da 30 validação da metodologia, o estudo foi desenvolvido ampliando para os países Brasil, Espanha e Portugal. Como ponto de partida, considerou-se a pesquisa do Center for Data Innovation (2017) acerca do estado dos portais de dados abertos de governos, nesse caso, na América Latina. Dentre outros resultados da pesquisa, são elencados os sites de dados governamentais, os quais constituem os pontos de entrada desta pesquisa, no que diz aos sites dos países definidos para os estudos de caso. Já para as plataformas dos governos da Espanha e da Portugal, mediante pesquisa exploratória foram reconhecidos os sites correspondentes com publicação de dados abertos oficiais. O Quadro 1 relaciona cada país objeto deste estudo e o endereço do site de dados abertos correspondente. Quadro 1 – Sites de dados como pontos de entrada dos estudos de caso País Link do site de dados governamental Colômbia https://datos.gov.co/ Brasil http://dados.gov.br/ Espanha http://datos.gob.es/ Portugal http://www.dados.gov.pt/pt/inicio/inicio.aspx Fonte: Adaptado de Center for Data Innovation (2017). Em cada site oficial de dados efetuar-se-á a exploração dos sistemas de organização presentes, considerando que para atingir o objetivo desta pesquisa, as informações relacionadas aos documentos que fornecem as instruções para os processos de publicação de dados, são de fato dirigidas para uma audiência específica. Com isso, visando a recuperação dos documentos, será efetuada navegação nos esquemas de organização de cada site considerando: a) tópicos; b) orientados a tarefas; e, c) esquemas para audiências específicas (ROSENFELD; MORVILLE; ARANGO, 2015). No desenvolvimento da pesquisa documental e bibliográfica, o critério de busca dos documentos, objeto da pesquisa, é o de recuperar todos os documentos que têm como propósito capacitar o capital humano que participa da publicação de datasets, como fornecedores ou consumidores de dados. https://datos.gov.co/ http://dados.gov.br/ http://datos.gob.es/ http://www.dados.gov.pt/pt/inicio/inicio.aspx 31 Devido ao embasamento na proposta da Bardin (2010) para o processo de constituição do corpus da pesquisa, foram apontadas, como principais, as seguintes regras na distinção dos documentos a serem analisadas: a) exaustividade; b) representatividade; c) homogeneidade e d) pertinência. Uma vez reunido o conglomerado de documentos, realizou-se um refinamento com o intuito de identificar os documentos que efetivamente contém instruções relacionadas à descrição dos datasets, e que serão descritos na seção seguinte. 1.3.2 Fase da exploração do material Como alternativa para a “administração das técnicas no corpus” (BARDIN, 2010, p. 128, destaque nosso), realizou-se a exploração do material refinado escolhendo como unidade de registro a análise temática, assumindo que “fazer uma análise temática consiste em descobrir os núcleos de sentido que compõem a comunicação e cuja presença, ou frequência de aparição podem significar alguma coisa para o objetivo analítico escolhido” (BARDIN, 2010, p. 131). Complementa a autora, que o tema, oferece uma unidade de recorte do sentido e não de forma, “[...] que não é fornecida de uma vez por todas, visto que o recorte depende do nível de análise e não de manifestações formais reguladas” (BARDIN, 2010, p. 131). Para tal, o tema eixo em torno do qual realizou-se a exploração foi metadados, agindo como objeto ou referente nesta fase. Nos documentos recuperados, foram identificados os trechos nos quais os autores se referiram ao tratamento descritivo dos datasets, considerando as variações pelas línguas português e castelhano (metadados, metadatos). Uma vez definido o tema metadados, como unidade de registro, foram estipuladas categorias para representar as abordagens identificadas nos documentos com as instruções para publicadores de dados, a partir de um estudo desenvolvido por Santos et al. (2013), com a finalidade de tratar o material do corpus. Neste processo de codificação, foram definidas as categorias para classificar o conteúdo, objeto da análise, para o posterior tratamento dos dados: 32 a) Metadados Teoria (MT): conceitos, fundamentações, técnicas, estudos, explanações e críticas e b) Metadados no Uso (MNU): experimentos, relatos de experiência, estudos de caso, recomendações e percepções de uso (SANTOS et al., 2013). Para Bardin (2010), uma vez definida a unidade de registro, neste caso o tema, faz- se necessário estabelecer as regras de enumeração ou modo de contagem. Adotaram-se como regras: a presença ou ausência das categorias supracitadas, e, a intensidade, a observar-se seguindo variações semânticas ou formais ao aparecer os elementos da análise, ou seja, das categorias adotadas. Como auxílio para a avaliação da intensidade da abordagem das unidades de registro temático, considerou-se a intensidade semântica dos verbos, assim como a ênfase e o aprofundamento dos sintagmas nos quais está inserida a unidade de registro que está sendo considerada na análise de conteúdo. A unidade de contexto da técnica da análise é cada documento que contenha as instruções alvo desta pesquisa. Em seguida, propõe-se o esquema do Quadro 2 que pretende auxiliar na caraterização dos documentos que vão ser analisados, integrando nele as categorias utilizadas na codificação das unidades de registro. O esquema inclui atributos que descrevem os documentos recuperados, a indicação da lei na qual está fundamentada a estratégia de dados abertos em cada país, as categorias acima indicadas, as regras de contagem, e por fim, os esquemas de metadados indicados nas instruções aos publicadores de dados. Como atributos (Quadro 2), que contém a proposta de caraterização para os documentos a serem analisados, destacam-se: a) nome do documento: obedece ao título com o que documento está identificado; b) detentor: nome da entidade ou órgão oficial que elabora o documento a ser analisado e que o fornece como instrução para os processos de publicação de dados abertos; c) tipo do documento: natureza do documento segundo a entidade ou órgão oficial que o fornece; d) data: data na qual é elaborado ou publicado o documento; e) função: segundo o objetivo do documento, bem como a introdução, sintetiza- se a função principal do documento; 33 f) fundamentado na lei: neste atributo registra-se a Lei na qual está fundamentado o documento; g) metadados teoria: primeira categoria adotada para a codificação dos documentos analisados. Os valores do atributo variam de acordo com o tipo de abordagem identificada: ­ Conceitos (C); ­ Fundamentações (F); ­ Técnicas (T); ­ Estudos (E); ­ Explanações (EX); ­ Críticas (CR). Considerando que a primeira regra de contagem é Presença (ou ausência), o cálculo dela será realizado assumindo que qualquer valor neste atributo corresponde com Presença, enquanto o traço ‘-‘ será considerado como Ausência; h) intensidade MT: sendo a segunda regra de contagem, será avaliada segundo a intensidade semântica dos sintagmas que contêm a unidade de registro temática em três valores: Baixa (B), Média (M) e Alta (A). Nesta primeira ocorrência do atributo corresponde com a intensidade da abordagem do conteúdo da categoria Metadado Teoria; i) metadado no uso: segunda categoria adotada para a codificação dos documentos analisados. Os valores do atributo variam de acordo com o tipo de abordagem identificada: ­ Experimentos (EXP); ­ Relatos de experiência (RE); ­ Estudos de caso (EC); ­ Recomendações (R); ­ Percepções de uso (PU). Como no caso da categoria Metadado Teoria, para a contagem, qualquer valor presente para este atributo corresponde com Presença, enquanto o traço ‘-‘ será considerado como Ausência; 34 j) intensidade MNU: Este atributo corresponde à intensidade do conteúdo encontrado na categoria Metadado No Uso, avaliada igualmente nos três valores: Baixa (B), Média (M) e Alta (A); k) metadados estruturais: este atributo contém os metadados estruturais que sejam indicados nas instruções contidas nos documentos a serem analisados. O atributo se relaciona diretamente com o exposto na seção 2.1, “padrões de estrutura dos dados” (GILLILLAND, 2008) e l) metadados descritivos: o atributo contém os metadados como indicado por Gilliland (2008), exposto na seção 2.1 como “padrões de valores dos dados”. 35 Quadro 2 – Caracterização do material da análise Fonte: Elaborado pela autora. Nome documento Detentor Tipo de documento Data Função Fundamentado em LAI Metadados Teoria Conceitos (C), Fundamentações (F), Técnicas (T), Estudos (E), Explanações (EX), Críticas (CR) Intensidade MT Alta (A), Média (M), Baixa (B) Metadados Uso Experimentos (EXP), Relatos de Experiencia (RE), Estudos de Caso (EC), Recomendações (R), Percepções de Uso (PU) Intensidade MNU Alta (A), Média (M), Baixa (B) Metadados Estruturais Metadados Descritivos Título com o que documento está identificado Nome da entidade ou órgão oficial que elabora o documento Natureza do documento segundo a entidade ou órgão oficial que o fornece Data de elaboração do documento Segundo o objetivo do documento, bem como a introdução, sintetiza-se a função principal do documento Registro, se informado, da Lei na qual está fundamentado o documento Valores do atributo de acordo com o tipo de abordagem identificada: Conceitos (C), Fundamentações (F), Técnicas (T), Estudos (E), Explanações (EX), Críticas (CR) Considerando que a primeira regra de contagem é Presença (ou ausência), o cálculo dela será realizado assumindo que qualquer valor neste atributo corresponde com Presença, enquanto o traço ‘-‘ será considerado como Ausência Identificação da intensidade semântica dos sintagmas que contêm a unidade de registro temática em três valores: Baixa (B), Média (M) e Alta (A), para a categoria Metadados Teoria Valores do atributo de acordo com o tipo de abordagem identificada nos seguintes valores: Experimentos (EXP), Relatos de experiência (RE), Estudos de caso (EC), Recomendações (R), e, Percepções de uso (PU). Como no caso da categoria Metadado Teoria, para a contagem, qualquer valor presente para este atributo corresponde com Presença, enquanto o traço ‘-‘ será considerado como Ausência Este atributo corresponde à intensidade do conteúdo encontrado na categoria Metadado No Uso, avaliada igualmente nos três valores: Baixa (B), Média (M) e Alta (A) Contém os metadados estruturais que indicados nas instruções analisadas. O atributo se relaciona diretamente com o exposto na seção 2.1, como “padrões de estrutura dos dados” (GILLILLAND, 2008) Para o registro dos metadados como indicado por Gilliland (2008), como “padrões de valores dos dados”. 36 Após da fase de exploração do material, os dados brutos foram examinados de modo que possam se tornar significativos na consecução dos objetivos da pesquisa. Para isso, apresenta-se no item seguinte a proposta de tratamento dos dados obtidos na caraterização dos documentos analisados. 1.3.3 Fase de tratamento dos resultados Quais são as significações das mensagens contidas nos documentos? Quais são os conteúdos da comunicação escrita nos documentos analisados? Atingindo a teoria exposta por Bardin (2010), quais poderiam ser as subcategorias presentes segundo a proposta da codificação dos documentos e o aprofundamento percebido? A variável de inferência vai estar em torno ao objetivo geral desta pesquisa, buscando observar a aderência ao uso dos metadados nos documentos que contêm instruções para aqueles usuários, órgãos de governos, envolvidos na publicação de datasets. 1.3.4 Síntese da técnica a ser aplicada Resumindo, o Quadro 3 apresenta a síntese da técnica Análise de conteúdo aplicada no desenvolvimento desta pesquisa. Quadro 3 – Síntese da técnica a aplicar na pesquisa Pré-análise Exploração do material Tratamento dos resultados Exploração dos sites por país para descoberta de recursos: documentos com instruções para publicadores de dados Unidade de registro: análise temática Tema: Metadados Polo a observar: a mensagem nos documentos, no nível significação (BARDIN, 2010). Regras de distinção dos recursos: ­ regra de exaustividade; ­ regra de representatividade; ­ regra de homogeneidade; ­ regra de pertinência (BARDIN, 2010). Regras de enumeração: ­ presença ou ausência das categorias; ­ intensidade, seguindo variações semânticas ou formais das categorias (BARDIN, 2010). Variável de inferência: a aderência ao uso dos metadados nos documentos que contêm instruções dos órgãos de governos para os envolvidos na publicação de datasets. Fonte: Elaborado pela autora. 37 Esta seção finaliza a explanação da técnica de análise de conteúdo que foi aplicada na consecução dos objetivos desta pesquisa. Antes de abordar os conceitos norteadores da pesquisa, será exposta brevemente a argumentação para a escolha como estudo de caso da Colômbia, como primeiro país analisado no desenvolvimento deste estudo. 1.4 Por que a escolha da Colômbia como pré-teste? No contexto mundial da publicação de datasets de dados oficiais, a Colômbia tem obtido destaque na implementação de estratégias que visam impulsionar a publicação de dados a partir do governo nacional (ORGANIZAÇÃO PARA A COOPERAÇÃO E DESENVOLVIMENTO ECONÓMICO, 2017; GLOBAL EDITORS NETWORK, 2017). No site de dados do governo, datos.gov.co, atualmente, estão publicados 7.357 datasets (COLOMBIA, 2017) com dados provenientes de diversos órgãos do Estado colombiano. A Organização para a Cooperação e Desenvolvimento Econômico (OCDE) desenvolveu The OCED OURdata Index, um marco de trabalho que reúne indicadores na temática de dados no governo aberto. Esse marco permite resumir pontos fortes e pontos fracos, identificando áreas de ação que intervenham às políticas nacionais dos países membros da OCDE (2017). Na última medição do OURdata Index, com dados pesquisados entre novembro e dezembro de 2016, mensuraram-se os esforços desenvolvidos pelos governos para a promoção, uso, reuso e disponibilização de ferramentas para a publicação de dados. Nessa edição a Colômbia aparece em quarto lugar no ranking global, que tem em seus primeiros colocados, a Coreia do Sul, a França e o Japão (ORGANIZAÇÃO PARA A COOPERAÇÃO E DESENVOLVIMENTO ECONÔMICO, 2017). Ademais, a Colômbia obteve destaque na sexta edição dos Data Journalism Awards, organizado pela Global Editors Network. Das onze categorias propostas pela rede, esse país foi premiado pelo projeto Rutas del Conflicto, apresentado na categoria site de Jornalismo de Dados do Ano (GLOBAL EDITORS NETWORK, 2017). Esses fatos assinalam a seleção desse país como ponto de partida no desenvolvimento desta pesquisa. Em relação ao período de tempo estipulado, indica-se que a pesquisa recuperou documentos no contexto do primeiro país estudado, a Colômbia, durante o mês de junho de 2017. http://www.datos.gov.co/ 38 1.5 Colômbia, Brasil, Espanha e Portugal Delineado o começo com a análise do site de dados da Colômbia, definiu-se como amostra completa do estudo os sites de dados dos países Brasil, Espanha e Portugal. O Brasil não somente é o país sede da realização desta pesquisa. Este país é um dos países pioneiros da América Latina e do mundo na promoção e execução de políticas de Estado, com repercussão e convocatória para outros países, que buscaram atingir os anseios da sociedade no aprimoramento da percepção de transparência do governo, mediante a utilização e o aproveitamento da conjuntura oferecida pela internet, com suas ferramentas e mecanismos tecnológicos que cada vez mais estão ao alcance dessa sociedade que representam. Como será tratado na seção 3.1, têm-se desenvolvido fatos com destaque global onde o Brasil, junto a outros Estados, manifestou e convocou à comunidade global a movimentação para afrontar os desafios comuns no que concerne aos índices de corrupção que preocupam os cidadãos e os governos. A Colômbia e o Brasil têm fortes laços com duas nações do continente europeu: Espanha e Portugal, dois países que têm similaridades históricas, culturais e linguísticas com os dois primeiros, que configuram interesse de estudo dentro do escopo desta pesquisa. Tanto o governo de Portugal quanto o da Espanha fizeram parte da convenção1 da OCDE, em 1960, realizada com o intuito de buscar a prosperidade e o fortalecimento econômico de países, bem como o aprimoramento do bem-estar geral neles. Já no caso da Colômbia e do Brasil, até este momento (2018), nenhum deles é membro pleno dessa organização. O pedido de adesão da Colômbia foi admitido em 2013, sendo considerado pela OCDE como um país com o processo de adesão “em estado de discussão”; enquanto o Brasil, ante a própria manifestação do interesse, espera pelo início da discussão da adesão na organização. No entanto, o Brasil é considerado pela OCDE como um parceiro chave, particularidade que compartilha com a Índia, Indonésia, China 1 Os governos reunidos em dezembro de 1960 foram os da Áustria, Bélgica, Canada, Dinamarca, França, Alemanha, Grécia, Islândia, Irlanda, Itália, Luxemburgo, Holanda, Noruega, Portugal, Espanha, Suécia, Suíça Turquia, Reino Unido, Estados Unidos (ORGANIZAÇÃO PARA A COOPERAÇÃO E DESENVOLVIMENTO ECONÔMICO, 2018). 39 e África do Sul (ORGANIZAÇÃO PARA A COOPERAÇÃO E DESENVOLVIMENTO ECONÔMICO, 2018). O índice desenvolvido pela OCDE, índice composto, considera três aspectos como são: Disponibilidade dos dados; Acessibilidade aos dados; e, Suporte governamental para o reuso dos dados. O índice tem uma magnitude que vai até o algarismo 1, que é calculado seguindo a metodologia explicitada na documentação da OCDE (2017). A Figura 5 apresenta o OURdata Index para os quatro países da pesquisa, cuja Figura 5 – OURDATA Index do estudo Fonte: Adaptado de OCDE (2017a, 2017b). Como indicado na seção precedente, a performance da Colômbia teve destaque, mesmo sendo um país em processo de adesão. Observa-se uma pontuação maior em relação aos outros três países, classificados na ordem decrescente da seguinte forma: Colômbia, Espanha, Brasil e, Portugal. Essa avaliação proposta pela OCDE analisa três áreas, a saber: disponibilidade dos dados, acessibilidade aos dados, e suporte governamental para o reuso dos dados (ORGANIZAÇÃO PARA A COOPERAÇÃO E DESENVOLVIMENTO ECONÔMICO, 2017a). Outro país dos determinados para esta pesquisa foi também reconhecido na edição 2017 dos Data Journalism Awards. Além da Colômbia, o projeto Ctrl+X proveniente do 0,80 0,54 0,76 0,38 COLÔMBIA BRASIL ESPANHA PORTUGAL 40 Brasil, recebeu prêmio na categoria Pequenas Redações Jornalísticas. Este projeto é realizado pela Associação Brasileira de Jornalismo Investigativo (ABRAJI), e “[...] mapeia as tentativas de censura a veículos de mídia no Brasil” (ASSOCIAÇÃO BRASILEIRA DE JORNALISMO INVESTIGATIVO, 2017). Em relação as datas da coleta dos documentos com instruções dos países Brasil, Espanha e Portugal, realizadas nos meses de novembro e dezembro de 2017. Assim, encerra-se a etapa de a escolha dos quatro países para desenvolvimento deste estudo, o qual atinge um dos vários aspectos relacionados à publicação de dados abertos de governo. 41 2 DEMARCAÇÃO DA REPRESENTAÇÃO DE RECURSOS INFORMACIONAIS Esta seção apresenta fundamentos teóricos da pesquisa, introduzindo definições que partem do geral ao específico em relação aos recursos informacionais no contexto de processos de representação. Assim, ao referenciar o ‘recurso informacional’, partindo do processo mental de abstração dentro de um determinado campo do conhecimento, concebe-se como um objeto, analógico ou digital, tangível ou intangível, que é portador de informação, ou seja, que tem valor informacional. O valor informacional desse objeto caracteriza esse processo de abstração e expõe suas manifestações estruturadas. (LE COADIC, 2004; REITZ, 2004; SANTOS; SIMIONATO; ARAKAKI, 2014). Ao considerá-lo tanto recurso quanto objeto, faz-se correlação com Gilliland (2008) que acrescenta comportamentos possíveis de serem realizados neles, tais como ser administrados ou manipulados por atores humanos ou máquinas. Incluindo um último elemento, no contexto de um campo do conhecimento, os recursos informacionais requerem, para manifestar seu valor informacional, estruturas analógicas ou digitais, por precisarem da apresentação de suas características mediante um “tratamento descritivo específico para otimizar sua busca, acesso e recuperação” (SANTOS; SIMIONATO; ARAKAKI, 2014, p. 148). Dentro dessa necessidade de estruturação e considerando o contexto dinâmico que envolve os recursos informacionais na contemporaneidade, especificamente no âmbito digital, McGarry (1999) afirma que esses recursos devem ser estruturados para dar-lhes forma e utilização factível nesse âmbito. Configura-se a representação dos recursos informacionais como “[...] uma atividade imprescindível no armazenamento, no acesso e na recuperação de informações e de recursos, e sua evolução e transformações afetam o cotidiano de milhares de profissionais” (SANTOS, 2017, p. 2). Simionato (2015, p. 72) aponta que “se os recursos não estiverem descritos adequadamente ao tipo de ambiente inserido, ocorrera problemas, e consequentemente, o usuário não recuperara o que deseja”. Os metadados são apontados como elementos que permitem representar as características dos recursos informacionais, nomeados como objetos de informação por Gilliland (2008) quando assevera que tais objetos apresentam três características, a 42 saber: conteúdo, contexto e estrutura, as quais podem e devem ser retratadas mediante metadados. A autora supracitada diz que os recursos informacionais vão se descrever mediante metadados, partindo do fato de que o objeto pode conter informação “intrínseca” do recurso, passando pelos aspectos extrínsecos associados a ele, aspectos que respondam questões tais como quem, que, por que, onde, como, até, finalmente, abordar o relativo às associações dentro ou entre recursos, mediante informações intrínsecas, extrínsecas ou das duas (GILLILAND, 2008). A ciência da computação utiliza o termo metadado referenciando objetos de sistemas de bases de dados e/o sistemas de informação, utilizando-o para o encapsulamento da informação que permite descrever qualquer objeto ou documento, tanto em formato analógico quanto digital (ZENG; QIN, 2008). As três características indicadas pela Gillilland (2008), correlaciona-se à heurística inerente da ciência da computação (ZENG; QIN, 2008) no ponto das associações ao interior dos recursos informacionais ou entre recursos, o qual é materializado na capacidade de compartilhamento que fornecem os metadados (NATIONAL INFORMATION STANDARDS ORGANIZATION - NISO, 2017). Seguido ao fato de considerar a definição clássica literal baseada na etimologia da palavra metadado, “dado sobre dado”, vem a questão de se possível encontrar metadados em todos lados. Faz-se evidente essa presença generalizada dos metadados, “metadados em todas partes” no caso apresentado pela organização acima citada, acontecido em 2013, com a familiaridade que chegou a ter o termo metadado nos Estados Unidos pela cobertura da mídia na coleta de dados da Agencia Nacional de Segurança em relação as ligações domésticas, alcançando, nessa data, uma ampla caraterização delas. No ambiente da internet a influência dos metadados foca no acesso e na recuperação da informação, sendo deste modo, considerados elementos basilares no tratamento descritivo da informação, já que garantem a descrição e a representação padronizada de recursos informacionais (ALVES; SANTOS, 2013). Essa padronização origina estruturas conhecidas como padrões de metadados, [...] estruturas de descrição constituídas por um conjunto predeterminado de metadados (atributos codificados ou identificadores de uma entidade) metodologicamente construídos e padronizados. O objetivo do padrão de metadados é descrever uma entidade gerando uma 43 representação unívoca e padronizada que possa ser utilizada para recuperação da mesma (ALVES, 2010, p. 47-48). Com os padrões de metadados espera-se garantir a permuta de informações entre agentes ou organizações, processo alvo da representação informacional, pela diminuição da carga de trabalho na descrição de recursos ou objetos informacionais (FUSCO, 2010). Ademais, "[...] um sistema de informação deve priorizar a estrutura interna do domínio de conhecimento" (SIMIONATO; SANTOS, 2013, p. 3), considerando as necessidades próprias dos sujeitos informacionais que com ele vão interagir. Neste contexto, devem ser estabelecidos padrões de metadados que melhor atendam esse domínio para a correta representação dos recursos informacionais. Destaca-se ainda que, segundo as particularidades de um determinado domínio existe a possibilidade de utilizar vários padrões de metadados. Os padrões de metadados estão organizados nas seguintes tipologias (GILLILAND, 2008): a) padrões de estrutura de dados: categorias ou containers dos dados que compõem um registro; b) padrões de valores dos dados: termos, nomes, e outros valores usados como conjuntos de elementos dos metadados; c) padrões de conteúdo dos dados: diretrizes para o formato e sintaxe dos valores dos dados e d) padrões de intercâmbio de dados: formatos de codificação para intercâmbio de dados mediante máquinas. Identificados conceitos gerais, na seguinte seção vai se abordar um recurso informacional em particular, o dado. 2.1 Dado e seu peso na representação Setzer (1999) direciona o conceito de dado ao de entidade matemática, isto é, puramente sintático, uma sequência de símbolos quantificáveis, indicando a associação direta a um conjunto de elementos finitos. Este componente somente sintático implica uma baixa carga semântica (SANTOS; SANT’ANA, 2013), o qual traz como consequência um esforço adicional na representação do dado 44 já que não bastam elementos que o descrevam como um todo e que propiciem sua recuperação. São necessários, ainda, elementos que permitam a sua interpretação por quem os acesse, com informações que detalhem sua estrutura e possibilitem a interpretação de cada atributo que os compõe (SANT’ANA, 2017, p. 4). Adota-se o dado como uma unidade de conteúdo necessariamente relacionada a determinado contexto e composta pela tríade entidade, atributo e valor, de tal forma que, mesmo que não esteja explícito o detalhamento sobre contexto do conteúdo, ele deverá estar disponível de modo implícito no utilizador, permitindo, portanto, sua plena interpretação (SANTOS; SANT’ANA, 2013, p. 205). Independentemente das habilidades e competências que tenham os usuários que vão fazer uso dos dados, considerando que eles estão vinculados explicitamente com um determinado contexto, dito contexto deve-se manifestar diretamente na sua representação, na busca do ganho na recuperação desses recursos informacionais. Deve- se garantir a disponibilização do recurso informacional, o dado, de um modo implícito para o utilizador, no entanto implique maiores esforços na representação por parte dos detentores, procurando assim, o favorecimento da sua visibilidade, utilização e reutilização (SANT’ANA, 2017). Vão ser referidos a continuação, focando os objetivos desta pesquisa, dados de tipo abertos, no âmbito governamental. 45 3 DADOS ABERTOS NO ÂMBITO GOVERNAMENTAL Dado aberto, segundo a Open Knowledge International (OKI), quer dizer dado acessível por qualquer pessoa ou agente, e utilizável sem restrição em seu tipo de uso e compartilhamento (OKI, 2017). A OKI foi fundada em 2004 como rede mundial de pessoas que trabalham pela abertura de dados e informações para transformá-los em conhecimento. Distinguem-se dados abertos científicos, de governo, de empresas privadas, e de universidades. Para Peset, Ferrer-Sapena e Subirats-Coll (2011) dados abertos referem-se aos dados surgidos dentro de um movimento que promove a liberação de dados a partir das instituições públicas, com a particularidade de estarem representados de tal forma que seja válida sua reutilização. Os dados abertos estão sendo observados como uma grande oportunidade dos governos no aprimoramento da sua relação com os cidadãos, tanto pela ampliação na disseminação de dados e informações a partir dos Estados, quanto na possibilidade de atender pedidos dessa natureza por parte de grupos sociais que buscam caminhos para suprir necessidades particulares. Contudo, o primeiro uso do termo “aberto” para dados e informações foi no contexto da pesquisa científica, trabalhado nessa perspectiva desde a metade do século passado pelo Centro de Dados Mundial (INTERNATIONAL COUNCIL FOR SCIENCE, 2017), com o objetivo de reunir esforços e evitar a duplicidade de atividades nos caminhos percorridos pelos pesquisadores das ciências exatas. Neste âmbito, a OCDE, considerando a conjuntura oferecida pela internet, e ciente de que além do uso da tecnologia, mediante a criação de políticas públicas, afirma ser possível o estabelecimento de procedimentos que busquem aumentar o retorno dos investimentos públicos da pesquisa cientifica nos países membros da organização. A OCDE criou, em 2007, treze princípios para os dados dentro do contexto da pesquisa científica (ORGANIZAÇÃO PARA A COOPERAÇÃO E DESENVOLVIMENTO ECONÔMICO, 2007). O primeiro princípio determinado pela OCDE é Openness, onde foi explicitada a importância da abertura dos dados para dar um acesso em igualdade de termos à comunidade científica com o menor custo, com fácil acesso e agilidade. 46 Na atualidade, o termo “aberto” geralmente está sendo aplicado para o conteúdo proveniente tanto dos governos como do setor privado, e usado em vários domínios do conhecimento: dados em todos os setores das economias, sociais, geográficos, meteorológicos, turísticos, dentre outros, próprios da função exercida pelos governos nas sociedades que representam e dirigem. Esses dados estão sendo disponibilizados em marcos de desenvolvimento de políticas de dados abertos nacionais e regionais, com determinadas características técnicas para a sua reutilização, buscando incrementar a transparência no acesso, sem custo, por parte dos cidadãos em geral. Quanto ao uso e aos benefícios dos dados abertos, Shintaku, Duque e Suaiden (2015) identificam como aspecto determinante, que dados advindos de resultados de pesquisas sejam usados e reusados em processos de difusão e geração da informação, sem gerar emolumentos que sejam assumidos pelos usuários. No âmbito desta pesquisa, o caso de dados abertos gerados pelos governos, desde 1998 o Parlamento Europeu mediante a Diretiva 2003/98 (PARLAMENTO EUROPEU, 2003), assinalava o caminho que pretendia iniciar, dentro do contexto da emergente sociedade da informação, no que diz respeito ao fortalecimento da institucionalidade dos governos membros, cuidando para que essa força começasse pelo empoderamento da sociedade, no acesso a esse tipo de recursos informacionais. A diretiva supracitada indica que a disposição geral dos recursos nos governos, “[...] não só relativos aos atos políticos, mas também aos processos judiciais e administrativos [...]” (PARLAMENTO EUROPEU, 2003), constitui um instrumento fundamental da democracia dos governos. Ela considerava a evolução da sociedade da informação na região e visava uma maior influência dela na vida dos cidadãos, mediante novos meios de acesso aos assuntos públicos, e esteve motivada pela idealização de uma “harmonização das regras”, para a reutilização de documentos e seus conteúdos, buscando estabelecer nos estados membros um “conjunto de regras mínimas aplicáveis” com formas práticas e fáceis aos cidadãos. No contexto americano, o fato que tem recebido, midiaticamente, indicação de gênesis na abertura de dados de governo, aconteceu no ano 2007, quando nos Estados Unidos, em Sebastopol, reuniram-se ativistas do mundo na busca do aprimoramento do acesso e uso de dados governamentais como mecanismo para melhorar a transparência e lidar com a corrupção (OPEN GOVERNMENT PARTNERSHIP – OGP, 2017). Nesse encontro discutiram-se considerações legais, tecnológicas e de licenciamento dos dados 47 disponibilizados por governos e pelas empresas privadas que administram dinheiro público, destacando que tal iniciativa foi realizada sem intervenção de governo algum. Assim, na busca do fortalecimento da atuação da sociedade por meio da visibilidade das ações governamentais, os dados abertos estão sendo disponibilizados em sites, administrados por governos, mediante datasets. Salientando-os como parte do alvo desta dissertação, os datasets, assumem-se como recursos informacionais que conglomeram dados com uma certa estrutura acerca de algum tópico ou tema. 3.1 Iniciativas estratégicas para o fomento da abertura de dados governamentais Apresenta-se na sequência a descrição do ambiente global ao qual pertencem iniciativas que pretendem promover a mobilização de ainda mais estratégias de abertura de dados dentro e fora dos governos, relatando alguns fatos políticos e estratégicos que contextualizam três iniciativas baseadas no canal de comunicação da internet, desenvolvidas dentro do marco dos dados abertos: a Open Government Partnership, a Global Open Data for Agriculture & Nutrition e, a International Open Data Conference. A Open Government Partnership nasceu, em 2011, como uma iniciativa de oito países preocupados por fazer de seus governos verdadeiros órgãos a serviço dos cidadãos que representam. Os países fundadores procuravam estabelecer diretrizes para criar políticas de alcance global que buscassem a eficiência e transparência dos governos, fazendo público ante a sociedade o fato de que estes governos tinham a vontade de converterem-se em fornecedores de dados e informações, visando maior visibilidade, principalmente nas questões referentes a maior efetividade política e diminuição da corrupção (BRASIL, 2011). Esta iniciativa, Parceria de Governo Aberto (OGP pelo nome no inglês Open Government Partnership), buscou estabelecer compromissos concretos de parte dos governos que estivessem interessados em estimular a disseminação aberta de suas ações, com o fim de encorajar os cidadãos, mediante a promoção, dentre outras ações, da disponibilização, uso e reuso de dados abertos governamentais (OGP, 2017). A primeira reunião da OGP, cujos participantes foram países de vários continentes, Estados Unidos, Reino Unido, Noruega, Filipinas, Indonésia, África do Sul, Brasil e México, aconteceu em 2011, e agiu dando o primeiro passo para uma iniciativa de governos parceiros em prol do uso e reuso de ativos informacionais oficiais, estratégia que foi 48 oficializada ao mesmo tempo em que acontecia a 66ª Assembleia Geral das Nações Unidas (BRASIL, 2011). Em um primeiro momento o Brasil presidiu, junto aos Estados Unidos, a OGP, e voltaram-se junto ao México os países latino-americanos que se oficializaram como pioneiros na estratégia de abertura de ativos informacionais de governos. Na atualidade, 75 países são membros da OGP (2017). Assim, foi criado o portal opengovpartnership.org como apoio à estratégia, sendo o meio de difusão das informações, convocações e discussões dos processos desenvolvidos pelos países membros, das formas de ingressar na parceria, e como meio de divulgação para a sociedade em geral. No contexto do Brasil um dos compromissos adquiridos no plano da primeira OGP concretizou-se em março de 2012: a disponibilização do site de dados abertos governamentais. Ainda, segundo o Tribunal de Contas da União (BRASIL, 2015), o Estado brasileiro viu-se motivado para tal pela procura da progressão da: a) transparência na gestão pública; b) possibilidade na contribuição da sociedade com serviços inovadores ao cidadão; c) aprimoramento na qualidade dos dados governamentais; d) viabilização de novos negócios e e) por obrigatoriedade de lei. Em quanto isso, continuando com fatos políticos, no ano de 2012, na Cimeira do G8 2 , que aconteceu no retiro presidencial Camp David, pertencente ao governo dos Estados Unidos, os presidentes do país anfitrião, da Rússia, do Reino Unido, do Canadá, da França, da Alemanha, da Itália e do Japão assumiram entre outras responsabilidades, o compromisso diante da crise humanitária que acontecia no planeta, em especial na África por conta da insegurança alimentar e do desenvolvimento não sustentável. O G8 determinou nessa data que, a partir de seus países membros iriam compartilhar de forma aberta, irrestrita e oportuna, dados relacionados à Agricultura e Nutrição, com o objetivo de serem usados em favor do progresso e da melhoria dos processos agrícolas, pecuários, nutricionais, e, de desenvolvimento sustentável, nos países menos avançados nestes aspectos (GODAN, 2017). 2 Reunião de chefes de Estado das principais democracias industriais, na qual são abordados temas políticos, económicos, energéticos e de segurança (UNIVERSITY OF TORONTO, 2017). http://www.opengovpartnership.org/ 49 A primeira decisão foi a criação de uma conferência internacional que abordasse os dados agrícolas em formato aberto. Assim, em abril de 2013 realizou-se a primeira conferência com sede no Reino Unido. Nesse evento os governos participantes se comprometeram a elaborar os planos de ação em cada país, como apoio à iniciativa citada. Como subproduto desta primeira reunião criou-se a iniciativa Global Open Data for Agriculture & Nutrition (GODAN), e o seu site foi disponibilizado no endereço godan.info em outubro do mesmo ano. A estratégia GODAN age como pivô do nível governamental e de organizações geradoras, administradoras ou propulsoras dos dados abertos em favor da segurança alimentar e nutricional com ênfase no desenvolvimento sustentável, mediante a junção de esforços entre os seus membros. Na sequência, derivado das iniciativas anteriormente descritas para a gestão das conferências internacionais sobre dados abertos, ampliando o foco para além dos dados agrícolas, foi criado o site opendatacon.org, com o objetivo de se estabelecer como um ponto de encontro para a comunidade global debater e estudar o futuro dos dados abertos. Os administradores do site têm publicado informações relacionadas às conferencias realizadas nos anos de 2015, em Otawa, Canadá e de 2016, em Madrid, Espanha; divulgando os eventos atuais e convidando à comunidade para participação no próximo evento que acontecerá no ano 2018, na Argentina. 3.2 Plataformas como opções pró-implementação de sites de dados abertos governamentais As seguintes plataformas tecnológicas estão sendo utilizadas como ferramentas nas fases de planejamento e implementação de estratégias relacionadas com a publicação de dados abertos por governos estatais ou mesmo regionais. Iniciando com a plataforma para a administração de sites de dados abertos SOCRATA, corresponde a uma plataforma para gestão de dados e serviços em nuvem dirigida aos órgãos oficiais tais como governos de cidades, estados e países. SOCRATA é um produto comercial, que requer o pagamento dos custos relacionados a sua implementação e manutenção (SOCRATA, 2017). Essa empresa foi criada em 2007, por Kevin Merritt, e encontra-se localizada nos Estados Unidos. O seu objetivo principal é estabelecer uma plataforma para organizações http://www.godan.info/ http://www.opendatacon.org/ 50 públicas que lhes permita administrar e compartilhar facilmente os dados governamentais. Suas funcionalidades incluem opções de visualização e análise dos dados com a finalidade de oferecer entendimento e aproximação a esses recursos informacionais. Alguns dos clientes atuais da SOCRATA são o site de dados do Banco Interamericano de Desenvolvimento (BID)3, o governo da Colômbia4, e sites de dados de cidades como New York5 e Chicago6 nos Estados Unidos (SOCRATA, 2017). Por ser uma plataforma paga, a SOCRATA fornece uma implementação mais ágil, o qual supõe um menor tempo em sua implementação. Isto pela centralidade da equipe técnica, ou seja, que oferece rapidez da operacionalização da solução informática, embora seja associada também com uma arriscada e alta dependência desta organização que fornece a plataforma (WORLD BANK GROUP, 2015). Outra plataforma para a administração de sites de dados abertos é a Comprehensive Knowledge Archive Network (CKAN), a qual é uma plataforma gratuita que permite criar sites para a publicação de dados abertos, plataforma Open Source, isto é, com código fonte disponível. Ela é desenvolvida e promovida pela Open Knowledge Foundation (OKFN), e possibilita administrar e publicar catálogos de dados e datasets. Pelo fato do CKAN ser desenvolvida pela OKFN, a fundação recebe contribuições de uma comunidade de desenvolvedores que contribuem com extensões para aprimorar ou customizar o CKAN (OKFN, 2017). O público alvo desta plataforma são governos nacionais ou locais, e também as instituições de pesquisa e organizações que coletam grande quantidade de dados. Na atualidade alguns dos usuários do CKAN são os governos do México7, dos Estados Unidos8, do Canadá 9 , do Brasil 10 , e também o portal europeu de dados (COMPREHENSIVE KNOWLEDGE ARCHIVE NETWORK, 2017). Sendo uma plataforma gratuita, não restringe funcionalidades primordiais na administração de dados, tais como funções de busca facetadas e diversas ferramentas para a visualização dos dados pelos utilizadores, tanto internos como externos. Sua 3 Cf. https://data.iadb.org/. 4 Cf. https://datos.gov.co/. 5 Cf. https://data.ny.gov. 6 Cf. https://data.cityofchicago.org. 7 Cf. https://datos.gob.mx/. 8 Cf. https://www.data.gov/. 9 Cf. http://open.canada.ca/en. 10 Cf. http://dados.gov.br/. https://data.iadb.org/ https://datos.gov.co/ https://data.ny.gov/ https://data.cityofchicago.org/ https://datos.gob.mx/ https://www.data.gov/ http://open.canada.ca/en http://dados.gov.br/ 51 arquitetura modular permite desenvolver caraterísticas adicionais como a integração com as plataformas Google+, Twitter, Facebook, acompanhamento mediante RSS, funções geoespaciais e coleta de dados harvesting (COMPREHENSIVE..., 2017). A facilidade de cada organização publicadora de dados poder administrar o CKAN, requer um esforço maior nos aspectos técnicos do seu processo de implementação e manutenção, desde os processos próprios nas adaptações internas até a gestão com a comunidade de desenvolvedores da OKFN. No entanto, cabe destacar que ao adotar o CKAN como plataforma, inicia-se a aproximação com toda a comunidade CKAN o que traz como vantagem a possibilidade de que novas instâncias possam ser desenvolvidas a partir de contribuições de outras instâncias (WORLD BANK GROUP, 2015). 52 4 MECANISMOS DE REPRESENTAÇÃO NO CONTEXTO WEB Nesta seção serão abordados os mecanismos tecnológicos que auxiliam processos de representação usados no âmbito de datasets governamentais. Percebe-se que esses mecanismos têm adquirido relevância pelo fato de fazer parte do grupo de recomendações do consórcio World Wide Web Consortium (W3C). O W3C é um consórcio internacional de organizações e do público em geral, que atua no desenvolvimento de padrões para a web 11 . Foi fundado em 1994, por Tim Berners-Lee em conjunto com a European Organization for Nuclear Research (CERN12), com a colaboração da Defense Advanced Research Project Agency (DARPA), dos Estados Unidos e da Comunidade Europeia. O consórcio movimenta-se visando o cumprimento de sua missão: “guiar a web para seu máximo potencial por meio do desenvolvimento de protocolos e pautas que assegurem o crescimento da web” (W3C, 2017). O W3C pretende alcançar a sua missão mediante a criação de padrões denominados por ele como recomendações, sendo um dos seus pilares o desenvolvimento de padrões abertos, não proprietários, buscando evitar assim a fragmentação do mercado e da web em si. Alguns dos mecanismos que vêm sendo utilizados no âmbito da representação de recursos informacionais em sites de dados governamentais serão descritos nas próximas seções. 4.1 Dublin Core Em 1995, com o acréscimo na quantidade de recursos no contexto digital oferecido pela internet, foi criado o padrão de metadados Dublin Core. Segundo Alves e Santos (2013) o Dublin Core é um padrão de propósito geral, simples e estruturado, criado com o intuito de promover a descoberta de recursos na internet. Este padrão foi estabelecido e é mantido pela Dublin Core Metadata Initiatives (DCMI), organização aberta que contribui com a inovação no design de metadados e as melhores práticas no seu âmbito (DUBLIN CORE METADATA INITIATIVE, 2017). 11 Sistema hipertextual que funciona baseada na internet. 12 A sigla corresponde ao antigo nome oficial Conseil Européen pour la Recherche Nucléaire. 53 O Dublin Core é composto por um conjunto de elementos de metadados, nomeado pela DCMI como um “[...] vocabulário de quinze propriedades para usar na descrição de recursos.” (DUBLIN CORE METADATA INITIATIVE, 2017, tradução nossa). A Figura 6 apresenta os elementos do Dublin Core. Figura 6 – Esquema gráfico básico do Dublin Core Fonte: DCMI (2017). Esses quinze elementos são conhecidos como o Dublin Core Metadata Element Set (DCMES13). Esse conjunto de metadados faz parte do grande conjunto de vocabulários de metadados e especificações da DCMI, nomeado como o DCMI Metadata Terms (DCMI- TERMS). Ou seja, na DCMI, o DCMES não é o único conjunto de elementos: os demais elementos da iniciativa (vocabulários, termos, e outros elementos sintáticos) compõem o conglomerado da iniciativa e estão planejados para serem compatíveis entre si na construção de perfis de aplicação (DUBLIN CORE METADATA INITIATIVE, 2017). A seção 4.5 traz uma aproximação aos perfis de aplicação, que apesar de não ser o foco deste estudo, permite melhor contextualizar a importância dos elementos que o compõem. 13 Conjunto de elementos de metadados do Dublin Core. 54 4.2 O Friend of a Friend A National Information Standards Organization (NISO, 2017), organização sem fins lucrativos que identifica, desenvolve, mantém e publica padrões técnicos para a administração de informação no contexto digital (NISO, 2017), define o Friend of a Friend (FOAF) como um vocabulário para uso na internet, que fornece metadados descritivos a respeito de pessoas e organizações. A sua primeira versão surgiu em abril de 2005 e na atualidade já está sendo reutilizado por 362 vocabulários no entorno web (LINKED OPEN DATA VOCABULARIES, 2017). O FOAF encontra-se codificado no Resource Description Framework (RDF), e o seu core focaliza-se na descrição de propriedades que especificam como as pessoas e as organizações, comunidades, e/ou objetos, se relacionam entre si no contexto da internet. 4.3 Simple Knowledge Organization System O Sistema de Organização do Conhecimento Simples, tradução na língua portuguesa de Simple Knowledge Organization System (SKOS), é definido como um vocabulário, já recomendado pelo W3C, que fornece um modelo de dados para a disponibilização e compartilhamento de sistemas de organização do conhecimento na Web. O SKOS encontra-se estruturado no RDF e permite representar taxonomias, tesauros, listas de cabeçalhos de assunto, esquemas de classificação e outras formas de organização do conhecimento (W3C, 2017). A primeira versão do SKOS surgiu em 2004, sendo postulado como recomendação ante o W3C e, finalmente, se converteu em recomendação desse consórcio em agosto de 2009 (LINKED OPEN DATA VOCABULARIES, 2017). O SKOS tem o intuito de favorecer a reutilização e interoperabilidade entre os vocabulários controlados. Ele foi criado como uma opção para a transição dos sistemas de organização de conhecimento tradicionais para o ambiente da internet, permitindo a representação de elementos semânticos de recursos informacionais, “SKOS fornece um elo entre o formalismo lógico rigoroso das linguagens de ontologias e o mundo caótico, informal e pouco estruturado de ferramentas de colaboração baseadas na Web” (RAMALHO, 2015, p. 68). 55 Na atualidade, comunidades que compartilham foco em determinados domínios do conhecimento estão adotando o SKOS como mecanismo para representar seus vocabulários na busca da interoperabilidade com outras instâncias aproveitando o potencial da rede internet. 4.4 Data Catalog Vocabulary O Data Catalog Vocabulary (DCAT) é “um vocabulário RDF criado para facilitar a interoperabilidade entre catálogos de dados” (W3C, 2017). Foi criado no Digital Enterprise Research Institute (DERI), padronizado no grupo de trabalho Government Linked Data (GLD) do W3C, consórcio que na atualidade fornece as recomendações e atualizações acerca deste vocabulário. O DCAT é usado para descrever datasets em catálogos de dados, buscando melhorar a descoberta de recursos, a disponibilização descentralizada de catálogos e a curadoria digital (W3C, 2017). Ainda, incorpora metadados de outros vocabulários que já existem, como nos casos do Dublin Core e o FOAF. A Figura 7, apresenta o modelo de dados do vocabulário DCAT. 56 Figura 7 – Modelo de dados do DCAT (Colômbia) Fonte: W3C (2017). Percebem-se no modelo elementos inseridos a partir de outros esquemas, quanto maioritariamente o Dublin Core, mas também do SKOS e FOAF. 4.5 GEONAMES O GEONAMES é um banco de dados geográficos, disponível para uso gratuito, que atualizado diariamente fornece dados que descrevem lugares, acidentes geográficos, divisões político-administrativas, dentre outras entidades localizáveis geograficamente (GEONAMES, 2017). Existe a possibilidade de obter características das entidades geolocalizáveis tais como nomes em várias línguas; coordenadas geográficas; população; se for o caso, altitude, fuso horário, etc. O GEONAMES utiliza sistemas de codificação para países conforme normas internacionais e sistemas de codificação próprios que permitem identificar classes dos lugares, como também descrever classificações de subtipos de divisões administrativas (GEONAMES, 2017). 57 Os dados do GEONAMES são fornecidos por todos os continentes do mundo, mediante instituições tanto públicas como privadas, tendo como exemplo delas o Instituto Brasileiro de Geografia e Estatística (IBGE), do Brasil; o Departamento Administrativo Nacional de Estadística (DANE), da Colômbia; The European Environment Agency, da Comunidade Europeia, dentre outras. O intuito é manter um banco de dados atualizado que proporcione dados estruturados que possam agir como elos na linkagem de dados na web. 4.6 Desenvolvimento de perfil de aplicação “O uso de vocabulários de esquemas internacionalmente reconhecidos, como o caso do Dublin Core e do FOAF, facilita a interoperabilidade entre sistemas.” (ARAKAKI, 2016, p. 35). No entanto, as organizações ou os entornos onde eles vão agir, necessitam de modelos de dados que apoiem essas necessidades de interoperabilidade, prática que implica métodos para o estabelecimento e a concepção desses modelos de dados, que por sua vez, vão se utilizar desses vocabulários nos seus processos descritivos (MALTA, 2014). Ainda, esses modelos de dados vêm a abordar a questão da inexistência de um padrão de metadados que funcione para várias comunidades em geral, por isso, Coyle e Baker (2009, tradução nossa): “Quando se trata de metadados, um tamanho não serve para todos”. Considerando os domínios do conhecimento, diversos e dinâmicos por natureza, os seus parâmetros de ordem, correspondem às “formas de representação construídas para descrever o conteúdo e a forma da informação corporificada, registrada, aquela passível de tratamento, armazenamento, acesso, recuperação, uso, reuso e preservação” (SANTOS, 2017, p. 4). Os perfis de aplicação vêm como um auxílio na necessidade de adaptação dos conjuntos de metadados existentes, sendo que esses metadados agem como parâmetros de ordem dentro de um domínio de conhecimento determinado. Os parâmetros de ordem como formas de representação, encontram-se em ambientes informacionais, integrando assim sistemas informacionais dinâmicos. Esse dinamismo se dá porque os parâmetros de ordem auxiliam e são utilizados nas interações próprias dos padrões de comportamento. Esses padrões de comportamento são as 58 diversas manifestações da sociedade, onde as interações estão permanentemente mudando, pelos indivíduos e as necessidades que as compõem e dinamizam (SANTOS, 2017). É por isso que apesar de existirem conjuntos de metadados construídos de forma clara, eles têm um alcance limitado a um domínio de conhecimento, ou comunidades de prática como nomeadas por Duval et al. (2002), devido às necessidades descritivas específicas que abrangem esses metadados e pelas aplicações particulares, as quais tendem a ser diversas (COYLE; BAKER, 2009). Neste contexto, surgem os perfis de aplicação para facilitar a interação entre distintos conjuntos de metadados. Eles são então, “um conjunto de metadados selecionados de um ou mais esquemas de metadados e combinados em um esquema composto” (DUVAL et al., 2002, tradução nossa). O seu propósito é adaptar esquemas já existentes tendo como premissa manter a interoperabilidade entre os novos esquemas criados e os que têm dado fundamento a esses novos esquemas (DUVAL et al., 2002, tradução nossa). Além disso, os perfis de aplicação apresentam a forma como esses novos esquemas de metadados podem ser usados em um contexto que tenha as suas próprias regras de uso. Um perfil de aplicação é então “um constructo genérico para desenhar registros de metadados” (BAKER; COYLE, 2013). Eles correspondem a um método para expressar padrões de metadados que sejam independentes das plataformas e que descrevam a estrutura e o conteúdo dos dados. Os perfis de aplicação usam vocabulários RDF já existentes, e especificam como seus elementos se restringem e se empacotam num contexto colaborativo (BAKER; COYLE, 2013). Souto (2014) apresentou um perfil de aplicação específico para ser usado em um contexto de descrição arquivística, que atingisse uma norma internacional específica desse domínio do conhecimento. Esse perfil de aplicação procurou a descrição de unidades arquivísticas utilizando um vocabulário próprio comum, baseado no modelo RDF. A própria DCMI mantém diretrizes para a criação de perfis de aplicação alicerçadas em seus conjuntos de metadados. O site da iniciativa apresenta orientações para a criação de perfis de aplicação Dublin Core, explicando quais os componentes significativos e o 59 processo do desenvolvimento desses perfis, intitulados por eles como Dublin Core Application Profile (DCAP) (DUBLIN CORE METADATA INITIATIVE, 2017). 60 5 RELATO DOS ESTUDOS DE CASO Finalizada a análise de conteúdo nas instruções recuperadas por cada país, as seções a seguir apresentam o resultado em cada uma das fases propostas para a obtenção dos objetivos da pesquisa. Individualizou-se a situação de cada país estu