UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUISTA FILHO” Faculdade de Filosofia e Ciências Programa de Pós-graduação em Ciência da Informação ELIZABETE CRISTINA DE SOUZA DE AGUIAR MONTEIRO DIREITOS AUTORAIS NOS REPOSITÓRIOS DE DADOS CIENTÍFICOS: análise sobre os Planos de Gerenciamento dos Dados Marília 2017 UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUISTA FILHO” Faculdade de Filosofia e Ciências Programa de Pós-graduação em Ciência da Informação ELIZABETE CRISTINA DE SOUZA DE AGUIAR MONTEIRO DIREITOS AUTORAIS NOS REPOSITÓRIOS DE DADOS CIENTÍFICOS: análise sobre os Planos de Gerenciamento dos Dados Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Informação da Faculdade de Filosofia e Ciências, da Universidade Estadual Paulista – UNESP – Campus de Marília para obtenção do título de Mestre Linha de Pesquisa: Informação e Tecnologia Orientador: Prof. Dr. Ricardo César Gonçalves Sant’Ana Marília 2017 ELIZABETE CRISTINA DE SOUZA DE AGUIAR MONTEIRO Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Informação da Faculdade de Filosofia e Ciências da Universidade Estadual Paulista – UNESP – Campus de Marília para obtenção do título de Mestre ___________________________________________________ Prof. Dr. Ricardo César Gonçalves Sant’Ana (Orientador) Universidade Estadual Paulista – UNESP ______________________________________________ Prof. Dr. José Eduardo Santarém Segundo Universidade de São Paulo - USP _________________________________________ Prof. Dr. Rogério Aparecido Sá Ramalho Universidade Federal de São Carlos - UFSCar Marília 2017 Dedico a minha família e a todos que participaram de cada passo em direção a conclusão do Mestrado. AGRADECIMENTOS Agradeço a Deus por toda obra feita em minha vida. A minha mãe e irmã que me dão suporte e amor. Ao meu marido Leonardo e ao nosso filho Eduardo pelo amor e carinho que me fortalece a cada dia e me incentiva a crescer como pessoa e como profissional. Ao meu orientador prof. Dr. Ricardo César Gonçalves Sant’Ana por todo aprendizado e confiança. Aos profs. José Eduardo Santarém Segundo e Rogério Aparecido Sá Ramalho pelas contribuições que enriqueceram a dissertação. Ao Grupo de Pesquisa sobre Tecnologias de Acesso a Dados (GPTAD). Ao projeto de extensão Competências Digitais para a Agricultura Familiar (Codaf). Á Faculdade de Filosofia e Ciências (FFC) que me proporciona conhecimentos a cada dia. A todos os funcionários da FFC que participam da construção de minha vida acadêmica. A todos os funcionários da biblioteca da FFC que contribuíram para que concluísse as atividades do mestrado. A todos os docentes do Programa de Pós-graduação em Ciência da Informação Aos amigos que conquistei nessa jornada. A ciência esta cada vez mais dependente de dados. Fox e Hendler (2011) RESUMO A enchente de dados científicos nos últimos anos apresenta desafios e novas oportunidades. Os desafios incluem a otimização no uso e reuso de dados e as oportunidades, no desenvolvimento de infraestrutura com implementação de repositórios de dados e todas as atividades inerentes a eles como gerenciamento, descrição, disseminação, integração, direitos autorais, privacidade, quando devida, qualidade e preservação de conjunto de dados. O Plano de Gerenciamento de Dados é um documento composto por diretrizes que orientam os pesquisadores na articulação para liberarem seus conjuntos de dados que ficarão depositados nos repositórios. As diretrizes descritas no Plano de Gerenciamento de Dados precisam ser explícitas em relação às questões sobre direito autoral. O licenciamento de dados estabelece claramente os termos de uso evitando problemas jurídico futuros. As licenças Creative Commons e as Open Data Commons são usadas para licenciar dados e justificam o objetivo dessa pesquisa que consistem em investigar como os repositórios de dados das cem melhores universidades do mundo explicitam em seus Planos de Gerenciamento de Dados as recomendações relacionadas aos direitos autorais dos dados. A metodologia utilizada foi baseada na pesquisa quantitativa e qualitativa, incluindo estudo exploratório-descritivo. A coleta de dados foi realizada nos Planos de Gerenciamento de Dados dos repositórios implementados nas 100 melhores universidades do mundo. Os resultados demostram que a maioria das universidades analisadas implementaram repositório de dados, porém não são todos os repositórios que dispõe de PGDs e de orientações relacionadas aos direitos autorais. Palavras-chave: Repositório de dados. Direito autoral. Gerenciamento de dados. Plano de Gerenciamento de dados. Licenças de uso. ABSTRACT The flood of scientific data in recent years presents challenges and new opportunities. Challenges include optimizing the use and reuse of data and opportunities, developing infrastructure with implementation of data repositories and all activities inherent to them such as management, description, dissemination, integration, copyright, privacy, where appropriate, quality and preservation of data set. The Data Management Plan is a document composed of guidelines that guide the researchers in the articulation to release their datasets that will be deposited in the repositories. The guidelines outlined in the Data Management Plan need to be explicit in relation to copyright issues. The licensing of data clearly establishes the terms of use avoiding future legal problems. Creative Commons and Open Data Commons licenses are used to license data and justify the aims of this research which consists of investigating how the data repositories of the world's top 100 universities spell out in their Data Management Plans the recommendations related to copyright of data. The methodology used was based on quantitative and qualitative research, including an exploratory-descriptive study. The data collection was done in the Data Management Plans of the repositories implemented in the 100 best universities in the world. The results show that most of the universities analyzed have implemented a data repository, but not all repositories have PGDs and copyright guidelines. Key-words: Data repository. Intellectual property. Data management. Data management plan. Use license. LISTA DE GRÁFICOS Gráfico 1– Total de universidade com Repositório de Dados .............................. 73 Gráfico 2 – Quantidade de Repositório de Dados por país .................................. 74 Gráfico 3 – Relação de Repositórios de Dados com PGDs ................................. 76 Gráfico 4 – PGDs com explicitação de DA ........................................................... 77 Gráfico 5 –Explicitação de licenças de uso nos PGDs ......................................... 87 Gráfico 6 – PGDs que mencionam a licença Creative Commons ........................ 96 LISTA DE FIGURAS Figura 1 - Identificação do número de repositórios de dados ............................... 15 Figura 2 – Interesse sobre “data repository” por países do mundo ...................... 20 Figura 3 – Tendência de busca por “data repository” ........................................... 21 Figura 4 - Ciclo de Vida dos Dados na Ciência da Informação (CVD-CI) ............ 22 Figura 5 – Fase da coleta com o fator Direitos Autorais ....................................... 23 Figura 6 – Repositórios Institucionais em todo o mundo ...................................... 35 Figura 7 - Modelo de publicação científica com direitos autorais de dados ......... 37 Figura 8 – Repositório de Dados no mundo ......................................................... 38 Figura 9 - Todos os dados científicos online ........................................................ 40 Figura 10 – Países signatários da Convenção de Berna ..................................... 50 Figura 11 - Material licenciado CC remixado........................................................ 59 Figura 12 – Tela inicial do DMPtoll ....................................................................... 69 Figura 13 – Ciclo de Vida dos Dados no Repositório ........................................... 70 Figura 14 - Ilustração do direcionamento das análises ........................................ 71 LISTA DE QUADROS Quadro 1 - Paradigmas da ciência ....................................................................... 42 Quadro 2 - Aspectos dos direitos autorais ........................................................... 52 Quadro 3 - Universidades que explicitam direito autoral em seus PGDs ............ 78 Quadro 4 – Relação universidade X licenças de uso ........................................... 94 LISTA DE ABREVIATURAS ASPI Associação Paulista da Propriedade Intelectual CI Ciência da Informação GPL General Public License OECD Organisation for Economic Co-Operation and Development PGD Plano de Gerenciamento de Dados WIPO World Intellectual Property Organization SUMÁRIO 1 INTRODUÇÃO ............................................................................................. 13 1.1 Problema da pesquisa .................................................................................. 18 1.2 Objetivos ...................................................................................................... 19 1.3 Justificativa ................................................................................................... 19 1.4 Delimitação do tema e objeto de pesquisa ................................................... 21 1.4.1 Ciclo de Vida dos Dados .............................................................................. 22 1.4.1.1 Fases do Ciclo de Vida dos Dados ............................................................... 23 1.4.1.2 Fatores das fases do Ciclo de Vida dos Dados ............................................. 26 1.5 Metodologia .................................................................................................. 29 1.6 Estrutura do texto ......................................................................................... 30 2 REPOSITÓRIO DE DADOS CIENTÍFICOS .................................................. 32 2.1 Repositório de dados e a comunicação científica ......................................... 39 2.2 Repositório de dados e e-Science ................................................................ 41 3 DIREITOS AUTORAIS DE DADOS CIENTÍFICOS ....................................... 46 3.1 Propriedade intelectual ................................................................................. 46 3.2 Direitos autorais ............................................................................................ 51 3.2.2 Direito e moral e Direito patrimonial .............................................................. 53 3.3 Licenças de uso ............................................................................................ 55 4 PLANO DE GERENCIAMENTO DE DADOS ................................................ 65 5 ANÁLISES E DISCUSSÕES ......................................................................... 70 5.1 Identificação dos repositórios de dados das universidades ........................... 72 5.2 Identificação dos Planos de Gerenciamento de Dados .................................. 75 5.3 Explicitação dos Planos de Gerenciamento de Dados com instruções sobre direitos autorais ............................................................................................. 76 6 CONSIDERAÇÕES FINAIS ........................................................................... 99 REFERÊNCIAS ............................................................................................. 103 APÊNDICE A ................................................................................................ 112 ANEXO A ...................................................................................................... 113 13 1 INTRODUÇÃO Os dados científicos também são apresentados como dados de pesquisa, dados brutos, dados primários e dados primários de pesquisa pelos autores Dudziak (2016), Borgmam et al. (2015), Sales e Sayão (2012) e Tolle, Tansley e Hey (2011). Foi adotado nesta pesquisa o termo dados científicos para padronização do termo por estar de acordo com os trabalhos citados. Dados resultantes da investigação científica de origens computacionais, experimentais, observacionais (NATIONAL SCIENCE BOARD, 2005) e a possibilidade de seu compartilhamento e reutilização têm impulsionado transformações na práxis científica. Estes fatores contribuem para o direcionamento da atenção de pesquisadores na oportunidade de compartilhamento de dados e de instituições para aplicação de recursos na implementação e manutenção de repositórios de dados científicos no apoio à infraestrutura para melhor gerenciamento dos dados (MONTEIRO; SANT’ANA, 2016). Fox e Hendler (2011) destacam que a ciência está cada vez mais dependente de dados. De acordo com Lynch (2011) o registro científico poderia disponibilizar os dados científicos que embasaram seu desenvolvimento com a finalidade de que outros pesquisadores pudessem reaplicá-los para reproduzir resultados inéditos. Santos e Sant’Ana (2002) destacam que dado é conceituado como “[...] um elemento básico, formado por signo ou conjunto finito de signos que não contém, intrinsecamente, um componente semântico, mas somente elementos sintáticos.” De acordo com a Organisation for Economic Co-Operation and Development (OECD) (2007, p. 13, tradução nossa) dados científicos [...] são definidos como registros factuais (números, registros textuais, imagens e sons) utilizados como fontes primárias para a pesquisa científica, e que são geralmente aceitos na comunidade científica como necessários para validar os resultados da pesquisa. Um conjunto de dados de pesquisa constitui uma representação sistemática, parcial do sujeito a ser investigado.1 1 [...] are defined as factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial representation of the subject being investigated. 14 Dados científicos, segundo Dudziaki (2016) são “[...] os materiais comumente registrados e aceitos na comunidade científica como necessários para validar os resultados de pesquisa [...]” e, nessa ambiência, incluem diversos materiais como documentos, planilhas, cadernos de laboratório ou de campo, questionários, transcrições, áudio, vídeo, texto, imagens, fotografias, slides, sequências de proteínas ou genéticas, amostras, objetos digitais gerados durante a pesquisa, algoritmos, scripts, software de simulação, fluxo de trabalhos, procedimentos operacionais, padrões e protocolos (DUDZIAKI, 2016). Agências de financiamento de países como Estados Unidos exigem a disponibilização dos dados científicos para financiamento dos projetos de pesquisas (BORGMAN et al., 2015). Revistas científicas como Science, Nature e PloS orientam os autores que vão submeter seus artigos a liberarem dados científicos no momento da publicação do artigo ou depositem em repositórios de dados. Os dados coletados pelos pesquisadores nas diversas áreas do conhecimento estão sendo considerados como informação científica e precisam ser tratados de forma a viabilizar a sua organização, recuperação e difusão e, assim, auxiliar a pesquisa colaborativa (MONTEIRO; SANT’ANA; SANTARÉM SEGUNDO, 2016). Capurro e Hjorland (2007, p.149) apresentam informação no sentido de conhecimento comunicado e destacam que “É lugar comum considerar-se a informação como condição básica para o desenvolvimento econômico juntamente com o capital, o trabalho e a matéria-prima, mas o que torna a informação especialmente significativa na atualidade é sua natureza digital.” Observa-se a discussão sobre dados na Ciência da Informação (CI) no Brasil com eventos ocorridos na área como o I, II e III Encontro Internacional Dados, Informação e Tecnologia, realizados nos anos de 2014, 2015 e 2016 respectivamente, na Faculdade de Filosofia e Ciências - Unesp Campus de Marilia, no ENANCIB 2013, 2014, 2015 e 2016, no GT8 com apresentação e discussão de trabalhos relacionados a dados, no Workshop em Data Science - I Workshop Desafios no contexto contemporâneo para promover a nova ciência baseada em dados de pesquisa realizado no Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) em 2015 (MONTEIRO, SANT’ANA, 2016), no VI Seminário em Ciência da Informação ocorrido na Universidade Estadual de Londrina no ano de 15 2016 e especificamente sobre Repositórios de dados no I Fórum Nacional de Repositórios digitais realizado na Universidade Federal do Rio Grande do Norte em 2016. Infere-se, assim, que dados científicos estão adquirindo relevância nos estudos e práticas da CI, pois o foco vem sendo ampliado da informação para dados na geração de conhecimento. Concomitante ao aumento de discussões e usos de dados percebe-se, pelo gráfico 1, o aumento de repositórios de dados registrados no re3data.org2, um registro global de repositórios de dados de pesquisa que abrange repositórios de diferentes disciplinas acadêmicas. Ele apresenta repositórios para o armazenamento permanente e acesso aos conjuntos de dados para pesquisadores, instituições de financiamento, editores e instituições acadêmicas. O re3data.org promove uma cultura de partilha, maior acesso e melhor visibilidade dos dados da pesquisa. Figura 1 – Identificação do número de repositórios de dados Fonte: re3data.org 2 Disponível em: . Acesso em 25 ago. 2016. 16 Verifica-se no gráfico 1 que desde 2012 o registro de repositórios de dados no re3data.org aumentou chegando a margem de identificar e listar 1500 repositórios de dados disponíveis na web em fevereiro de 2016. Dados e informações digitais gerados por atividades da comunidade científica compõem os repositórios de dados científicos e necessitam de gerenciamento (SAYÃO; SALES, 2012). Esta gestão integra o arquivamento, preservação, meios para acrescentar valor aos dados e otimizar a capacidade de reuso (SAYÃO; SALES, 2012). Os repositórios de dados são mantidos por conjuntos de ações que viabilizam o armazenamento de dados visando à otimização da recuperação, o que amplia as potencialidades de reuso destes dados entre os pesquisadores. Desta forma, agiliza os processos de investigação e, consequentemente, o avanço na ciência. Com uma infraestrutura implementada por repositórios de dados, apoiada por um Plano de Gerenciamento de Dados (PGD) bem fundamentado, os pesquisadores têm aporte propício para depósito de seus conjuntos de dados e busca e recuperação de dados já coletados por outros pesquisadores, que poderão ser reutilizados em suas pesquisas. Infraestrutura é uma base que suporta a construção de uma estrutura. Sua preparação e implementação dependem do propósito de projetos e de suas respectivas comunidades. De acordo com Borgman et al. (2015, p. 207, tradução nossa) infraestrutura são ecologias ou sistemas adaptativos complexos “[...] que consistem de muitas partes que interagem através de processos sociais e técnicos, com variados graus de sucesso.”3 e incluem aparatos tecnológicos, recursos humanos, colaboração, acesso distribuído e informação documentada. Infraestrutura para gerenciamento de dados depende das características e necessidades de uma comunidade e seu know-how para gerir, curar e fazer a análise, favorecendo o acesso a seus dados científicos de modo que outros reutilizem para desenvolvimento de novos métodos de pesquisas (BORGMAN et al., 3 [...] consist of many parts that interact through social and technical processes, with varying degrees of success. 17 2014, 2015). A visibilidade que a infraestrutura oportuniza pode tornar os dados mais acessados. Para os documentos, as informações e instruções referentes ao gerenciamento dos dados científicos disponibilizados nos repositórios foi adotado, nesta pesquisa, o termo Plano de Gerenciamento de Dados para padronização, sendo que os sítios analisados denominaram com mais de uma forma como Data Management Planning, Research Data Management, Data Management e Policy and Terms on Use. A análise deste contexto é permeada pelo estudo dos repositórios de dados implementados pelas universidades. As pesquisas desenvolvidas na Ciência da Informação e áreas afins forneceram embasamento teórico. Foi aplicado o Ciclo de Vida dos Dados, composto por quatro fases e seis fatores (SANT’ANA, 2016) apresentado na subseção 1.4.1. Nesta pesquisa foram adotados a fase da Coleta com o fator Direitos autorais, uma das vertentes da propriedade intelectual. A propriedade intelectual é a área do direito que protege, por meio de leis, os inventores ou responsáveis por qualquer produção intelectual, seja no domínio industrial, científico, literário ou artístico, facultando aos seus titulares direitos econômicos os quais ditam a forma de comercialização, circulação, utilização e produção dos bens intelectuais ou dos produtos e serviços que incorporam tais criações (BRASIL, 2007; ASSOCIAÇÃO PAULISTA DA PROPRIEDADE INTELECTUAL (ASPI), c2016). A propriedade intelectual possui duas vertentes principais: Direitos autorais e Propriedade industrial. Direito autoral é um dos ramos da ciência jurídica em que permeia “[...] um conjunto de direitos morais e patrimoniais sobre as criações do espírito, expressas por quaisquer meios ou fixadas em quaisquer suportes, tangíveis ou intangíveis, que se concede aos criadores de obras intelectuais.” (ASPI, c2016, p. 1). O conjunto de direitos que engloba os direitos autorais inclui, mas não estão limitados, a trabalhos literários, artísticos e cultura imaterial como romances, poemas, peças de teatro, referências, filmes, música, desenhos, desenhos técnicos, fotografias, símbolos, imagens, esculturas, programas de computador, internet, entre outras obras (WORLD INTELLECTUAL PROPERTY ORGANIZATION (WIPO), [20-- ]). 18 As universidades, por meio de seus repositórios, podem definir diretrizes que permeiam a propriedade intelectual estabelecendo políticas para melhor apropriação contratual que regem as negociações entre os agentes envolvidos na produção (BASTOS; ODDONE; VIDOTTI, 2010). As universidades propiciam meios de disseminar o conjunto de dados de sua comunidade com o apoio aos repositórios de dados que potencializam a disseminação e acesso aos dados e a visibilidade e reconhecimento de seus pesquisadores. O desenvolvimento tecnológico dos meios de comunicação está intrinsecamente ligado à evolução da proteção jurídica das obras intelectuais. O avanço científico e a necessidade de arquivamento de dados científicos em repositório de dados mudam consideravelmente a relação de dados e pesquisa, pois a ciência está, atualmente, baseada em dados. 1.1 Problema da pesquisa Os últimos anos têm sido marcados por um aumento demasiado de dados científicos nas diversas áreas do conhecimento, viabilizando o processo de reuso desses dados. Verifica-se que periódicos científicos como o grupo Science, Nature e PloS, entre outros, estão incentivando e, em alguns casos, indicando ser obrigatório a disponibilização dos dados científicos junto ao artigo no momento da submissão ou serem depositados em um repositório de dados científicos. Com esses incentivos, há uma crescente disponibilização de dados nos periódicos científicos e um crescente número de implementação de repositório de dados e de periódicos de dados. Nessa premissa, muitas discussões emergem na literatura científica sobre o reuso de dados, e a discussão relacionada ao direito autoral nos repositório de dados, se torna propício. O panorama da reflexão apresentada motiva a problemática deste estudo que está baseada na seguinte questão: Os pesquisadores que vão depositar seus conjuntos de dados nos repositórios de dados têm informações relacionadas ao direito autoral? 19 1.2 Objetivos O objetivo geral desta pesquisa é investigar como os repositórios de dados das cem melhores universidades do mundo explicitam em seus Planos de Gerenciamento de Dados as recomendações relacionadas aos direitos autorais dos dados. Os objetivos específicos são: ● localizar as cem melhores universidades do mundo e seus repositórios de dados; ● identificar os Planos de Gerenciamento de Dados de cada repositório de dados encontrado; ● analisar os Planos de Gerenciamento de Dados localizando abordagens referentes aos direitos autorais e licenças de uso; ● evidenciar a explicitação dos direitos autorais identificados nos PGDs. 1.3 Justificativa Os Repositórios de dados científicos são ambientes implementados nas universidades com infraestrutura apropriada para dar suporte aos pesquisadores no gerenciamento e na disponibilização de dados científicos e, dessa forma, contribuir para que outros pesquisadores possam reutilizá-los. Pesquisadores podem ter uma série de preocupações ao compartilharem seus dados científicos, destacando as premissas de como serão reconhecidos pela autoria dos dados e como esses dados serão liberados para reutilização. Discutir sobre esses aspectos evidenciando a importância do direito autoral abordado no Plano de Gerenciamento de Dados auxilia os pesquisadores na decisão em disponibilizar seus dados, pois considera as vantagens da liberação planejada e, consequentemente, escolha sobre qual licença de uso os dados serão disponibilizados nos repositórios de dados. Essa pesquisa viabilizou contribuir com a Ciência da Informação ao discutir a explicitação dos direitos autorais apresentados nos Planos de Gerenciamento de Dados dos repositórios de dados. 20 A Ciência da Informação é um campo interdisciplinar voltado ao uso de informação nos diferentes contextos e tem como objeto de estudo a informação registrada para geração de conhecimento. Segundo Saracevic (1995) a Ciência da Informação tem três características gerais: é interdisciplinar; está ligada à tecnologia da informação e é participante ativa na evolução da sociedade da informação, com uma forte dimensão social e humana. Observa-se na figura 2 que os países de maior interesse por repositório de dados, conforme Google Trends, ferramenta gratuita do Google que mede a frequência com que um termo é procurado na Internet, em um determinado período de tempo por determinada localização geográfica, são: Índia, Estados Unidos e Reino Unido. Os valores são calculados em uma escala de 0 a 100, em que 100 é o local com a maior popularidade e 0 indica um local em que o termo tem menos de 1% da popularidade. Foi utilizado o termo “data repository” pois com o termo “repositório de dados” não aparecerem resultados. Dessa forma verificou-se a importância da discussão do tema no contexto da Ciência da Informação no Brasil. Figura 2 – Interesse sobre “data repository” por países do mundo Fonte: https://www.google.com.br/trends/explore?q=data%20repository. Acesso em: 25 set. 2016 A geração, organização, gerenciamento, transferência, acesso, utilização e curadoria de dados e de informações nos diversos ambientes científicos, associados aos aparatos tecnológicos, em resumo, constituem alguns dos elementos decisivos para o estudo das relações entre dados, informação, tecnologia e sociedade. Sendo assim, esta pesquisa tem o intuito de contribuir com fornecedores e usuários de dados nos ambientes de repositórios de dados discutindo a relação dos direitos autorais entre as partes envolvidas. 21 A importância científica na realização dessa pesquisa está em fornecer subsídios com a finalidade de que os profissionais envolvidos no gerenciamento dos dados nos repositórios de dados possam aplicar Planos de Gerenciamento de Dados a fim de que todos os envolvidos participem das discussões dos direitos autorais desde a implementação dos repositórios, contribuindo para diminuir as inquietações e problemas inerentes a cessão dos dados. Figura 3 – Tendência de busca por “data repository” Fonte: https://www.google.com.br/trends/explore?q=data%20repository. Acesso em: 25 set. 2016 Conforme a figura 3, o interesse por repositório de dados ampliou no período de 2011 até setembro de 2016, chegando ao pico de popularidade em 2016, confirmando a relevância e importância de se discutir o tema no campo científico. A proposta de estudar a relação dos direitos autorais no ambiente de repositório de dados advém de interesse particular instigado pelas leituras relacionadas aos temas e as discussões envolvidas com a preocupação dos pesquisadores em disponibilizar seus dados e não serem reconhecidos pelo seu trabalho. 1.4 Delimitação do tema e objeto da pesquisa O tema do estudo foram os direitos autorais abordados pelos repositórios de dados científicos implementados nas cem melhores universidades do mundo e disponibilizados às suas comunidades. O objeto da pesquisa foi os Planos de Gerenciamento de Dados. 22 O Ciclo de Vida dos Dados proposto por Sant’Ana (2016) foi utilizado para verificar a explicitação dos direitos autorais nos repositórios de dados. Os resultados apresentados abrangeram o Plano de Gerenciamento de Dados dos repositórios de dados das cem melhores universidades do mundo. O escopo da pesquisa foi as cem melhores universidades por verificar que a maioria delas implementaram repositórios de dados para sua comunidade. 1.4.1 Ciclo de Vida dos Dados O Ciclo de Vida dos Dados na Ciência da Informação apresentado por Sant’Ana (2016), é um modelo que leva em conta características e especificidades da Ciência da Informação, partindo-se de pesquisa realizada sobre modelos de ciclo de vida de dados de áreas correlatas e propõe uma estrutura de atividades composta por quatro fases: Coleta, Armazenamento, Recuperação e Descarte perpassando por seis fatores: Preservação, Disseminação, Direitos Autorais, Qualidade, Integração e Privacidade. Figura 4 - Ciclo de Vida dos Dados na Ciência da Informação (CVD-CI) Fonte: Adaptado de Sant’Ana, 2016, p. 123 23 O destaque da figura 4 realça os seis fatores, Preservação, Disseminação, Direitos Autorais, Qualidade, Integração e Privacidade relacionados às 4 fases do CVD-CI. Figura 5 – Fase da coleta com o fator Direitos Autorais Fonte: Adaptado de Sant’Ana, 2016, p. 123 Na figura 5 evidencia a Fase da Coleta, perpassando pelos Direitos autorais utilizados para atingir os objetivos propostos na pesquisa. As Fases e os fatores do Ciclo de Vida dos Dados são retratados na subseção 1.4.1.1 para demonstrar como é sua dinâmica. 1.4.1.1 Fases do Ciclo de Vida dos Dados O CVD-CI possui quatro fases: a) Coleta 24 A fase da coleta envolve atividades relacionadas ao planejamento de como os dados serão obtidos, filtrados e organizados, identificando sua estrutura, formato e meios de descrição (SANT’ANA, 2013). Nesta fase o repositório poderá estruturar o Plano de Gestão de Dados (PGD) instrumento para a orientação dos pesquisadores. O PGD é um documento formal desenvolvido no início do projeto para que seja propício descrever todos os aspectos da gestão dos dados arquivados, observando as políticas vinculadas ao repositório. O planejamento de desenvolvimento do PGD garante ao pesquisador quem será responsável pelos seus dados, quem terá os direitos de gestão e divulgação dos dados se é sua agência de fomento, sua instituição, os sujeitos da pesquisa, seus colaboradores e/ou o próprio pesquisador (DATA..., 2016a). Os direitos de propriedade irão determinar como os dados podem ser processados, descrevendo todas as informações sobre direitos autorais e licenças de uso em seu PGD incluindo a negociação de condições de processamento, divulgação e reutilização (DATA..., 2016a). b) Armazenamento Essa fase abrange as atividades relacionadas “[...] ao processamento, transformação, inserção, modificação, migração, transmissão e toda e qualquer ação que vise a persistência de dados em um suporte digital.” (SANT’ANA, 2013, p. 18). É a fase com enfoque mais tecnológico com definição de aspectos que garantem o reuso dos dados o que leva a necessidade de estruturação de metodologias e ações relacionadas a persistência dos dados (SANT’ANA, 2016). Alguns critérios podem ser descritos no PGD e adotados no armazenamento como: ● Armazenar dados em formatos abertos; ● Ter mais de um agente responsável pelo acesso aos dados; ● Fazer backup de dados em locais fisicamente distintos; ● Em caso de grandes tamanhos de arquivos, o agente pode decidir backup apenas os elementos mais essenciais; 25 ● Regularmente, ou depois de um movimento ou download, verificar a integridade dos dados, o tamanho do arquivo e data para averiguar se os dados foram alterados (DATA..., 2016b). c) Recuperação A fase da recuperação consiste na consulta e visualização dos dados “[...] com as etapas posteriores a obtenção do dado: estruturação, filtro, tratamento, representação, refinamento e interatividade.” (SANT’ANA, 2013, p. 18). Pesquisadores da Web semântica estão focando nos aspectos formais das linguagens de representação semântica (FOX; HENDLER, 2011). Essas linguagens estão sendo padronizadas e as comunidades estão usando-as para a construção e uso de ontologias (FOX; HENDLER, 2011). As ontologias auxiliam nesse contexto trazendo significados e proporcionando a interação e o compartilhamento de dados e informações o que facilita a recuperação pelos usuários.. Os repositórios que fornecem campos de buscas com filtros, incluindo vocabulários controlados favorecem a busca dos usuários e cooperam para uma melhor recuperação. d) Descarte A fase de descarte pode ocorrer após os dados cumprirem todos os objetivos planejados ou alcançado o limite de tempo previsto. O descarte pode transcorrer por transferência para outras bases (SANT’ANA, 2013). Viabilizados todos os objetivos propostos para determinado conjunto de dados eles podem ser descartados. Deve-se sempre atentar ao fato de que exclusão do arquivo não é suficiente para assegurar que os dados armazenados foram completamente removidos. Os arquivos apagados podem ser recuperados usando ferramentas de software próprias para esse fim (DATA..., 2016a). Como verificado na figura 4, todas as fases do Ciclo de Vida dos Dados são permeadas por seis fatores: Preservação, Disseminação, Direitos autorais, 26 Qualidade, Integração e Privacidade. Os fatores são apresentados na subseção abaixo 1.4.1.2 Fatores das fases do Ciclo de Vida dos Dados O CVD-CI tem suas fases permeadas por seis fatores evidenciadas como: a) Preservação O Objetivo da Preservação deve ser pensado e planejado desde a coleta dos dados científicos para assegurar que sejam disponibilizados, pesquisáveis e recuperáveis. Alguns aspectos contribuem na definição de quais dados serão preservados: ● os custos envolvidos na curadoria e armazenamento dos dados; ● a unicidade dos dados; ● os custos de reprodução dos dados, caso seja necessário; ● o formato de dados e a utilização de metadados; ● os aspectos jurídicos, caso a agência ou financiador exija que os dados sejam armazenados em repositórios de domínio público; ● o valor econômico dos dados no futuro; ● os aspectos éticos, por exemplo, se os dados foram obtidos por experimentação em animais ou seres humanos (DATA..., 2016c). b) Disseminação Dados produzidos ou gerados por pesquisadores, laboratórios ou instituições são disseminados e disponibilizados para fins como a reutilização. Disseminar “[...] significa, em uma medida, divulgar, difundir, propagar, mediante condições e recursos de que o cerca [...]” (BARROS, 2003, p. 41). O Fator da Disseminação no contexto dos repositórios envolve aspectos relacionados à disseminação com o intuito de localização e acesso aos dados. 27 Nesse processo aparecem dois agentes, o emissor, aquele que vai emitir os dados ou a informação e o receptor, aquele que vai receber os dados e a informação Originalmente referida com base no esquema tradicional de comunicação – emissor, canal, mensagem, receptor –, o debate sobre disseminação da informação associado à transferência sugere, atualmente, abandonar a unidirecionalidade emissor-receptor para contemplar o usuário numa dimensão mais ampla que o inclui como participante ativo do processo informacional. (LARA; CONTI, 2003, p. 27). A disseminação dos conjuntos de dados auxilia no reconhecimento do trabalho do pesquisador e na localização e reutilização de dados armazenados para evitar retrabalho e gastos já investidos na fase de coleta de dados. c) Direitos Autorais Direito autoral consiste em dar créditos aos responsáveis pela coleta dos dados e na transferência dos dados a outrem, seja pessoa física ou jurídica, via licenças de uso. Quando os conjuntos de dados estiverem disponibilizados em repositórios de dados para reutilização, os detentores dos direitos autorais devem ser citados. Esses dados estarão disponibilizados através de uma licença de uso. Depositar os dados em repositórios de dados contribui para torná-los mais visíveis e possivelmente obter os créditos devidos. O pesquisador pode considerar os benefícios de uma liberação planejada de seus dados de pesquisa. Os direitos autores e licenças de uso de dados serão abordados no capítulo 3. d) Qualidade A qualidade na organização e gerenciamento dos dados garante uma melhor interpretação por outros pesquisadores e tornam os dados confiáveis para reuso. 28 Os dados podem ter variadas formas e tamanhos. A documentação e descrição dos dados auxiliam na padronização e confiabilidade dos mesmos. O PGD contribui com a documentação do histórico de processamento dos dados, que envolvem a coleta, os agentes, o histórico, a proveniência, a descrição com metadados, uso de formatos abertos e facilidade na busca e recuperação. e) Integração No contexto da ciência embasada em grandes quantidades de dados é realidade profissionais que gerenciam dados e pesquisadores que buscam dados que necessitam para o desenvolvimento de suas pesquisas. O processo de busca pode ocorrer em mais de um sistema de informação como repositório de dados, repositórios institucionais que disponibilizam dados e os periódicos científicos e de dados. Com vasta variedade de sistemas espalhados há uma forte necessidade de reunir todos os dados possíveis ou o sistema apontar para onde os dados são encontrados (SALES, 2014). Lopatemko (2001) destaca a necessidade de encontrar soluções para o problema de integração dos dados, que passa pela implementação de um padrão com três características essenciais: ● fácil de implementar para qualquer participante; ● flexível o suficiente para abraçar a diversidade, a estrutura e o significado dos dados em diferentes estados, organizações, ou áreas da ciência; ● poderoso para fornecer serviços de recuperação de informações sofisticados para os usuários. f) Privacidade Dados científicos podem abranger leis de privacidade ou confidencialidade e devem ser armazenados em computadores que não estão ligados em rede, tendo o cuidado desses equipamentos não serem roubados ou seus sistemas invadidos para que os dados não sejam adulterados. Pesquisadores reúnem dados durante a coleta, inclusive, os sensíveis a disponibilização e acesso a todos os usuários. Esses dados abrangem dados 29 pessoais como nome, endereço, ocupação, raça de uma pessoa, origem, etnia, opiniões políticas, saúde física ou mental, registro criminal, orientação sexual, crenças religiosas, de valor econômico, entre outros. O pesquisador dispõe no PGD, se oportuno, o consentimento dos participantes de seu projeto para providenciar o compartilhamento, preservação e uso a longo prazo dos dados confidenciais. É oportuno definir e descrever no PGD qual nível de confidencialidade será mantido. A anonimização e criptografia são métodos para garantir a privacidade. A anonimização de dados é baseada em um protocolo e permite a divulgação legal dos dados e dos metadados sem ferir a integridade dos participantes da pesquisa. Nesse processo os dados e/ou metadados que não serão divulgados recebem pseudônimos ou são criptografados e protegidos. A anonimização consiste no processo de criptografar ou remover informações de identificação pessoal a partir de conjuntos de dados (DATA..., 2016a). Modelos de privacidade como o K-anonimato podem ser uma alternativa para garantir a privacidade dos dados. K-anonimato é “[...] conceituado como uma forma de definir propriedades que um conjunto de dados deve possuir de forma a garantir a privacidade dos envolvidos em sua eventual divulgação ou acesso.” (AFFONSO; SANT’ANA, 2015, p. 4). Outro método com a possibilidade de uso é a criptografia que consiste na conversão de dados em uma forma que não pode ser facilmente compreendido por pessoas não autorizadas. Para segurança, os dados não devem ser armazenados ou transmitidos sem criptografia (DATA..., 2016b). 1.5 Metodologia A metodologia utilizada teve como base a pesquisa bibliográfica para a estruturação da fundamentação teórica concomitante à metodologia quantitativa e qualitativa. Foi utilizada a coleta de dados para fazer o levantamento dos repositórios de dados das 100 melhores universidades do mundo. A coleta de dados se iniciou com a busca das melhores universidades do mundo através do ranking webometrics.info. Para tanto, foi necessário definir o escopo com as 100 melhores universidades do mundo. A localização de repositório 30 de dados nas universidades foram realizadas nos meses de julho à setembro de 2016. Em seguida foi realizado o método exploratório para o levantamento das páginas oficiais das universidades utilizando os links disponibilizados pelo sítio webometrics.info e para localização dos repositórios de dados nos sítios das universidades. O processo de recuperação dos dados foi realizado por meio da coleta dos Planos de Gerenciamento de Dados dos repositórios de dados das universidades. Os Planos de Gerenciamento de Dados foram analisados com base no Ciclo de Vida dos Dados no fator dos Direitos autorais na fase da Coleta. 1.6 Estrutura do texto A presente dissertação está estruturada nas seguintes seções: Seção 1 – INTRODUÇÃO traz o contexto da pesquisa com conceitos iniciais sobre dados científicos, repositórios de dados e propriedade intelectual. Em suas subseções apresenta o problema da pesquisa, objetivo geral e objetos específicos, a delimitação do tema e objeto da pesquisa, a explicitação dos PGDs dentro do Ciclo de Vida dos Dados, a justificativa e a metodologia utilizada. Na seção 2 – REPOSITÓRIO DE DADOS CIENTÍFICOS, traz conceitos acerca dos repositórios, com breve indicação histórica, abordagem de repositório de dados e a comunicação científica e discussão sobre repositório de dados e e- Science. Na seção 3 – DIREITOS AUTORAIS E LICENÇAS DE USO, há uma contextualização histórica sobre propriedade intelectual, as definições de propriedade intelectual, direitos autorais e licenças de uso, apresentando as licenças de uso que podem ser usadas pelos repositórios de dados. A seção 4 - PLANO DE GERENCIAMENTO DE DADOS são discutidas as questões relacionadas ao gerenciamento de dados e o papel dos planos de gerenciamento dos dados. A seção 5 – RESULTADOS E DISCUSSÕES apresenta o resultado das análises dos PGDs dos repositórios de dados localizados, a identificação dos repositórios de dados das universidades, identificação dos Planos de Gerenciamento de Dados de cada repositório e a explicitação dos Planos de Gerenciamento de 31 Dados apresentando as instruções sobre direitos autorais. Os resultados são apresentados com os gráficos e quadros para melhor visualização dos resultados. Na seção 6 – CONSIDERAÇÕES FINAIS apresenta as reflexões e considerações sobre os tópicos abordados em toda a pesquisa. 32 2 REPOSITÓRIOS DE DADOS CIENTÍFICOS A evolução da ciência está altamente relacionada ao aprimoramento do instrumental tecnológico que proporciona à cientistas e pesquisadores coletarem dados nos diversos ramos da ciência. As comunidades científicas viabilizam ações na ciência que envolvem a disponibilização e o compartilhamento de dados científicos em nível nacional e internacional concomitante a implementação de repositório de dados científicos. Morin (2007, p. 106) destaca que a ciência “[...] se baseia ao mesmo tempo no consenso e no conflito. Anda ao mesmo tempo sobre quatro patas independentes e interdependentes: a racionalidade, o empirismo, a imaginação, a verificação.” Os pesquisadores e a evolução de aparatos tecnológicos utilizados nos diversos setores da ciência se relacionam de maneira indissociável para a redefinição de práticas científicas contribuindo para as revoluções que ocorrem no campo científico. No livro A estrutura das revoluções científicas é apontado que as revoluções do pensamento científico “[...] são definidas como um momento de desintegração do tradicional numa disciplina, forçando a comunidade de profissionais a ela ligados a reformular o conjunto de compromissos em que se baseia a prática dessa ciência.” (KUHN, 2006). A conjuntura apresentada por Kuhn (2006) pode ser observada na ciência, em que as ciências experimentais, teóricas e computacionais estão sendo afetadas pela grande quantidade de dados oriundos de várias áreas do conhecimento auxiliando para conduzir a comunidade científica a repensar o papel que esses dados representam no contexto científico. Os autores Gray (2009), Mayer-Schonbeerger e Cukier (2013) têm destacado a importância das tecnologias, das mais variadas, na forma de se fazer ciência. Para esses autores, os desafios tecnológicos incluem a necessidade de melhor capturar, analisar, modelar, visualizar e preservar dados e informações científicas, tornando os sistemas de computação vitais para o moderno ambiente de pesquisa (GRAY, 2009; MAYER-SCHONBEERGER; CUKIER, 2013). O advento do século XXI vem sendo marcado por práticas e descobertas científicas que apontam para campos da ciência no qual o acesso aberto aos dados 33 científicos gera um avanço na realização dos ideais de compartilhamento, uso e reuso de dados (TOLLE; TANSLEY; HEY, 2011; LYNCH, 2003, 2011). Esses fatores contribuem para um repensar na divulgação e disponibilização de dados nos periódicos científicos e em repositórios de dados. Gestão de dados está se tornando um aspecto primordial no processo de investigação científica devido às exigências de agências de financiamento e revistas científicas para liberação de dados de pesquisa no momento da publicação do artigo (BORGMAN et al., 2015). Alinhada a essa premissa, periódicos que publicam dados científicos emergem como mais um canal de comunicação científica para que pesquisadores publiquem seus dados. Periódicos de dados são tendências ímpares nesse contexto e propícios para divulgar conjuntos de dados de forma mais abrangente. Periódicos com essa natureza compreendem mas não estão restritos: Biodiversity Data Journal, Data in Brief da Elsevier, Earth system Science Data, GeoScience Data Journal, Journal of Open Archeology Data, Journal of Open Psychology, Journal of Physical and chemical Research Data, Journal of Open Research Software e Open Health Data. Agências de fomento de países, como nos EUA, estão apontando no avanço da realização de ideais de depósito de dados em repositórios sugerindo ou mesmo obrigando os pesquisadores que tiveram suas pesquisas financiadas por elas a fazerem o depósito em repositório de dados científicos. Conforme Pinfield (2009, p. 165, tradução nossa) Um repositório pode ser definido como um conjunto de sistemas e serviços que facilita o armazenamento, gerenciamento, recuperação, exibição e reutilização de objetos digitais. Os repositórios podem ser estabelecidos por instituições, comunidades, financiadores de pesquisa ou outros grupos. Eles podem fornecer acesso a uma variedade de objetos digitais, incluindo artigos de revistas revisados por pares, capítulos de livros, teses, conjuntos de dados, objetos de aprendizado ou arquivos rich media.4 4 A repository may be defined as a set of systems and services which facilitates the ingest, storage, management, retrieval, display, and reuse of digital objects. Repositories may be set up by institutions, subject communities, research funders, or other groups. They may provide access to a variety of digital objects, including peer-reviewed journal articles, book chapters, theses, datasets, learning objects, or rich media files. 34 Os repositórios de dados são uma evolução dos repositórios digitais no qual o uso de repositórios para a divulgação de trabalhos científicos se iniciou com os repositórios temáticos. No final de 2002 iniciou-se uma revolução na rede de comunicação científica. Esse processo se instituiu com o desenvolvimento dos repositórios temáticos que “[...] se constitui em um conjunto de trabalhos de pesquisa de uma determinada área do conhecimento, disponibilizados na internet.” (CAFÉ et al. 2003, p. 3). Os diversos departamentos de faculdades podem ter seus Repositórios Temáticos. A união de todos os Repositórios Temáticos sobre a responsabilidade da universidade compõe o Repositório Institucional (CAFÉ et al., 2003). Os Repositórios Institucionais (RI) surgiram como uma nova estratégia, propiciando às universidades que acelerassem mudanças no desenvolvimento científico e em sua comunicação (LYNCH, 2003). Segundo Rodrigues (2004, p. 2) os RIs “[...] são colecções digitais que armazenam, preservam, divulgam e dão acesso à produção intelectual de comunidades universitárias.” Lynch (2003, p. 2, tradução nossa) destaca que os RIs são “[...] serviços que uma universidade oferece aos membros de sua comunidade para a administração e disseminação dos materiais digitais criados pela instituição e pelos membros de sua comunidade.” A grande quantidade de Repositórios Institucionais visualizada na figura 6 demonstra a importância dos RIs no contexto mundial. Destaca-se a grande concentração na Europa e Estados Unidos. No Brasil são várias implementações distribuídas entre Nordeste, Sul e Sudeste. 35 Figura 6 – Repositórios Institucionais em todo o mundo Fonte: PINFIELD; SALTER; BATH, 2014 A grande quantidade de instituições que aderiu aos repositórios institucionais, principalmente as universidades, demonstra a importância da produção intelectual de sua comunidade e o papel fundamental da disseminação do conteúdo para dar visibilidade à produção e à comunidade. Os repositórios de dados estão caminhando na mesma direção. Repositórios de dados científicos têm significativa participação no gerenciamento de dados. A grande quantidade de dados coletados ou gerados precisa de representação e gerenciamento para ser recuperada e reutilizada e, assim, favorecer a colaboração científica internacional. A colaboração pode ser facilitada evitando repetição de procedimentos de coleta de dados, auxiliando no avanço da ciência. A ambiência de repositórios de dados viabiliza representar, processar, gerenciar, disseminar e dar acesso aos dados nele depositados, incluindo métodos de curadoria. Reunir conjuntos de dados nesses repositórios propicia o compartilhamento, acesso, uso e reuso dos dados. Rodrigues et al. (2010, p. 22-23, grifo nosso) contextualizam repositório de dados como uma extensão de repositórios 36 [...] “repositório” designa um sistema informático em que existe uma plataforma de armazenamento de objectos representados em ficheiros, capaz de incorporar novos objectos à medida que são produzidos ou submetidos. O repositório oferece serviços que são dirigidos a quem deposita, a quem pesquisa e aos administradores do sistema. Nos repositórios de dados pode ir-se muito além desta visão de repositório de objectos, uma vez que cada conjunto de dados tem características próprias e por isso pode requerer um tratamento diferenciado. Segundo Sales (2014, p. 63-64) a implementação de repositórios de dados tem vários benefícios: ● Amplia a visibilidade dos resultados de pesquisa, posto que, via de regra, só é formalmente disseminada a fração que está registrada nas publicações acadêmicas. ● Proporciona mecanismos de preservação de longo prazo, em termos de preservação digital, de arquivamento seguro e de curadoria digital. ● Permite que o material depositado esteja disponível on-line continuamente para ser consultado e citado mais frequentemente. ● É um instrumento chave para os processos de reformatação e recriação de dados proporcionados pela curadoria digital. ● Abre a possibilidade de criação de novos serviços de informação para pesquisadores e gestores a partir da análise dos dados arquivados e a integração de dados e publicações acadêmicas. ● Permite a criação de redes de repositórios interoperáveis. ● Aumenta o grau de reuso dos dados minimizando a duplicação de esforços e otimizando os investimentos na geração de dados. Na figura 7, apresenta-se o modelo de publicação científica com os repositórios de dados para a publicação e divulgação. Os aspectos relacionados à publicação são abordados demonstrando o reuso de dados científicos e a publicação dos periódicos que publicam dados. Destaca-se a questão abordada sobre os aspectos do direito autoral, já implementados nos repositórios que pode ser estendido para os repositórios de dados. A semântica, estrutura, fidedignidade, integridade, proveniência, autenticidade e fixidade são aspectos consideráveis para a recuperação e reuso de dados. 37 Figura 7 - Modelo de publicação científica com direitos autorais de dados Fonte: SALES; SAYÃO, 2012. O trabalho de pesquisa produz dados e textos que são publicados em periódicos científicos ou armazenados em repositórios temáticos, institucionais ou de dados. As publicações de texto ou conjunto de dados são utilizadas para gerar novos conhecimentos que serão registrados para divulgação. Dados e publicações são vinculados e integrados e podem gerar novos resultados e novas publicações. Todos os fatores descritos na figura 7 estão presentes nos meios de comunicação, repositórios e publicações ampliadas, e o fator direito autoral está presente. Repositórios de dados possibilitam oportunidades sem precedentes em direção ao avanço da pesquisa, instituído em um ambiente com novas ferramentas e serviços para gerenciar, compartilhar e possibilitar a reutilização de dados científicos entre disciplinas e instituições. Repositórios de dados estão presentes nos diversos países do mundo. São mais de 1.100, conforme apresentado na figura 8. Verifica-se uma maior concentração deles na Europa e Estados Unidos da América, assim como repositórios institucionais. 38 Figura 8 – Repositório de Dados no mundo Fonte: KING; FORCE, c2017 Repositórios bem articulados promovem uma colaboração científica transdisciplinar e em grande escala, permitindo que os cientistas construam conhecimentos que proporcionem melhor compreensão e soluções sustentáveis para desafios científicos importantes, ofereçam melhor compreensão pública de problemas tecnológicos através de informações abertamente acessíveis (LEE et al. 2009). Os dados resultantes da investigação científica podem fornecer evidências que são usadas para fundamentar as discussões apresentadas nas publicações científicas ou auxiliar pesquisadores a testar teorias, dar continuidade aos projetos ou embasar novas pesquisas. Os conjuntos de dados fundamentam os resultados da investigação e são atualmente reutilizados nas diversas áreas do conhecimento. O avanço exponencial de dados científicos integra as novas formas de publicação científica alinhada a divulgação de conjuntos de dados através da comunicação científica parametrizada 39 pelos periódicos e repositórios de dados. Sobre esta perspectiva a próxima subseção abordou o papel dos repositórios de dados na comunicação científica. 2.1 Repositório de dados e a comunicação científica A divulgação do conhecimento científico é viabilizada, inclusive, pela publicação. Essa comunicação é uma colaboração em larga escala, com a possibilidade de acesso à pesquisa e possível reprodução de resultados das investigações e experimentos, além de oferecer evidências para a qualidade do trabalho científico (LYNCH, 2011). A comunicação está situada no coração da ciência (MEADOWS, 1999). A comunicação científica consiste em assegurar o intercâmbio de [dados] e informações sobre os trabalhos em andamento ou já finalizados e viabilizar o contato entre pesquisadores e suas pesquisas sendo possível o trabalho colaborativo (LE COADIC, 2004). Le Coadic (2004) destaca o paradigma do trabalho coletivo sendo a colaboração, trabalho organizado em rede de pessoas e computadores, novas formas de intercâmbio de informações e de acesso ao conhecimento. O autor destaca os três processos do ciclo da informação: construção, comunicação e uso, que se sucedem e se alimentam reciprocamente (LE COADIC, 2004). O trabalho colaborativo pode ser potencializado com a disponibilização de dados científicos em periódicos ou repositórios de dados. Desta forma, é possível realizar inputs para novas hipóteses, para replicação de estudos, novas descobertas ou refutação das descobertas apresentadas, apresentação de propostas de pesquisas e aprimoramento das atuais. Dados científicos têm um papel de retroalimentação no desenvolvimento da ciência. Este panorama amplia a possibilidade de pesquisadores de compartilhamento e reutilização de dados resultantes da investigação científica em diversos países e disponibilizados em periódicos científicos, periódicos de dados ou repositórios de dados cooperando com a articulação na colaboração científica internacional. 40 Na figura 9 verifica-se que os dados científicos estão na base da pirâmide, destacando-se pela grande quantidade com a oportunidade de serem combinados, recombinados e usados por áreas multidisciplinares, serem unificados, integrados e interoperados em rede. No topo da pirâmide está a literatura publicada resultante das análises, refutações ou aprimoramento dos estudos. Figura 9 - Todos os dados científicos online Fonte: adaptado de TOLLE, TANSLEY; HEY, 2011, p. 25. Os dados coletados e armazenados em repositórios tem a possibilidade de integração entre eles e a unificação de “[...] todos os dados científicos e toda a literatura para criar um mundo em que os dados e a literatura possam interagir.” (TOLLE; TANSLEY; HEY, 2011 p. 24). Os pesquisadores analisam e utilizam dados para embasar o resultado de suas pesquisas, publicam essas junto com os seus dados proporcionando a outros o acesso a todo o conteúdo disponibilizado. Dessa forma, consegue-se integrar todos os dados e a literatura, aumentando a velocidade e produtividade da comunicação científica. “[...] mas transformar esse volume em valor agregado para os usuários requer um processo de recuperação cada vez mais eficiente.” (SANT’ANA, 2008, p. 146). Essa integração favorece a produtividade científica por meio do aumento da velocidade com que os dados e as informações são tratados e produzidos (LYNCH, 2011) além de reduzir os custos e investimentos aplicados pelas agências de fomento evitando que esforços na coleta de dados sejam duplicados. Para Mueller (2000, p. 25) os resultados das pesquisas alcançados por determinados pesquisadores “[...] são freqüentemente retomados por outros 41 cientistas, teóricos ou aplicadores, que dão continuidade ao estudo, fazendo avançar a ciência ou produzindo tecnologias ou produtos neles baseados.” Propício, assim, ação para harmonizar os fatores envolvidos nessa dinâmica para a evolução da ciência. A ciência esta sendo impactada por grandes quantidades de dados nas diversas áreas do conhecimento, e emerge um novo contexto baseado no uso intensivo de dados, denominado por pesquisadores de e- Science, ou quarto paradigma da ciência abordado na próxima subseção. 2.2 Repositório de dados e e-Science Nos paradigmas da ciência, a ciência está sendo afetada pela grande quantidade de dados coletados, gerados ou simulados em grandes laboratórios e observatórios e delineia um novo paradigma, o paradigma do uso intensivo de dados, denominado por alguns pesquisadores como e-Science, quarto paradigma da ciência (GRAY, 2007), Ciência orientada a dados (HEY; HEY, 2006), Computação fortemente orientada a dados, Cyberinfraestrutura e Dos dados ao conhecimento (CESAR JUNIOR, 2011). Thomas Kuhn, em seu livro A estrutura das revoluções científicas trata o tema paradigma nas discussões da chamada “ciência normal”, guiada por um paradigma mas que, em seu percurso, surgem descobertas e formulação de novas teorias, com um amadurecimento científico, induzindo a uma revolução científica que, então, ocorre uma mudança de paradigma (KUHN, 2006). As revoluções científicas apresentadas por Kuhn (2006, p. 125) são apontadas como “[...] aqueles episódios de desenvolvimento não-cumulativo, nos quais um paradigma mais antigo é total ou parcialmente substituído por um novo [...]” Kuhn (2006, p. 20) afirma que “Se a ciência é a reunião de fatos, teorias e métodos reunidos nos textos atuais, então os cientistas são homens que, com ou sem sucesso, empenharam-se em contribuir com um ou outro elemento para essa constelação específica.” Cabe, assim, ação com intuito de harmonizar os fatores envolvidos nessa dinâmica cooperando com a evolução da ciência. Gray (2007) retrata uma evolução da ciência onde relaciona os quatros paradigmas da ciência: 42 Primeiro paradigma: mil anos atrás, a ciência era empírica, com a descrição dos fenômenos naturais; Segundo paradigma: há poucos séculos, se desenvolveu a ciência teórica, com o uso de modelos e generalizações, mostrando como exemplo as leis de Newton, Kepler e as equações de Maxwell; Terceiro paradigma: nas últimas décadas, apareceu o ramo computacional, com a simulação de fenômenos complexos gerando uma grande quantidade de dados mostrando o caminho para o quarto paradigma destacado por Gray como e-Science; Quarto paradigma: a ciência do século XXI é apresentada como exploração de dados, a e-Science, que unifica os três paradigmas anteriores (experimento, teoria e simulação) destacando como características: ● grandes quantidades de dados capturados por instrumentos ou gerados por simulações e processados por softwares; ● informação e/ou conhecimento armazenados em computadores; ● cientista analisa base de dados e arquivos por meio de gerenciamento de dados e estatísticas. Quadro 1 – Paradigmas da ciência PARADIGMA TEMPO CIÊNCIA ASPECTOS Primeiro mil anos atrás empírica descrição dos fenômenos naturais Segundo há poucos séculos ciência teórica ciência teórica, com o uso de modelos e generalizações, mostrando como exemplo as leis de Newton, Kepler e as equações de Maxwell; Terceiro últimas décadas computacional simulação de fenômenos complexos gerando uma grande quantidade de dados Quarto século XXI unifica (teoria, experimento e simulação) exploração de dados Fonte: Elaborada pela autora a partir de Gray (2007) E-Science é o ponto onde “[...] TI [tecnologia da informação] encontra cientistas”, onde se usa computador para resolver problemas científicos com uso 43 intensivo em dados, culminando em uma evolução das fases históricas da ciência dominadas pela experimentação, teoria e simulação (TOLLE; TANSLEY; HEY, 2011, p. 17). A ambiência da e-Science se baseia em uma infraestrutura que visa permitir aos pesquisadores terem acesso a dados científicos distribuídos, com oportunidade de colaboração, com o compartilhamento e o gerenciamento desses dados, possibilitando o reuso de conteúdo já mapeado e, desta forma, favorecendo o avanço da ciência (MEDEIROS; CAREGNATO, 2012). Isso configura um aspecto da ciência em que pesquisadores de países diferentes, falando línguas diferentes, coletando grandes quantidades de dados podem compartilhá-los contribuindo com o aprimoramento científico. Atuando na mesma direção Ribes e Lee (2010, p. 232) destacam que a e- Science é um conceito designado “[...] para as tecnologias de informação em rede de apoio às atividades de investigação científica, como a colaboração de compartilhamento de dados e divulgação dos resultados.” De acordo com os autores, há três aspectos que caracterizam as transformações proporcionadas pela e-Science: comunidade ampla e interdisciplinar de colaboração; computação aliada na coleta, representação e análise de dados; integração final (RIBES; LEE, 2010). Medeiros e Caregnato (2012, p. 315) destacam que “[...] e-Science altera consideravelmente a maneira com que os cientistas realizam seu trabalho, as ferramentas que utilizam, os tipos de problemas que abordam e a natureza da documentação e da publicação que resulta da sua pesquisa.” Todas as capacidades atualmente necessárias à e-Science, integração de dados, fusão e mineração; desenvolvimento de fluxos de trabalho, orquestração e execução; captura da proveniência, linhagem e qualidade dos dados; validação, verificação e confiança na autenticidade dos dados; e adequação ao propósito -precisam de representação e mediação para que a e-Science possa se tornar realmente intensiva em dados. (FOX; HENDLER, 2011, p. 161). A “ciência intensiva em dados”, um dos componentes da e-Science, deve avançar para permitir o acesso aos dados pelos cientistas e pesquisadores que não fazem parte das equipes dos grandes projetos e “[...] permitir maior integração de fontes e prover interfaces para quem é especialista em ciência, mas não em computação e administração de dados.” (FOX; HENDLER, 2011, p. 159). 44 Grandes projetos, como Pesquisa Celeste Digital Sloan, Grande Colisor de Hádrons (GCH) (TOLLE; TANSLEY; HEY, 2011), Projeto Australiano de radiotelescópios ASKAP e o conjunto de telescópios astronômicos Pan-STARRS, estão gerando petabytes de dados que são analisados por cientistas do mundo inteiro, em laboratórios diferentes e que falam línguas diferentes. Na discussão sobre e-Science, Fox e Hendler (2011), do Instituto Politécnico Rensselaer, ressaltam três questões: ● Como os dados, que não foram gerados por cientistas e pesquisadores, serão usados por eles? ● Como usar dados, que eles não produziram e nunca viram, junto aos dados que geram e usam todos os dias? ● O que se deve fazer se o cientista ou pesquisador, estudantes e não especialistas precisam dos dados de outra área do conhecimento e não conhecem os termos ou vocabulário da área? Repositórios de dados científicos contribuem no gerenciamento de grandes quantidades de dados e na resolução das questões levantadas por Fox e Hendler. A vultosa quantidade de dados coletados ou gerados precisam de representação, gerenciamento e curadoria para que possam ser recuperados e reutilizados e, assim, contribuir com a colaboração científica internacional. Os desafios sustentam-se no fato de que emergiu na ciência um problema destacado por Sayão e Sales (2012, p. 181) o qual aborda a gestão de dados científicos “[...] num mundo digital interligado por redes de computadores, onde há um fluxo intenso de dados, proveniente de diferentes fontes, sendo gerados, processados e compartilhados em ambientes multidisciplinares.” O Plano de Gerenciamento de Dados (PGD) é um documento que visa a explicitação da gestão de conjunto de dados. O PGD auxilia na descrição de dados indicando qual padrão de metadados ou conjunto de metadados é utilizado, facilitando a busca e localização dos conjuntos de dados incluindo parâmetros para curadoria. Os pesquisadores têm diretrizes para indicar sobre quais licenças disponibilizará seus conjuntos de dados ao depositá-los, assim como, ao recuperar o conjunto de dados, os pesquisadores têm diretrizes para dar os créditos aos 45 responsáveis pelos dados. Na seção 4 foram abordadas as questões relacionadas ao PGD, à definição e suas abordagens. A próxima seção abordou os aspectos relacionados aos direitos autorais, discutindo o arcabouço conceitual, teórico e metodológico de políticas de informação e das questões relacionadas aos direitos dos pesquisadores sobre os dados arquivados nos repositórios de dados científicos e as licenças de uso indicadas na reutilização. 46 3 DIREITOS AUTORAIS DE DADOS CIENTÍFICOS O direito de autor surgiu de uma lenta evolução dentro do contexto histórico. Sua legitimidade é reconhecida mundialmente. Cada país elaborou sua legislação preservando a integridade intelectual dos autores. A descoberta da imprensa por Gutenberg em 1455, ano da impressão da Bíblia de 42 linhas, conduziu a adoção de uma política centrada mais nos produtores de obras do que nos autores (UNESCO, 1981). A legislação sobre o direito do autor é um recurso infraestrutural das comunicações e da educação, chamada a desempenhar um papel gradualmente importante em vista da progressão e da diversificação dos modos de utilização das obras protegidas pelo direito do autor (UNESCO, 1981). Atualmente, as instituições que direta e indiretamente transferem dados requerem modificações do dispositivo jurídico que regula suas transferências. Os detentores de direitos autorais recorrerem à justiça na ocasião em que o resultado de sua atividade intelectual ou científica é utilizado sem a devida autorização, mostrando-se desejosos de obter formas de proteção legal (UNESCO, 1981). A natureza do direito autoral fomenta estudos que se aplicam à documentos de caráter pedagógico, cultural, tecnológico e científico, se estendendo para dados, abordagem discutida neste capítulo. 3.1 Propriedade intelectual Política refere-se a qualquer princípio de governo com plano de ação nos negócios internos da nação (POLÍTICA, c2016). No ambiente institucional, política “[...] são decisões programadas que orientam outras decisões [...]” (MAXIMIANO, 2000). Dessa forma políticas voltadas para as atividades de informação científica e tecnológica pressupõem uso e aplicação de princípios sobre o que é necessário para um país em termos de produção, transferência, acesso e uso de informação (GARCIA, 1980). 47 A política de informação emergiu no cenário do Pós-Guerra em nível nacional e internacional associada às políticas de ciência e tecnologia através de programas governamentais de políticas públicas e O nexo da informação com a política seria então estabelecido por sua inclusão na esfera de intervenção do Estado, agora não só como dimensão de racionalidade administrativa, mas como fator estratégico do desenvolvimento científico-tecnológico. (GONZÁLES DE GÓMEZ, 2002, p. 27). As políticas de informação trabalham com a transferência da informação científica no qual se tem o Estado como agente privilegiado da elaboração e estabelecimento e, a ciência e a tecnologia, como domínio de seu exercício além de definição e implementação de diretrizes para as necessidades que emergem na sociedade da informação. Na sociedade que necessita de dados e informações, políticas de informação voltadas para a proteção da propriedade intelectual se apresentam como instrumental relevante para o desenvolvimento científico e tecnológico. A propriedade intelectual [...] abrange os direitos relativos às obras do engenho do espírito humano que garante aos pesquisadores ou responsáveis por qualquer produção do intelecto o direito de receber, por um determinado período de tempo, recompensa pela própria criação. A segurança proporcionada pelas leis de Propriedade intelectual estimula a inovação e o desenvolvimento de novas soluções para os problemas existentes. As criações podem ser protegidas por lei sob as formas de patente, registro de marca, programa de computador, desenho industrial, direitos autorais, indicação geográfica [...]. (GUIA..., [20--]). A inquietação com a propriedade intelectual veio antes de seu reconhecimento pelas grandes convenções. Burke (2003) destaca que a ideia de comercialização do conhecimento é tão antiga quanto a crítica de Platão aos sofistas por esta prática e que a ideia de conhecimento como propriedade foi formulada por Cícero. 48 Na antiguidade a concepção de propriedade intelectual não existia (MARTINS, 2001). Na Idade Média compilar foi aceito sugerindo que o sentido da propriedade intelectual se tornasse menos importante (BURKE, 2003). No final da Idade Média deu-se ênfase na exploração do conhecimento para ganhos materias e na necessidade de proteção do ofício (BURKE, 2003). A Inglaterra foi o primeiro país a reconhecer a propriedade literária. A corporação dos livreiros reclamou persistentemente uma espécie de proteção do autor (UNESCO, 1981). Um projeto de lei foi submetido à Câmara dos Comuns em 11 de janeiro de 1709 destinado a estabelecer [...]o copyright dos autores ou dos seus cessionários sobre qualquer obra, durante 14 anos a contar da primeira publicação, e por outros 14 anos se, expirado o primeiro prazo, o autor ainda estivesse vivo, sob a condição, todavia, de que o livro fosse registrado na Statione’s Company (constituída em 1556 para registrar os títulos dos livros e regular a indústria tipográfica [...] (MARTINS, 2001, p. 396, grifos do autor). Este projeto converte-se na Lei de 10 de abril de 1710, conhecida como Lei da Rainha Ana pela qual a Inglaterra começou a reconhecer formalmente o direito autoral. Por meio dessa lei, os direitos do autor passaram a ser protegidos (COPYRIGHT HOUSE, c2009-2010) e, segundo seu preâmbulo “[...] ‘para incentivar os homens de cultura a escreverem livros úteis’, em outras palavras, tendo em mente mais o conhecimento que o romance.” (BURKE, 2003, p. 137). As primeiras leis sobre o direito de autor nos Estados Unidos da América são anteriores à Revolução Francesa e a primeira lei federal foi promulgada estabelecendo a proteção dos livros e das cartas terrestres ou marítimas (UNESCO, 1981). Na França, a noção de propriedade literária foi aos poucos substituindo o regime dos privilégios. A Revolução francesa de 1789 com sua exacerbação dos direitos individuais acrescentou ao conceito inglês a primazia do autor sobre a obra (GANDELMAN, 2007). A importância da propriedade intelectual foi reconhecida pela primeira vez na Convenção de Paris para a Proteção da Propriedade Industrial e da Convenção de Berna para a Proteção das Obras Literárias e Obras artísticas nos anos de 1883 1886 respectivamente. Ambos tratados são administrados pela Organização Mundial 49 da Propriedade Intelectual (OMPI) agência especializada da Organização das Nações Unidas (ONU) (WIPO, [20--]). Até agosto de 2005, 169 Estados haviam aderido à Convenção de Paris para a Proteção da Propriedade Industrial (adotada em 20 de março de 1883, revisada em Bruxelas em 14/12/1910, em Washington em 2/06/1911, em Haia em 6/11/1925, em Londres em 2/06/1934, em Lisboa em 31/10/1958 e em Estocolmo em 14/07/1967, e emendada em 2/10/1979); 159 à Convenção de Berna para a Proteção de Trabalhos Artísticos e Literários (adotada em 9/09/1886, emendada em Paris em 4/05/1896, revisada em Berlim em 13/11/1908, em Berna em 20/03/1914, em Roma em 2/06/1928, em Bruxelas em 26/06/1948, em Estocolmo em 14/07/1967 e em Paris em 24/07/1971 e emendada em 28/09/1979); e 148 Estados ao Acordo sobre Aspectos de Direitos de Propriedade Intelectual Relacionados ao Comércio (anexo 1C do Acordo de Marrakesh estabelecendo à Organização Mundial do Comércio, adotada em 15/04/1994, vigente desde 1/01/1995) (VASCONCELOS, 2009, p. 54-55, nota de rodapé, grifo nosso). A convenção de Berna foi realizada em 1886 para dar proteção adicional a artistas, músicos, fotógrafos, designers, entre outros e, assim garantir proteção dos trabalhos literários e artísticos. De acordo com o Decreto n. 75.699 de 1975 artigo 2° parágrafo 1º Os temas "obras literárias e artísticas", abrangem todas as produções do domínio literário, cientifico e artístico, qualquer que seja o modo ou a forma de expressão, tais como os livros, brochuras e outros escritos; as conferências, alocuções, sermões e outras obras da mesma natureza; as obras dramáticas ou dramático-musicais; as obras coreográficas e as pantomimas; as composições musicais, com ou sem palavras; as obras cinematográficas e as expressas por processo análogo ao da cinematografia; as obras de desenho, de pintura, de arquitetura, de escultura, de gravura e de litografia; as obras fotográficas e as expressas por processo análogo ao da fotografia; as obras de arte aplicada; as ilustrações e os mapas geográficos; os projetos, esboços e obras plásticas relativos à geografia, à topografia, á arquitetura ou às ciências. (BRASIL, 1975). Todos os países do mundo interessados na proteção recíproca instituída pela Convenção de Berna eram livres a aderir (UNESCO, 1981). Os direitos autorais registrados em um desses países vale automaticamente em todos os outros. 50 A figura 10 mostra os 164 países, destacados em azul, signatários da Convenção de Berna. Este número tem um aumento de 5 países desde 2005 (VASCONCELOS, 2009). Figura 10 – Países signatários da Convenção de Berna Fonte: WIKIPEDIA, 2016. Direitos de propriedade intelectual são como qualquer outro direito de propriedade e permitem que os criadores ou proprietários das patentes, marcas comerciais ou direitos autorais trabalhem para benefício de sua própria atividade ou investimento em uma criação (WIPO, [20--]). Estes direitos estão descritos no artigo 27 da Declaração Universal dos Direitos do Homem5, 1. Todo ser humano tem o direito de participar livremente da vida cultural da comunidade, de fruir das artes e de participar do progresso científico e de seus benefícios. 2. Todo ser humano tem direito à proteção dos interesses morais e materiais decorrentes de qualquer produção científica literária ou artística da qual seja autor (NAÇÕES UNIDAS, 2009). 5 A Declaração Universal dos Direitos Humanos (DUDH) é um documento marco na história dos direitos humanos. Elaborada por representantes de diferentes origens jurídicas e culturais de todas as regiões do mundo, a Declaração foi proclamada pela Assembleia Geral das Nações Unidas em Paris, em 10 de Dezembro de 1948, através da Resolução 217 A (III) da Assembleia Geral como uma norma comum a ser alcançada por todos os povos e nações. Ela estabelece, pela primeira vez, a proteção universal dos direitos humanos (DECLARAÇÃO UNIVERSAL DOS DIREITOS HUMANOS, c2016). 51 Propriedade intelectual refere-se às criações da mente como invenções, obras literárias e artísticas e aos símbolos, nomes e imagens usadas no comércio (WIPO, [20--]). A propriedade intelectual é dividida em duas categorias: ● Propriedade Industrial: inclui patentes de invenções, marcas, desenhos industriais, indicações geográficas e obtenções vegetais. ● Direitos autorais: abrangem obras literárias como: romances, poemas e peças; filmes, música, trabalhos artísticos como, por exemplo, desenhos, pinturas, fotografias e esculturas e projeto arquitetônico (WORLD INTELLECTUAL PROPERTY ORGANIZATION (WIPO), [20--]). Os direitos autorais estimulam a inovação e a exploração ordenada das descobertas científicas, protegem o trabalho criativo e o investimento e estão se tornando cruciais na investigação científica (ELLIOT, 2005). À medida que o regime jurídico foi reforçado é importante que os cientistas estejam cientes de seus direitos e convencidos de usá-los no bem público (ELLIOT, 2005). O direito autoral é dividido em direito moral e direito patrimonial abordados nas próximas subseções. 3.2 Direitos autorais O progresso dos meios de comunicação que difunde obras intelectuais com amplo nível internacional desenvolveu a necessidade de proteção do direito autoral em todos os países. Este fator originou os tratados internacionais nos quais buscam “[...] dar aos autores e titulares dos países aderentes aos convênios a mesma proteção legal que cada país dá a seu autor ou titular nacional. É o princípio de reciprocidade no tratamento jurídico da autoria.” (GANDELMAN, 2007, p. 31). Direitos autorais são usados como mecanismo legal no sentido da ordenação da vida cultural e social e promovem a maneira mais propícia em conciliar os interesses do público que usam as ideias compartilhadas e os autores que dão expressão a elas (PLOMAN; HAMILTON, 1980). No quadro 2 estão relacionadas as características dos direitos autorais. 52 Quadro 2 - Aspectos dos direitos autorais Registro Declaratório, optativo e gratuito Titularidade Desde a primeira utilização ou registro Requisitos básicos Originalidade da forma de expressão Prazo de proteção Variável, conforme a natureza da obra Cessão de direitos Os direitos patrimoniais podem ser total ou parcialmente cedidos; suas utilizações são independentes entre si Integridade Controle exercido através dos direitos morais Divulgação Essencial após a primeira publicação Relação empregador X empregado Titularidade patrimonial estabelecida em contrato, caso a caso Beneficiário do uso Autor(es), artistas criadores de obras coletivas ou derivadas; editores, produtores de discos ou filmes cinematográficos e/ou outras mídias, cessionários Proteção internacional Automática e independente de registro, segundo reciprocidade dos tratados Fonte: adaptado de Gandelman, 2007, p. 38 A legislação sobre o direito do autor protege as obras literárias, artísticas e científicas de diversas formas, define os beneficiários da proteção e determina o alcance e a duração dessa proteção (UNESCO, 1981). As leis de direitos autorais concedem aos autores, artistas e outros criadores proteção por suas criações literárias, artísticas, culturais e científicas e, conforme mostrado no quadro 2, os direitos patrimoniais podem ser total ou parcialmente cedidos e os morais controlam a integridade dos titulares. Praticamente todas as legislações nacionais integram disposições que definem as várias medidas a aplicar em caso de infração do direito de autor. Via de 53 regra, essas disposições encontram-se dispersas nos inúmeros textos legislativos: leis nacionais sobre o direito do autor e códigos penais. O objeto é impor uma sanção àquele que cometeu infração e indenizar a parte lesada pelo prejuízo sofrido (UNESCO, 1981). O direito autoral apresenta duas vertentes: ● o direito moral – assegura ao autor o controle à citação de seu nome na divulgação de sua obra, o respeito a sua integridade e o direito de modifica-la ou retira-la de circulação; ● o direito patrimonial – tem o intuito de regular as relações jurídicas do uso econômico das obras (GANDELMAN, 2007). 3.2.2 Direito moral e Direito patrimonial Direito moral mais fundamental do autor consiste em controlar a publicação da sua obra ou apresentação desta ao público; é a base de todos os outros direitos concedidos pela lei; é um direito ligado a pessoa ou instituição jurídica que criou uma obra e é inalienável e imprescritível (UNESCO, 1981). O direito de paternidade é o qual o autor tem o reconhecimento de uma obra como sua e de a ela associar ou não o seu nome. O autor pode almejar que seu nome seja mencionado todas as vezes que a sua obra for utilizada (UNESCO, 1981). Nos países em que a legislação relacionada ao direito de autor reconhece expressamente os direitos morais, os autores conservam esses direitos mesmo que tenham cedido os seus direitos patrimoniais (UNESCO, 1981). Os direitos patrimoniais do autor são os que lhe permitem viver da sua obra; são os aspectos financeiros inerentes ao direito autoral. O direito patrimonial pode ser transferido, podendo o autor habilitar outras pessoas a exercerem esses direitos no que diz respeito às diversas maneiras de exploração da obra (UNESCO, 1981).O autor, se desejar, cede esses direitos a título oneroso ou gratuito. As leis reconhecem que os direitos patrimoniais são protegidos ao longo da vida do autor adicionado certo tempo após a sua morte. Os prazos de proteção após a morte do autor são entre os vinte e cinco e cinquenta anos, mas algumas leis 54 concedem prazos mais curtos ou mais longos dependendo de cada país (UNESCO, 1981). As leis as quais datam do princípio do século outorga ao autor um direito geral de exploração, de cessão da obra ou de controle desta, sem especificar os modos de utilização. Outras, sem proclamar, embora qualquer direito patrimonial em particular, indicam com mais ou menos precisão as diferentes maneiras de utilização da obra para as quais deve ser obtida a autorização prévia do autor (UNESCO, 1981). Direito moral e patrimonial podem ser utilizados para usar e reproduzir dados científicos armazenados nos repositórios de dados e citar os autores. A garantia de referenciar, de uma forma persistente, os dados armazenados de modo que permita a pesquisa, localização e recuperação dos mesmos por longo prazo é um aspecto relevante documentado no PGD. Pesquisadores, os quais disponibilizam seus conjuntos de dados, demandam de referencias estáveis e a garantia de que seus conjuntos de dados armazenados sejam devidamente reutilizados e permaneçam válidos por longo período de tempo. A identificação apropriada permite que o conjunto de dados seja preservado, recuperado, compartilhado e citado (SAYÃO; SALES, 2015). Repositórios de dados, implementados com o software Dspace, tem o aspecto particular da funcionalidade em criação de identificadores persistentes para cada item, coleção e comunidade armazenada no sistema. A vantagem em agregar um identificador persistente aos conjuntos de dados consiste no fato de que esse identificador aponta sempre para o conjunto de dados, mesmo que tenha sido alterada sua localização. O repositório re3data.org disponibiliza informações sobre repositórios que fornecem identificadores persistentes para os dados. Existem vários sistemas de identificação persistente baseados em padrões abertos como Digital Object Identifiers (DOI), Handle System e PURL (SAYÃO, 2007). Um ID Autor é um identificador exclusivo usado para distinguir o autor de outros com o mesmo nome ou nome semelhante. O autor tem a possibilidade de assegurar que todas as suas publicações estejam associadas ao seu perfil em bancos de dados ao utilizar esse tipo de ID. Inscrever-se para ID Autor é uma prática propícia aos pesquisadores para tornar suas publicações mais fáceis de localizar e 55 identificar. O uso do Open Researcher & Contributor ID (ORCID), identificador digital persistente para autor, contribui com esse aspecto (THOMAS; CHEN; CLEMENT, 2015). O avanço na ciência e o aumento vultoso de dados científicos proporcionam novas possibilidades com a sua reutilização, o que requer um equilíbrio jurídico entre duas partes: o autor detentor dos direitos autorais e o usuário final. As licenças de uso contribuem nesta direção. 3.3 Licenças de uso Licença representa a cessão do direito sobre uma obra cuja exploração em outras condições seria ilícita. A licença pode revestir a forma de um direito exclusivo ou não exclusivo. A licença exclusiva habilita seu titular a explorar a obra, com exclusão das outras pessoas (incluindo o próprio autor) da maneira autorizada (UNESCO, 1981). No caso em que a transferência ou cessão dos direitos for total, o titular adquire todos os direitos patrimoniais que um autor possa ter sobre a obra e está habilitado a exercê-los como se tratasse do próprio autor (UNESCO, 1981). Em caso de transferência ou de cessão parcial, o cessionário só adquire o direito de exercer um ou mais direitos específicos no contrato (UNESCO, 1981). A licença de uso que o titular dos direitos autorais concede deve especificar de forma clara e objetiva o modo de utilização do que está sendo licenciado. O contrato é o instrumento jurídico que regulamenta o acordo entre o titular dos direitos e o licenciado. No contrato estão determinadas as obrigações e os direitos das partes envolvidas em relação ao uso e exploração dos conjuntos de dados visando sempre o melhor desenvolvimento e aproveitamento dos mesmos. Licenças de uso são “[...] instrumentos legais que, normalmente, objetivam garantir o reconhecimento da autoria e promover a distribuição livre e aberta do conhecimento construído coletivamente.” (MANTOVANI; DIAS; LIESENBERG, 2006, p. 273). As licenças de uso asseguram a publicação de dados sem ferir os direitos autorais, transfere o direito patrimonial a outrem, cria clareza quanto a utilização do conteúdo e constitui uma segurança para os usuários no sentido da utilização dos 56 conjuntos de dados. A licença de maior destaque nos repositórios de dados são as Creative Commons (CC). Creative Commons é uma organização global, não governamental, sem fins lucrativos localizada em Montain View, Califórnia, fundada em 2001 por Lawrence Lessig e autoriza a partilha e reutilização da criatividade e conhecimento através do fornecimento de instrumentos legais gratuitos (CREATIVE COMMONS, 2016). Lessig, advogado americano, é conhecido por suas obras que analisam o direito do autor assim como opositor do software proprietário, além de defender o Código Livre para que todos os usuários tenham acesso à informação e a estrutura construtiva da informação (JORENTE; SANTOS, 2008). O projeto Creative Commons estabelece um conjunto de ferramentas jurídicas [...] que permite a artistas de todo o mundo escolher a forma como querem proteger suas obras. Se quiserem que as obras sejam 100% protegidas, não precisam fazer nada, elas já nascem assim. Mas aqueles que voluntariamente desejam fazer com que sua criação intelectual possa ser compartilhada com o mundo, ou mesmo remixada, alterada, traduzida ou distribuída por outras pessoas, passa a ter o movimento do CC uma ferramenta global para isso (LEMOS, 2005, p. 20). A licença Creative Commons é uma maneira do detentor do direito autoral autorizar previamente a utilização da obra comercialmente ou não, alterando o conteúdo original ou não dependendo de qual é a chancela CC escolhida (LEMOS, 2005). As licenças Creative Commons oferecem uma maneira fácil de gerenciar os termos de direitos autorais que se ligam automaticamente a todo o material criativo sob copyright (CREATIVE COMMONS, 2016). Suas licenças permitem que os materiais que serão compartilhados e reutilizados sob os termos sejam flexíveis. Licenças como a Creative Commons (CC) substituem todos os direitos reservados do copyright para alguns direitos reservados e permitem o uso mais flexível composto por combinações de cláusulas determinadas pelos autores. Há seis licenças CC padrão. CC-BY é a licença mais utilizada, em que a atribuição é obrigatória quando se utiliza dados (DATA..., 2016d). O pesquisador pode escolher restrições como não-comercial, não derivados, ou partes iguais (DATA..., 2016d). 57 Creative Commons oferece seis licenças de direitos de autor (CREATIVE COMMONS, [20--]): 1 - Creative Commons Atribuição (CC-BY) Licença CC mais flexível de todas as licenças disponíveis. É recomendada para maximizar a disseminação e uso dos materiais licenciados. Permite a outro distribuir, remixar, adaptar e criar a partir do seu trabalho, mesmo para fins comerciais, desde que lhe atribua o devido crédito pela criação original. 2 - Creative Commons Atribuição-CompartilhaIgual (CC BY-SA) Esta licença permite que outros remixem, adaptem e criem a partir do trabalho original, mesmo para fins comerciais, desde que lhe atribuam o devido crédito e que licenciem o trabalho derivado sob termos idênticos. CC BY-SA costuma ser comparada com as licenças de software livre e de código aberto "copyleft". Todos os trabalhos baseados no original terão a mesma licença, portanto quaisquer trabalhos provenientes também permitirão o uso comercial. Esta é a licença usada pela Wikipédia e é recomendada para materiais que seriam beneficiados com a incorporação de conteúdos da Wikipédia e de outros projetos com licenciamento semelhante. 3 - Creative Commons Atribuição-SemDerivações (CC BY-ND) Esta licença permite a redistribuição, comercial e não comercial, desde que o trabalho seja distribuído inalterado e no seu todo, com crédito atribuído ao autor. 4 - Creative Commons Atribuição-NãoComercial (CC BY-NC) Esta licença permite à outros remixarem, adaptarem e criarem a partir do trabalho original para fins não comerciais e, embora os novos trabalhos tenham que atribuir o devido crédito ao autor e não possam ser usados para fins comerciais, os usuários não precisam licenciar os trabalhos derivados sob os mesmos termos. 58 5 - Creative Commons Atribuição-NãoComercial-CompartilhaIgual (CC BY-NC-SA) Esta licença permite que outros remixem, adaptem e criem a partir do trabalho original para fins não comerciais, desde que atribuam o devido crédito ao autor e que licenciem as novas criações sob termos idênticos. 6 - Creative Commons Atribuição-SemDerivações-SemDerivados (CC BY-NC-ND) Esta é a mais restritiva das seis licenças, só permitindo que outros façam download dos trabalhos e os compartilhem desde que atribuam crédito ao autor, mas sem que possam alterá-los de nenhuma forma ou utilizá-los para fins comerciais. A Creative Commns fornece também instrumentos que operam no espaço "todos os direitos concedidos", do domínio público. O instrumento CC0 permite aos licenciantes renunciarem a todos os direitos e colocarem seus trabalhos no domínio público. A Marca de Domínio Público permite que qualquer usuário da internet "sinalize" um trabalho para indicar que este se encontra no domínio público (CREATIVE COMMONS, [20--]) No rights reserved (CC Zero) ou (CC0) CC Zero permite aos criadores e proprietários de conteúdo renunciar os direitos sobre suas obras e, assim, colocá-los tão completamente quanto possível no domínio público, para que outros possam construir livremente sobre a obra original, melhora-las e reutiliza-las para quaisquer fins sem restrições de direito autoral. Os usuários que utilizarão as licenças CC podem combinar materias de diferentes licenças Creative Commons observando alguns aspectos: se a combinação não cria uma adaptação, então é permitido combinar qualquer conteúdo licenciado pela CC, desde que não forneça atribuição e cumpra com a restrição NãoCommercial que se aplica. Se o usuário quiser combinar material de uma forma que resulte na criação de uma adaptação (isto é, um "remix"), então deve prestar atenção para a licença específica que se aplica ao conteúdo que deseja combinar (CREATIVE COMMONS (2016). 59 Os remix podem ser observados na figura 11. Figura 11 - Material licenciado CC remixado Fonte: CREATIVE COMMONS (2016). O material licenciado-CC pode ser remixado. Para verificação do remix na figura 11, deve-se encontrar uma licença na coluna da esquerda e na linha superior. Se houver uma marca de verificação na caixa de onde essa linha e coluna se cruzam, as obras podem ser remixadas. Se houver um "X" na caixa, as obras não podem ser remixadas (CREATIVE COMMONS ([20--d]). Lessig afirma que a cultura do remix é a peça central do processo criativo contemporâneo e sempre defendeu que essa cultura “[...] é aquela que vai derrubar as barreiras entre criador e ‘consumidor’ da cultura. [...] Entre Estado e cidadão.” (LEMOS, 2005, p. 18). Open Data Commons (ODC), projeto da Open Knowledge Foundation, gerido pelo Conselho Consultivo, lançou sua primeira licença de dados abertos em março de 2008 Public Domain Dedication and License (PDDL). Além das licenças CC, a Open Data Commons (ODC) oferece três opções de licenças criadas especificamente para dados / bancos de dados: 1 - ODC Domínio Público e Licença de Dedicação (PDDL) 60 Esta licença é semelhante à licença CC0, na medida em que não impõe restrições sobre o uso de seus dados / banco de dados. Os usuários são livres para copiar, distribuir e usar o trabalho; produzir trabalhos a partir dos dados / bancos de dados armazenados e para modificar, transformar e construir sobre os dados / banco de dados. 2 - Licença de Atribuição ODC Esta licença é semelhante à licença CC BY, na medida em que permite que outras pessoas copiem, distribuam e usem o trabalho e produzam trabalhos a partir dos dados armazenados além de modificar, transformar e construir sobre os dados / banco de dados, desde que eles fornecem a atribuição adequada. 3 - Licença Open Database (ODbL) É semelhante à licença CC BY-SA, uma vez que permite que outras pessoas copiem, distribuam e u