Dados de ciência aberta - Open science data

Open science data ou Open Research Data é um tipo de dado aberto focado na publicação de observações e resultados de atividades científicas disponíveis para qualquer pessoa analisar e reutilizar. Um dos principais objetivos da busca por dados abertos é permitir a verificação de afirmações científicas, permitindo que outros vejam a reprodutibilidade dos resultados, e permitir que dados de muitas fontes sejam integrados para fornecer novos conhecimentos. Embora a ideia de dados de ciência aberta tenha sido ativamente promovida desde a década de 1950, o surgimento da Internet reduziu significativamente o custo e o tempo necessários para publicar ou obter dados.

História

O conceito de acesso aberto a dados científicos foi estabelecido institucionalmente com a formação do sistema World Data Center (hoje World Data System ), em preparação para o Ano Geofísico Internacional de 1957–1958. O Conselho Internacional de Uniões Científicas (agora Conselho Internacional para a Ciência ) estabeleceu vários Centros de Dados Mundiais para minimizar o risco de perda de dados e maximizar a acessibilidade aos dados, recomendando ainda em 1955 que os dados fossem disponibilizados em formato legível por máquina.

A primeira iniciativa para criar um banco de dados de bibliografia eletrônica de dados acesso aberto foi o Centro de Educação Information Resources (ERIC), em 1966. No mesmo ano, MEDLINE foi criado - um banco de dados on-line de acesso gratuito gerido pela National Library of Medicine e do Nacional Institute of Health (USA) com citações bibliográficas de periódicos da área biomédica, que mais tarde se chamaria PubMed , atualmente com mais de 14 milhões de artigos completos.

Em 1995, a GCDIS (EUA) colocou sua posição claramente em Sobre o intercâmbio total e aberto de dados científicos (uma publicação do Comitê de Dados Geofísicos e Ambientais - Conselho Nacional de Pesquisa):

"A atmosfera, os oceanos e a biosfera da Terra formam um sistema integrado que transcende as fronteiras nacionais. Para entender os elementos do sistema, a forma como eles interagem e como mudaram com o tempo, é necessário coletar e analisar dados ambientais de todos partes do mundo. Os estudos do meio ambiente global exigem colaboração internacional por vários motivos:

  • para tratar de questões globais, é essencial ter conjuntos de dados globais e produtos derivados desses conjuntos de dados;
  • é mais eficiente e econômico para cada nação compartilhar seus dados e informações do que coletar tudo o que precisa de forma independente; e
  • a implementação de políticas eficazes que abordem as questões do meio ambiente global requer o envolvimento desde o início de quase todas as nações do mundo.

Os programas internacionais de pesquisa de mudanças globais e monitoramento ambiental dependem crucialmente do princípio da troca total e aberta de dados (ou seja, os dados e as informações são disponibilizados sem restrições, de forma não discriminatória, por não mais do que o custo de reprodução e distribuição) . "

A última frase destaca o custo tradicional de divulgação de informações por impressão e correio. É a eliminação desse custo por meio da Internet que tornou os dados muito mais fáceis de disseminar tecnicamente. É correspondentemente mais barato criar, vender e controlar muitos recursos de dados e isso levou às preocupações atuais sobre dados não abertos.

Os usos mais recentes do termo incluem:

  • SAFARI 2000 (África do Sul, 2001) usou uma licença informada pelas políticas do ICSU e da NASA
  • O genoma humano (Kent, 2002)
  • An Open Data Consortium on geospatial data (2003)
  • Manifesto for Open Chemistry (Murray-Rust and Rzepa, 2004) (2004)
  • Apresentações para JISC e OAI sob o título "dados abertos" (Murray-Rust, 2005)
  • Lançamento do Science Commons (2004)
  • Primeiros Fóruns de Conhecimento Aberto (Londres, Reino Unido), administrados pela Open Knowledge Foundation (Londres, Reino Unido) sobre dados abertos em relação a informações cívicas e geodados (fevereiro e abril de 2005)
  • O grupo Obelisco Azul em química (mantra: Dados Abertos, Código Aberto, Padrões Abertos) (2005) doi : 10.1021 / ci050400b
  • A Petição para Dados Abertos em Cristalografia é lançada pelo Conselho Consultivo de Banco de Dados Abertos de Cristalografia . (2005)
  • XML Conference & Exposition 2005 (Connolly 2005)
  • Lista de mala direta SPARC Open Data (2005)
  • O primeiro rascunho da Definição de Conhecimento Aberto faz referência explícita a "Dados Abertos" (2005)
  • XTech (Dumbill, 2005), (Bray e O'Reilly 2006)

Em 2004, os Ministros da Ciência de todas as nações da OCDE (Organização para Cooperação e Desenvolvimento Econômico), que inclui a maioria dos países desenvolvidos do mundo, assinaram uma declaração que afirma essencialmente que todos os dados de arquivo financiados com recursos públicos devem ser disponibilizados ao público. Após uma solicitação e uma intensa discussão com instituições produtoras de dados nos estados membros, a OCDE publicou em 2007 os Princípios e Diretrizes da OCDE para Acesso a Dados de Pesquisa de Financiamento Público como uma recomendação soft-law .

Em 2005, Edd Dumbill introduziu um tema “Dados Abertos” na XTech, incluindo:

Em 2006, a Science Commons realizou uma conferência de 2 dias em Washington, onde o tópico principal poderia ser descrito como Dados Abertos. Foi relatado que a quantidade de microproteção de dados (por exemplo, por licença) em áreas como a biotecnologia estava criando uma tragédia do anticommons . Nesse sentido, os custos de obtenção de licenças de um grande número de proprietários tornavam inviável a realização de pesquisas na área.

Em 2007, SPARC e Science Commons anunciaram uma consolidação e aprimoramento de seus adendos de autoria.

Em 2007, a OCDE (Organização para Cooperação e Desenvolvimento Econômico) publicou os Princípios e Diretrizes para Acesso a Dados de Pesquisa com Financiamento Público. Os Princípios afirmam que:

O acesso a dados de pesquisa aumenta os retornos do investimento público nesta área; reforça a investigação científica aberta; incentiva a diversidade de estudos e opiniões; promove novas áreas de trabalho e possibilita a exploração de tópicos não previstos pelos pesquisadores iniciais.

Em 2010, os Princípios Panton foram lançados, defendendo os Dados Abertos na ciência e definindo os princípios que os provedores devem cumprir para ter seus dados abertos.

Em 2011, LinkedScience.org foi lançado para realizar a abordagem da Linked Open Science para compartilhar e interconectar abertamente ativos científicos como conjuntos de dados, métodos, ferramentas e vocabulários.

Em 2012, a Royal Society publicou um importante relatório, "Science as an Open Enterprise", defendendo dados científicos abertos e considerando seus benefícios e requisitos.

Em 2013, os Ministros da Ciência do G8 divulgaram uma declaração apoiando um conjunto de princípios para dados abertos de pesquisa científica

Em 2015, o World Data System do International Council for Science adotou um novo conjunto de Princípios de Compartilhamento de Dados para incorporar o espírito da 'ciência aberta'. Esses Princípios estão em linha com as políticas de dados de iniciativas nacionais e internacionais e expressam compromissos éticos básicos operacionalizados na Certificação WDS de serviços e repositórios de dados confiáveis.

Relação para acesso aberto

Muitos dados são disponibilizados por meio de publicações acadêmicas, o que agora atrai intenso debate em " Acesso Aberto " e formatos semanticamente abertos - como a oferta de artigos científicos no formato JATS . A Budapest Open Access Initiative (2001) cunhou este termo:

Por "acesso aberto" a esta literatura, queremos dizer sua disponibilidade gratuita na Internet pública, permitindo que qualquer usuário leia, faça download, copie, distribua, imprima, pesquise ou crie links para os textos completos desses artigos, rastreá-los para indexação, transmiti-los como dados para software, ou usá-los para qualquer outra finalidade lícita, sem barreiras financeiras, legais ou técnicas, a não ser aquelas inseparáveis ​​de obter acesso à própria internet. A única restrição à reprodução e distribuição, e a única função dos direitos autorais neste domínio, deve ser dar aos autores o controle sobre a integridade de seu trabalho e o direito de serem devidamente reconhecidos e citados.

A lógica da declaração permite a reutilização dos dados, embora o termo "literatura" tenha conotações de texto legível por humanos e possa implicar um processo de publicação acadêmica. No discurso de Acesso Aberto, o termo "texto completo" é freqüentemente usado, o que não enfatiza os dados contidos dentro ou que acompanham a publicação.

Alguns editores de Acesso Aberto não exigem que os autores atribuam direitos autorais e os dados associados a essas publicações podem normalmente ser considerados como Dados Abertos. Alguns editores têm estratégias de acesso aberto em que o editor exige a atribuição dos direitos autorais e onde não está claro se os dados nas publicações podem ser realmente considerados como dados abertos.

Os editores ALPSP e STM emitiram uma declaração sobre a conveniência de disponibilizar os dados gratuitamente:

Os editores reconhecem que, em muitas disciplinas, os próprios dados, em várias formas, são agora um resultado-chave da pesquisa. Ferramentas de pesquisa e mineração de dados permitem o uso cada vez mais sofisticado de dados brutos. É claro que os artigos de periódicos fornecem uma 'visão' do significado e interpretação desses dados - e as apresentações em conferências e trocas informais podem fornecer outras 'visões' - mas os próprios dados são um recurso comunitário cada vez mais importante. A ciência é melhor avançada permitindo que o maior número possível de cientistas tenha acesso ao máximo possível de dados anteriores; isso evita a repetição onerosa de trabalho e permite uma nova integração criativa e o retrabalho dos dados existentes.

e

Acreditamos que, como princípio geral, os conjuntos de dados, as saídas de dados brutos da pesquisa e os conjuntos ou subconjuntos desses dados que são submetidos com um artigo a um periódico devem, sempre que possível, ser disponibilizados gratuitamente a outros acadêmicos. Acreditamos que a melhor prática para editores de periódicos acadêmicos é separar os dados de apoio do próprio artigo e não exigir qualquer transferência ou propriedade de tais dados ou conjuntos de dados como condição para a publicação do artigo em questão.

Mesmo que esta afirmação não tenha nenhum efeito sobre a disponibilidade aberta de dados primários relacionados a publicações em periódicos dos membros da ALPSP e STM. As tabelas de dados fornecidas pelos autores como suplemento de um artigo ainda estão disponíveis apenas para assinantes.

Relação com a revisão por pares

Em um esforço para abordar questões com a reprodutibilidade dos resultados da pesquisa, alguns estudiosos estão pedindo que os autores concordem em compartilhar seus dados brutos como parte do processo de revisão por pares acadêmicos . Já em 1962, por exemplo, vários psicólogos tentaram obter conjuntos de dados brutos de outros pesquisadores, com resultados mistos, a fim de reanalisá-los. Uma tentativa recente resultou em apenas sete conjuntos de dados de cinquenta solicitações. A noção de obter, quanto mais exigir, dados abertos como condição para a revisão por pares permanece controversa.

Cálculo de pesquisa aberta

Para dar sentido aos dados científicos, eles devem ser analisados. Em todos os casos, exceto nos casos mais simples, isso é feito por software. O uso extensivo de software apresenta problemas para a reprodutibilidade da pesquisa. Para manter a reprodutibilidade da pesquisa, é necessário publicar não apenas todos os dados, mas também o código-fonte de todos os softwares utilizados e todas as parametrizações utilizadas na execução desse software. Atualmente, esses pedidos raramente são atendidos. As maneiras de se aproximar da computação científica reproduzível são discutidas sob a palavra-chave " computação de pesquisa aberta ".

Veja também

Referências

links externos