NCSA Brown Dog - NCSA Brown Dog

NCSA Brown Dog é um projeto de pesquisa para desenvolver um método para acessar facilmente dados históricos de pesquisa armazenados, a fim de manter a viabilidade de longo prazo de grandes grupos de pesquisa científica. É apoiado pelo National Center for Supercomputing Applications (NCSA), que é financiado pela National Science Foundation (NSF).

História

Brown Dog faz parte do programa de parceiros DataNet fundado pela NSF em 2008. DataNet foi concebido para lidar com a natureza cada vez mais digital e com uso intensivo de dados da ciência, engenharia e educação. Brown Dog faz parte de um esforço subsequente denominado Data Infrastructure Building Blocks (DIBBs) , focado na construção de software para dar suporte ao DataNet. O projeto foi proposto por pesquisadores do NCSA e da University of Illinois Urbana-Champaign , bem como pesquisadores da Boston University e da University of North Carolina em Chapel Hill .

Dados não estruturados, não curados, de cauda longa

Muitos dados científicos são menores, não estruturados e não curados e, portanto, não são facilmente compartilhados. Esses dados às vezes são chamados de dados de "cauda longa". Isso toma emprestado um termo das estatísticas e se refere à cauda da distribuição dos tamanhos dos projetos. A maioria dos projetos menores carece de recursos para administrar adequadamente os dados que produzem. Esses dados chamados de "cauda longa", tanto do passado quanto do presente, têm o potencial de informar pesquisas futuras em muitas áreas de estudo. Muitos desses dados tornaram-se inacessíveis devido a softwares e formatos de arquivo obsoletos. A impossibilidade resultante de revisar dados de pesquisas mais antigas perturba o projeto de pesquisa científica geral.

Abordagem

Brown Dog se descreve como o "super mutt" do software (daí o nome "Brown Dog"), servindo como uma infraestrutura de dados de baixo nível para fazer a interface de conteúdo de dados digitais na Internet. Sua abordagem é usar todas as fontes possíveis de ajuda automatizada (ou seja, software) existentes de uma maneira robusta e que preserva a proveniência para criar um serviço que possa lidar com o máximo possível desses dados. O projeto vê o impacto mais amplo de seu trabalho em seu potencial de servir ao público em geral como uma espécie de "DNS para dados", com o objetivo de tornar todos os dados e todos os formatos de arquivo tão acessíveis quanto as páginas da web hoje.

Tecnologia

Brown Dog busca resolver problemas que envolvem o uso de coletas de dados não estruturados e não estruturados por meio do desenvolvimento de dois serviços: o Data Access Proxy (DAP) para auxiliar na conversão de formatos de arquivo e o Data Tilling Services (DTS) para a extração automática de metadados do conteúdo do arquivo. Depois de desenvolvido, os pesquisadores e usuários do público em geral poderão baixar plug-ins de navegador e outras ferramentas do catálogo de ferramentas Brown Dog.

Serviço de nivelamento de dados

O Data Tilling Service (DTS) permitirá aos usuários pesquisar coleções de dados usando um arquivo existente para descobrir outros arquivos semelhantes em uma coleção. Um campo de pesquisa DTS será anexado aos navegadores configurados onde os arquivos de exemplo podem ser descartados. Isso diz ao DTS para pesquisar todos os arquivos em um determinado URL para arquivos semelhantes ao arquivo descartado. Por exemplo, ao navegar em uma coleção de imagens online, um usuário poderia colocar uma imagem de três pessoas no campo de pesquisa e o DTS retornaria todas as imagens da coleção que também contêm três pessoas. Se o DTS encontrar um formato de arquivo externo, ele utilizará o DAP para tornar o arquivo acessível. O DTS também indexa os dados, extrai e anexa metadados a arquivos e coleções, permitindo que os usuários tenham uma ideia do tipo de dados que estão encontrando.

Este serviço é executado na porta 9443.

Proxy de acesso a dados

O Proxy de Acesso a Dados (DAP) permite que os usuários acessem arquivos de dados que, de outra forma, seriam ilegíveis. Semelhante a um gateway de Internet ou Serviço de Nomes de Domínio , a configuração DAP seria inserida nas configurações da máquina e do navegador de um usuário. As solicitações de dados sobre HTTP seriam examinadas primeiro pelo DAP para determinar se o formato de arquivo nativo pode ser lido no dispositivo cliente. Caso contrário, o DAP converte o arquivo no melhor formato disponível legível pela máquina cliente. Como alternativa, o usuário pode especificar o formato desejado.

Este serviço é executado na porta 8184.

Casos de uso

Brown Dog tem como alvo três casos de uso propostos por grupos dentro das comunidades de pesquisa EarthCube . Desenvolvedores e pesquisadores dessas comunidades trabalharão juntos em casos de uso que abrangem geociências , engenharia , biologia e ciências sociais .

Dados de vegetação de cauda longa em ecologia e biologia de mudanças globais

Este caso de uso é liderado por Michael Dietze , da Boston University

Os dados sobre a abundância, composição das espécies e estrutura do tamanho da vegetação são extremamente importantes para uma ampla gama de subdisciplinas em ecologia, conservação, gestão de recursos naturais e biologia da mudança global. No entanto, abordar muitas das questões urgentes nessas disciplinas exigirá que a biosfera terrestre e os modelos hidrológicos sejam capazes de assimilar a grande quantidade de dados de cauda longa que existe, mas é amplamente inacessível. A equipe Brown Dog, em cooperação com pesquisadores do laboratório de Dietze, facilitará a captura de um grande corpo de conjuntos menores de dados de vegetação orientados para pesquisa coletados ao longo de muitas décadas e dados históricos de vegetação incorporados em dados do Public Land Survey que datam de 1785. Esses dados serão usado como condições iniciais para modelos, para dar sentido a outros grandes conjuntos de dados e para calibração e validação de modelo.

Projeto de infraestrutura verde, considerando água pluvial e necessidades humanas

Este caso de uso é liderado por Barbara Minsker , da Universidade de Illinois em Urbana-Champaign ; William Sullivan , Universidade de Illinois em Urbana-Champaign; Arthur Schmidt , Universidade de Illinois em Urbana-Champaign

Este estudo de caso envolve o desenvolvimento de novos critérios e modelos de design de infraestrutura verde que integram requisitos para gestão de águas pluviais e ecossistema e saúde e bem-estar humanos. Para abordar os problemas científicos e sociais associados ao design de espaços verdes, a acessibilidade e disponibilidade de dados é um grande desafio. Este estudo se concentrará nas áreas identificadas da região de Green Healthy Neighborhood Planning na cidade de Chicago, onde o desempenho do esgoto local existente é mais deficiente e onde mudanças em áreas impermeáveis ​​por meio de infraestrutura verde seriam benéficas para bairros mal servidos. Brown Dog será usado para extrair dados experimentais de cauda longa sobre as preferências da paisagem humana e impactos na saúde. Esses dados serão usados ​​para desenvolver um modelo de impactos na saúde humana que será então vinculado a um modelo da biosfera terrestre e a um modelo de águas pluviais usando a tecnologia Brown Dog.

Desenvolvimento e aplicação para estudos de zona crítica

Este caso de uso é liderado por Praveen Kumar , da Universidade de Illinois em Urbana-Champaign

A Zona Crítica (CZ) é a "pele" da terra que se estende da copa das árvores até a rocha que é criada por processos vitais que atuam em escalas de micróbios a biomas. A Zona Crítica suporta todos os sistemas vivos terrestres. Sua parte superior é o biomanto. É onde a biota terrestre vive, se reproduz, usa e gasta energia, e onde seus resíduos e sobras se acumulam e se decompõem. Ela abrange o solo, que atua como uma geomembrana por meio da qual água e solutos, energia, gases, sólidos e organismos interagem com a atmosfera, a biosfera, a hidrosfera e a litosfera. Uma variedade de fatores afetam esta zona bio-dinâmica, variando do clima e desmatamento à agricultura, pastagem e desenvolvimento humano. Compreender e prever esses efeitos é fundamental para gerenciar e sustentar serviços ecossistêmicos vitais , como fertilidade do solo, purificação da água e produção de recursos alimentares e, em escalas maiores, ciclo global de carbono e sequestro de carbono . O CZ fornece uma estrutura unificadora para a integração da superfície terrestre e dos ambientes próximos à superfície, e reflete uma intrincada teia de processos biológicos e químicos e impactos humanos que ocorrem em escalas temporais e espaciais muito diferentes. A natureza desses dados cria desafios significativos para os estudos interdisciplinares do CZ porque a integração da variedade e do número de produtos e modelos de dados tem sido uma barreira. Por outro lado, os dados CZ fornecem uma excelente oportunidade para definir, testar e implementar tecnologias Brown Dog. Neste contexto, os dados "não estruturados" são vistos amplamente como consistindo em uma coleção de dados heterogêneos com formatos que refletem legados temporais e disciplinares, dados de sensores baseados em hardware aberto emergentes de baixo custo e redes de sensores incorporados que carecem de metadados e características de sensor bem definidos, como bem como dados que estão disponíveis como mapas, imagens e texto.

Prêmio NSF

CIF21 DIBBs: Brown Dog foi premiado no inverno de 2013 com data de início em 1º de outubro de 2013. A data de validade estimada é 30 de setembro de 2018.

O valor do prêmio foi de $ 10.519.716,00, o maior prêmio da DIBB. O investigador principal é Kenton McHenry, do NCSA da Universidade de Illinois em Urbana-Champaign. Os co-líderes são Jong Lee NCSA / UIUC; Barbara Minsker, Engenharia Civil e Ambiental, Universidade de Illinois em Urbana-Champaign; Praveen Kumar, Engenharia Civil e Ambiental, Universidade de Illinois em Urbana-Champaign; Michael Dietze, Departamento de Terra e Meio Ambiente, Universidade de Boston.

Referências

links externos