Identificação automatizada de espécies - Automated species identification

A identificação automatizada de espécies é um método de disponibilizar a experiência de taxonomistas para ecologistas, parataxonomistas e outros por meio de tecnologia digital e inteligência artificial . Hoje, a maioria dos sistemas de identificação automatizados dependem de imagens que retratam as espécies para a identificação. Com base em imagens precisamente identificadas de uma espécie, um classificador é treinado. Uma vez exposto a uma quantidade suficiente de dados de treinamento, este classificador pode então identificar as espécies treinadas em imagens anteriormente não vistas. A identificação precisa das espécies é a base para todos os aspectos da pesquisa taxonômica e é um componente essencial dos fluxos de trabalho na pesquisa biológica.

Introdução

A identificação automática de objetos biológicos, como insetos (indivíduos) e / ou grupos (por exemplo, espécies , guildas, personagens) tem sido um sonho entre os sistematistas há séculos. O objetivo de alguns dos primeiros métodos biométricos multivariados era abordar o problema perene de discriminação de grupo e caracterização intergrupo. Apesar de muitos trabalhos preliminares nas décadas de 1950 e 60, o progresso no projeto e na implementação de sistemas práticos para identificação biológica de objetos totalmente automatizada tem se mostrado frustrantemente lento. Recentemente, em 2004, Dan Janzen atualizou o sonho para um novo público:

A nave pousa. Ele sai. Ele aponta ao redor. Diz 'amigável-hostil-comestível-venenoso-seguro-perigoso-vivo-inanimado'. Na próxima varredura, está escrito ' Quercus oleoides — Homo sapiens — Spondias mombin — Solanum nigrum — Crotalus durissus — Morpho peleides —serpentina'. Isso está na minha cabeça desde que li ficção científica na nona série, meio século atrás.

O problema de identificação de espécies

DFE - a interface gráfica do sistema Daisy . A imagem é a asa de um mosquito picante Culicoides sp., Algumas espécies dos quais são vetores da Língua Azul . Outros também podem ser vetores do vírus de Schmallenberg, uma doença emergente do gado, especialmente das ovelhas.
(Crédito: Mark A. O'Neill )

A solução preferida de Janzen para esse problema clássico envolvia a construção de máquinas para identificar espécies a partir de seu DNA . Seu orçamento previsto e equipe de pesquisa proposta é de “US $ 1 milhão e cinco pessoas brilhantes”. No entanto, desenvolvimentos recentes em arquiteturas de computador, bem como inovações em design de software, colocaram as ferramentas necessárias para realizar a visão de Janzen nas mãos da comunidade de ciência da computação e sistemática não daqui a vários anos, mas agora; e não apenas para criar códigos de barras de DNA , mas também para identificação com base em imagens digitais .

Um levantamento seminal publicado em 2004, estuda por que a identificação automatizada de espécies não se tornou amplamente empregada neste momento e se seria uma opção realista para o futuro. Os autores descobriram que "um número pequeno, mas crescente de estudos buscou desenvolver sistemas automatizados de identificação de espécies com base em caracteres morfológicos". Uma visão geral de 20 estudos analisando estruturas de espécies, como células, pólen, asas e genitália, mostra taxas de sucesso de identificação entre 40% e 100% em conjuntos de treinamento com 1 a 72 espécies. No entanto, eles também identificaram quatro problemas fundamentais com esses sistemas: (1) conjuntos de treinamento - eram muito pequenos (5-10 espécimes por espécie) e sua extensão, especialmente para espécies raras, pode ser difícil, (2) erros na identificação - não são suficientemente estudados para lidar com eles e encontrar sistemática, (3) escala - os estudos consideram apenas um pequeno número de espécies (<200 espécies) e (4) novas espécies - os sistemas são restritos às espécies para as quais foram treinados e classificarão qualquer nova observação como uma das espécies conhecidas.

Uma pesquisa publicada em 2017 compara e discute sistematicamente o progresso e as descobertas para a identificação automatizada de espécies de plantas na última década (2005–2015). Nesse período, 120 estudos primários foram publicados em locais de alta qualidade, principalmente por autores com formação em ciência da computação. Esses estudos propõem uma grande variedade de abordagens de visão computacional , ou seja, recursos que reduzem a alta dimensionalidade dos dados de imagem baseados em pixels, preservando as informações características, bem como os métodos de classificação. A grande maioria desses estudos analisa folhas para identificação, enquanto apenas 13 estudos propõem métodos de identificação com base em flores . As razões são que as folhas podem ser coletadas e fotografadas com mais facilidade e estão disponíveis durante a maior parte do ano. As características propostas capturam características genéricas do objeto, ou seja, forma , textura e cor , bem como características específicas da folha, ou seja, venação e margem. A maioria dos estudos ainda usa conjuntos de dados para avaliação que continham no máximo 250 espécies . No entanto, há progresso nesse sentido, um estudo usa um conjunto de dados com> 2k e outro com> 20k espécies .

Esses desenvolvimentos não poderiam ter ocorrido em melhor hora. Como a comunidade taxonômica já sabe, o mundo está ficando sem especialistas que possam identificar a própria biodiversidade cuja preservação se tornou uma preocupação global. Ao comentar sobre este problema na paleontologia já em 1993, Roger Kaesler reconheceu:

“… Estamos ficando sem paleontólogos sistemáticos que têm algo próximo ao conhecimento sinótico de um grande grupo de organismos… Os paleontólogos do próximo século dificilmente terão o luxo de lidar longamente com problemas taxonômicos… A paleontologia terá que manter seu nível de entusiasmo sem a ajuda de sistematistas, que tanto contribuíram para o seu sucesso ”.

Essa deficiência de conhecimento afeta tanto as indústrias comerciais que dependem de identificações precisas (por exemplo, agricultura , bioestratigrafia ) quanto em uma ampla gama de programas de pesquisa pura e aplicada (por exemplo, conservação , oceanografia biológica , climatologia , ecologia ). Também é comumente, embora informalmente, reconhecido que a literatura técnica taxonômica de todos os grupos de organismos está repleta de exemplos de identificações inconsistentes e incorretas. Isso se deve a uma variedade de fatores, incluindo taxonomistas sendo insuficientemente treinados e qualificados para fazer identificações (por exemplo, usando diferentes regras de ouro para reconhecer os limites entre grupos semelhantes), descrições e / ou ilustrações originais de grupos insuficientemente detalhadas, acesso inadequado a monografias atuais e coleções bem curadas e, claro, taxonomistas com opiniões diferentes sobre os conceitos de grupo. A revisão por pares apenas elimina os erros mais óbvios de comissão ou omissão nesta área, e somente quando um autor fornece representações adequadas (por exemplo, ilustrações, gravações e sequências de genes) dos espécimes em questão.

A sistemática também tem muito a ganhar, tanto prática quanto teoricamente, com o desenvolvimento e uso de sistemas de identificação automatizados. É agora amplamente reconhecido que os dias da sistemática como um campo habitado por indivíduos levemente excêntricos em busca do conhecimento em esplêndido isolamento das prioridades de financiamento e imperativos econômicos estão rapidamente chegando ao fim. Para atrair pessoal e recursos, a sistemática deve se transformar em um “grande empreendimento científico internacional coordenado”. Muitos identificaram o uso da Internet - especialmente via World Wide Web - como o meio pelo qual essa transformação pode ser feita. Embora o estabelecimento de um sistema virtual semelhante ao GenBank para acessar dados morfológicos , clipes de áudio, arquivos de vídeo e assim por diante seja um passo significativo na direção certa, o acesso aprimorado a informações observacionais e / ou descrições baseadas em texto por si só não resolverá nenhum dos dois o impedimento taxonômico ou problemas de baixa reprodutibilidade de identificação com sucesso. Em vez disso, a inevitável subjetividade associada à tomada de decisões críticas com base em critérios qualitativos deve ser reduzida ou, pelo menos, inserida em um contexto mais formalmente analítico.

Imagens de gel de proteína SDS de lagartas da mariposa esfinge. Pode ser usado de maneira semelhante à impressão digital de DNA

Sistemas de identificação automatizados adequadamente projetados, flexíveis e robustos, organizados em torno de arquiteturas de computação distribuídas e referenciados a coleções de dados de conjuntos de treinamento identificados com autoridade (por exemplo, imagens e sequências de genes ) podem, em princípio, fornecer a todos os sistematistas acesso aos dados eletrônicos arquivos e as ferramentas analíticas necessárias para lidar com as identificações de rotina de táxons comuns. Sistemas adequadamente projetados também podem reconhecer quando seus algoritmos não podem fazer uma identificação confiável e encaminhar essa imagem a um especialista (cujo endereço pode ser acessado de outro banco de dados). Esses sistemas também podem incluir elementos de inteligência artificial e, assim, melhorar seu desempenho quanto mais são usados. Mais assustadoramente, uma vez que os modelos morfológicos (ou moleculares) de uma espécie foram desenvolvidos e demonstraram ser precisos, esses modelos podem ser consultados para determinar quais aspectos dos padrões observados de variação e limites de variação estão sendo usados ​​para alcançar a identificação, abrindo assim o caminho para a descoberta de novos e (potencialmente) mais confiáveis ​​caracteres taxonômicos.

  • iNaturalist é um projeto de ciência cidadã global e rede social de naturalistas que incorpora a identificação humana e automática de plantas, animais e outras criaturas vivas por meio de navegador ou aplicativos móveis.
  • Pl @ ntNet é um projeto de ciência cidadã global que fornece um aplicativo e um site para identificação de plantas por meio de fotografias, com base em aprendizado de máquina
  • Leaf Snap é um aplicativo iOS desenvolvido pela Smithsonian Institution que usa software de reconhecimento visual para identificar espécies de árvores norte-americanas a partir de fotografias de folhas.
  • O bot FlowerChecker é um Chatterbot do Facebook que usa software de reconhecimento visual para identificar espécies de plantas a partir de fotografias. O bot usa plantar um banco de dados coletado pelo aplicativo FlowerChecker para telefones celulares.
  • O Google Fotos pode identificar automaticamente várias espécies nas fotos.
  • Plant.id é um aplicativo da web que usa rede neural treinada em fotos do aplicativo FlowerChecker
  • Flora Incognita é um aplicativo desenvolvido como parte de um projeto de pesquisa e usa uma cascata de redes neurais convolucionais para identificar plantas com base em imagens e dados de localização.

Veja também

Referências citadas

links externos

Aqui estão alguns links para as páginas iniciais dos sistemas de identificação de espécies. Os sistemas SPIDA e DAISY são essencialmente genéricos e capazes de classificar qualquer material de imagem apresentado. Os sistemas ABIS e DrawWing são restritos a insetos com asas membranosas, pois operam combinando um conjunto específico de caracteres com base na venação das asas.