Anotação automática de imagem - Automatic image annotation

A anotação automática de imagens (também conhecida como marcação automática de imagens ou indexação linguística ) é o processo pelo qual um sistema de computador atribui automaticamente metadados na forma de legendas ou palavras - chave a uma imagem digital . Esta aplicação de técnicas de visão computacional é usada em sistemas de recuperação de imagens para organizar e localizar imagens de interesse em um banco de dados .

Este método pode ser considerado como um tipo de multi-classe classificação de imagens com um grande número de classes - tão grande quanto o tamanho do vocabulário. Normalmente, a análise de imagens na forma de vetores de recursos extraídos e as palavras de anotação de treinamento são usadas por técnicas de aprendizado de máquina para tentar aplicar anotações automaticamente a novas imagens. Os primeiros métodos aprenderam as correlações entre características de imagem e anotações de treinamento, então técnicas foram desenvolvidas usando tradução automática para tentar traduzir o vocabulário textual com o 'vocabulário visual', ou regiões agrupadas conhecidas como blobs . O trabalho após esses esforços incluiu abordagens de classificação, modelos de relevância e assim por diante.

As vantagens da anotação automática de imagem em relação à recuperação de imagem baseada em conteúdo (CBIR) são que as consultas podem ser especificadas de forma mais natural pelo usuário. O CBIR geralmente (no momento) exige que os usuários pesquisem por conceitos de imagem, como cor e textura , ou encontrando exemplos de consultas. Certos recursos de imagem em imagens de exemplo podem substituir o conceito no qual o usuário está realmente se concentrando. Os métodos tradicionais de recuperação de imagens, como os usados ​​por bibliotecas, contam com imagens anotadas manualmente, o que é caro e demorado, especialmente devido aos grandes e crescentes bancos de dados de imagens existentes.

Veja também

Referências

  • Datta, Ritendra; Dhiraj Joshi; Jia Li; James Z. Wang (2008). "Recuperação de imagens: idéias, influências e tendências da nova era" . Pesquisas de computação ACM . 40 (2): 1–60. doi : 10.1145 / 1348246.1348248 . S2CID   7060187 .
  • Nicolas Hervé; Nozha Boujemaa (2007). "Anotação de imagem: qual abordagem para bancos de dados realistas?" (PDF) . Conferência Internacional ACM sobre Recuperação de Imagem e Vídeo . Arquivado do original (PDF) em 20/05/2011.
  • M Inoue (2004). "Sobre a necessidade de recuperação de imagens com base em anotações" (PDF) . Workshop sobre Recuperação de Informação no Contexto . pp. 44–46. Arquivado do original (PDF) em 08/08/2014.

Leitura adicional

  • Modelo de coocorrência de palavras
Y Mori; H Takahashi & R Oka (1999). "Transformação imagem-palavra com base na divisão e quantização vetorial de imagens com palavras.". Anais do Workshop Internacional de Gerenciamento Inteligente de Armazenamento e Recuperação Multimídia . CiteSeerX   10.1.1.31.1704 .
  • Anotação como tradução automática
P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). "Reconhecimento de objetos como tradução automática: Aprendendo um léxico para um vocabulário de imagens fixas" . Proceedings of the European Conference on Computer Vision . pp. 97–112. Arquivado do original em 05/03/2005.
  • Modelos estatísticos
J Li e JZ Wang (2006). "Anotação computadorizada em tempo real de imagens" . Proc. ACM Multimedia . pp. 911–920.
JZ Wang e J Li (2002). "Indexação linguística baseada na aprendizagem de imagens com MHMMs 2-D" . Proc. ACM Multimedia . pp. 436–445.
  • Indexação linguística automática de imagens
J Li e JZ Wang (2008). "Anotação computadorizada em tempo real de imagens" . IEEE Transactions on Pattern Analysis and Machine Intelligence .
J Li e JZ Wang (2003). "Indexação linguística automática de imagens por uma abordagem de modelagem estatística" . IEEE Transactions on Pattern Analysis and Machine Intelligence . pp. 1075–1088.
  • Modelo de cluster de aspecto hierárquico
K Barnard; DA Forsyth (2001). "Aprendendo a Semântica de Palavras e Imagens" . Anais da Conferência Internacional sobre Visão Computacional . pp. 408–415. Arquivado do original em 2007-09-28.
  • Modelo de alocação de Dirichlet latente
D Blei; A Ng & M Jordan (2003). "Alocação de Dirichlet latente" (PDF) . Journal of Machine Learning Research . pp. 3: 993–1022. Arquivado do original (PDF) em 21/05/2005.
G Carneiro; AB Chan; P Moreno & N Vasconcelos (2006). "Aprendizagem supervisionada de aulas semânticas para anotação e recuperação de imagens" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . pp. 394–410.
  • Similaridade de textura
RW Picard e TP Minka (1995). "Vision Texture for Annotation" . Sistemas multimídia .
  • Máquinas de vetor de suporte
C Cusano; G Ciocca & R Scettini (2004). "Anotação de imagem usando SVM". Proceedings of Internet Imaging IV . Internet de imagem V . 5304 . p. 330. bibcode : 2003SPIE.5304..330C . doi : 10.1117 / 12.526746 .
  • Conjunto de árvores de decisão e subjanelas aleatórias
R Maree; P Geurts; J Piater & L Wehenkel (2005). "Subjanelas aleatórias para classificação de imagens robustas" . Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition . pp. 1: 34-30.
  • Entropia Máxima
J Jeon; R Manmatha (2004). "Usando Entropia Máxima para Anotação Automática de Imagens" (PDF) . International Conf on Image and Video Retrieval (CIVR 2004) . pp. 24–32.
  • Modelos de relevância
J Jeon; V Lavrenko & R Manmatha (2003). "Anotação automática de imagem e recuperação usando modelos de relevância de mídia cruzada" (PDF) . Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval . pp. 119–126.
  • Modelos de relevância usando funções de densidade de probabilidade contínua
V Lavrenko; R Manmatha e J Jeon (2003). "Um modelo para aprender a semântica das imagens" (PDF) . Proceedings of the 16th Conference on Advances in Neural Information Processing Systems NIPS .
  • Modelo de Linguagem Coerente
R Jin; JY Chai; L Si (2004). "Anotação de imagem automática eficaz por meio de um modelo de linguagem coerente e aprendizado ativo" (PDF) . Proceedings of MM'04 .
  • Redes de inferência
D Metzler & R Manmatha (2004). "Uma abordagem de rede de inferência para recuperação de imagens" (PDF) . Proceedings of the International Conference on Image and Video Retrieval . pp. 42–50.
  • Distribuição múltipla de Bernoulli
S Feng; R Manmatha & V Lavrenko (2004). "Vários modelos de relevância Bernoulli para anotação de imagem e vídeo" (PDF) . Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões . pp. 1002–1009.
  • Múltiplas alternativas de design
JY Pan; HJ Yang; P Duygulu; C. Faloutsos (2004). "Legenda automática de imagens" (PDF) . Proceedings of 2004 IEEE International Conference on Multimedia and Expo (ICME'04) . Arquivado do original (PDF) em 09/12/2004.
  • Legendagem de imagens
Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). "UIT-ViIC: um conjunto de dados para a primeira avaliação sobre legendagem de imagens vietnamitas" . Anais da Conferência Internacional 2020 sobre Inteligência Coletiva Computacional (ICCCI 2020) . arXiv : 2002.00175 . doi : 10.1007 / 978-3-030-63007-2_57 .
  • Anotação de cena natural
J Fan; Y Gao; H Luo; G Xu (2004). "Anotação automática de imagens usando objetos salientes sensíveis ao conceito para representação de conteúdo de imagem" . Anais da 27ª conferência internacional anual sobre pesquisa e desenvolvimento em recuperação de informação . pp. 361–368.
  • Filtros globais de baixo nível relevantes
A Oliva e A Torralba (2001). "Modelando a forma da cena: uma representação holística do envelope espacial" (PDF) . International Journal of Computer Vision . pp. 42: 145–175.
  • Recursos de imagem global e estimativa de densidade não paramétrica
A Yavlinsky, E Schofield & S Rüger (2005). "Anotação de imagem automatizada usando recursos globais e estimativa de densidade não paramétrica robusta" (PDF) . International Conf on Image and Video Retrieval (CIVR, Cingapura, julho de 2005) . Arquivado do original (PDF) em 20/12/2005.
  • Semântica de vídeo
N Vasconcelos e A. Lippman (2001). "Modelos estatísticos de estrutura de vídeo para análise e caracterização de conteúdo" (PDF) . Transações IEEE no processamento de imagens . pp. 1-17.
Ilaria Bartolini; Marco Patella e Corrado Romani (2010). "Shiatsu: Etiquetagem Hierárquica Automática Baseada em Semântica de Vídeos por Segmentação Usando Cortes" . 3º Workshop Internacional de Multimídia da ACM sobre Extração Automatizada de Informação na Produção de Mídia (AIEMPro10) .
  • Refinamento de anotação de imagem
Yohan Jin; Latifur Khan ; Lei Wang e Mamoun Awad (2005). "Anotações de imagem combinando evidências múltiplas e wordNet" . 13ª Conferência Internacional Anual da ACM sobre Multimídia (MM 05) . pp. 706–715.
Changhu Wang; Feng Jing; Lei Zhang e Hong-Jiang Zhang (2006). "Refinamento de anotação de imagem usando passeio aleatório com reinicializações" . 14ª Conferência Internacional Anual da ACM sobre Multimídia (MM 06) .
Changhu Wang; Feng Jing; Lei Zhang e Hong-Jiang Zhang (2007). "refinamento de anotação de imagem baseada em conteúdo". Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões (CVPR 07) . doi : 10.1109 / CVPR.2007.383221 .
Ilaria Bartolini e Paolo Ciaccia (2007). "Imagination: Explorando Link Analysis for Accurate Image Annotation". Springer Adaptive Multimedia Retrieval . doi : 10.1007 / 978-3-540-79860-6_3 .
Ilaria Bartolini e Paolo Ciaccia (2010). "Anotação e pesquisa de imagens multidimensionais baseadas em palavras-chave" . 2º Workshop internacional da ACM sobre pesquisa de palavras-chave em dados estruturados (KEYS 2010) .
  • Anotação automática de imagens por conjunto de descritores visuais
Emre Akbas & Fatos Y. Vural (2007). "Anotação automática de imagens por conjunto de descritores visuais". Intl. Conf. on Computer Vision (CVPR) 2007, Workshop on Semantic Learning Applications in Multimedia . doi : 10.1109 / CVPR.2007.383484 .
  • Uma nova linha de base para anotação de imagem
Ameesh Makadia e Vladimir Pavlovic e Sanjiv Kumar (2008). "Uma nova linha de base para anotação de imagem" (PDF) . Conferência Europeia sobre Visão Computacional (ECCV) .

Classificação e anotação simultâneas de imagens

Chong Wang e David Blei e Li Fei-Fei (2009). "Classificação e anotação simultâneas de imagens" (PDF) . Conf. em Visão Computacional e Reconhecimento de Padrões (CVPR) .
  • TagProp: Aprendizagem de métrica discriminativa em modelos de vizinhos mais próximos para anotação automática de imagens
Matthieu Guillaumin e Thomas Mensink e Jakob Verbeek e Cordelia Schmid (2009). "TagProp: Aprendizagem de métrica discriminativa em modelos de vizinhos mais próximos para anotação automática de imagens" (PDF) . Intl. Conf. em Visão por Computador (ICCV) .
  • Anotação de imagem usando o aprendizado métrico em vizinhanças semânticas
Yashaswi Verma e CV Jawahar (2012). "Anotação de imagem usando o aprendizado métrico em vizinhanças semânticas" (PDF) . Conferência Europeia sobre Visão Computacional (ECCV) . Arquivado do original (PDF) em 14/05/2013 . Página visitada em 26/02/2014 .
  • Anotação automática de imagens usando representações de aprendizado profundo
Venkatesh N. Murthy & Subhransu Maji e R. Manmatha (2015). "Anotação automática de imagens usando representações de aprendizado profundo" (PDF) . Conferência Internacional sobre Multimídia (ICMR) .
  • Anotação de imagens médicas usando redes bayesianas e aprendizagem ativa
NB Marvasti & E. Yörük e B. Acar (2018). "Computer-Aided Medical Image Annotation: Preliminary Results With Liver Lesions in CT" . IEEE Journal of Biomedical and Health Informatics .