Anotação automática de imagem - Automatic image annotation

A anotação automática de imagens (também conhecida como marcação automática de imagens ou indexação linguística ) é o processo pelo qual um sistema de computador atribui automaticamente metadados na forma de legendas ou palavras - chave a uma imagem digital . Esta aplicação de técnicas de visão computacional é usada em sistemas de recuperação de imagens para organizar e localizar imagens de interesse em um banco de dados .

Este método pode ser considerado como um tipo de multi-classe classificação de imagens com um grande número de classes - tão grande quanto o tamanho do vocabulário. Normalmente, a análise de imagens na forma de vetores de recursos extraídos e as palavras de anotação de treinamento são usadas por técnicas de aprendizado de máquina para tentar aplicar anotações automaticamente a novas imagens. Os primeiros métodos aprenderam as correlações entre características de imagem e anotações de treinamento, então técnicas foram desenvolvidas usando tradução automática para tentar traduzir o vocabulário textual com o 'vocabulário visual', ou regiões agrupadas conhecidas como blobs . O trabalho após esses esforços incluiu abordagens de classificação, modelos de relevância e assim por diante.

As vantagens da anotação automática de imagem em relação à recuperação de imagem baseada em conteúdo (CBIR) são que as consultas podem ser especificadas de forma mais natural pelo usuário. O CBIR geralmente (no momento) exige que os usuários pesquisem por conceitos de imagem, como cor e textura , ou encontrando exemplos de consultas. Certos recursos de imagem em imagens de exemplo podem substituir o conceito no qual o usuário está realmente se concentrando. Os métodos tradicionais de recuperação de imagens, como os usados por bibliotecas, contam com imagens anotadas manualmente, o que é caro e demorado, especialmente devido aos grandes e crescentes bancos de dados de imagens existentes.

Veja também

Referências

Datta, Ritendra; Dhiraj Joshi; Jia Li; James Z. Wang (2008). "Recuperação de imagens: idéias, influências e tendências da nova era" . Pesquisas de computação ACM . 40 (2): 1–60. doi : 10.1145 / 1348246.1348248 . S2CID 7060187 .
Nicolas Hervé; Nozha Boujemaa (2007). "Anotação de imagem: qual abordagem para bancos de dados realistas?" (PDF) . Conferência Internacional ACM sobre Recuperação de Imagem e Vídeo . Arquivado do original (PDF) em 20/05/2011.
M Inoue (2004). "Sobre a necessidade de recuperação de imagens com base em anotações" (PDF) . Workshop sobre Recuperação de Informação no Contexto . pp. 44–46. Arquivado do original (PDF) em 08/08/2014.

Leitura adicional

Modelo de coocorrência de palavras

Y Mori; H Takahashi & R Oka (1999). "Transformação imagem-palavra com base na divisão e quantização vetorial de imagens com palavras.". Anais do Workshop Internacional de Gerenciamento Inteligente de Armazenamento e Recuperação Multimídia . CiteSeerX 10.1.1.31.1704 .

Anotação como tradução automática

P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). "Reconhecimento de objetos como tradução automática: Aprendendo um léxico para um vocabulário de imagens fixas" . Proceedings of the European Conference on Computer Vision . pp. 97–112. Arquivado do original em 05/03/2005.

Modelos estatísticos

J Li e JZ Wang (2006). "Anotação computadorizada em tempo real de imagens" . Proc. ACM Multimedia . pp. 911–920.

JZ Wang e J Li (2002). "Indexação linguística baseada na aprendizagem de imagens com MHMMs 2-D" . Proc. ACM Multimedia . pp. 436–445.

Indexação linguística automática de imagens

J Li e JZ Wang (2008). "Anotação computadorizada em tempo real de imagens" . IEEE Transactions on Pattern Analysis and Machine Intelligence .

J Li e JZ Wang (2003). "Indexação linguística automática de imagens por uma abordagem de modelagem estatística" . IEEE Transactions on Pattern Analysis and Machine Intelligence . pp. 1075–1088.

Modelo de cluster de aspecto hierárquico

K Barnard; DA Forsyth (2001). "Aprendendo a Semântica de Palavras e Imagens" . Anais da Conferência Internacional sobre Visão Computacional . pp. 408–415. Arquivado do original em 2007-09-28.

Modelo de alocação de Dirichlet latente

D Blei; A Ng & M Jordan (2003). "Alocação de Dirichlet latente" (PDF) . Journal of Machine Learning Research . pp. 3: 993–1022. Arquivado do original (PDF) em 21/05/2005.

Rotulagem multiclasse supervisionada

G Carneiro; AB Chan; P Moreno & N Vasconcelos (2006). "Aprendizagem supervisionada de aulas semânticas para anotação e recuperação de imagens" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . pp. 394–410.

Similaridade de textura

RW Picard e TP Minka (1995). "Vision Texture for Annotation" . Sistemas multimídia .

Máquinas de vetor de suporte

C Cusano; G Ciocca & R Scettini (2004). "Anotação de imagem usando SVM". Proceedings of Internet Imaging IV . Internet de imagem V . 5304 . p. 330. bibcode : 2003SPIE.5304..330C . doi : 10.1117 / 12.526746 .

Conjunto de árvores de decisão e subjanelas aleatórias

R Maree; P Geurts; J Piater & L Wehenkel (2005). "Subjanelas aleatórias para classificação de imagens robustas" . Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition . pp. 1: 34-30.

Entropia Máxima

J Jeon; R Manmatha (2004). "Usando Entropia Máxima para Anotação Automática de Imagens" (PDF) . International Conf on Image and Video Retrieval (CIVR 2004) . pp. 24–32.

Modelos de relevância

J Jeon; V Lavrenko & R Manmatha (2003). "Anotação automática de imagem e recuperação usando modelos de relevância de mídia cruzada" (PDF) . Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval . pp. 119–126.

Modelos de relevância usando funções de densidade de probabilidade contínua

V Lavrenko; R Manmatha e J Jeon (2003). "Um modelo para aprender a semântica das imagens" (PDF) . Proceedings of the 16th Conference on Advances in Neural Information Processing Systems NIPS .

Modelo de Linguagem Coerente

R Jin; JY Chai; L Si (2004). "Anotação de imagem automática eficaz por meio de um modelo de linguagem coerente e aprendizado ativo" (PDF) . Proceedings of MM'04 .

Redes de inferência

D Metzler & R Manmatha (2004). "Uma abordagem de rede de inferência para recuperação de imagens" (PDF) . Proceedings of the International Conference on Image and Video Retrieval . pp. 42–50.

Distribuição múltipla de Bernoulli

S Feng; R Manmatha & V Lavrenko (2004). "Vários modelos de relevância Bernoulli para anotação de imagem e vídeo" (PDF) . Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões . pp. 1002–1009.

Múltiplas alternativas de design

JY Pan; HJ Yang; P Duygulu; C. Faloutsos (2004). "Legenda automática de imagens" (PDF) . Proceedings of 2004 IEEE International Conference on Multimedia and Expo (ICME'04) . Arquivado do original (PDF) em 09/12/2004.

Legendagem de imagens

Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). "UIT-ViIC: um conjunto de dados para a primeira avaliação sobre legendagem de imagens vietnamitas" . Anais da Conferência Internacional 2020 sobre Inteligência Coletiva Computacional (ICCCI 2020) . arXiv : 2002.00175 . doi : 10.1007 / 978-3-030-63007-2_57 .

Anotação de cena natural

J Fan; Y Gao; H Luo; G Xu (2004). "Anotação automática de imagens usando objetos salientes sensíveis ao conceito para representação de conteúdo de imagem" . Anais da 27ª conferência internacional anual sobre pesquisa e desenvolvimento em recuperação de informação . pp. 361–368.

Filtros globais de baixo nível relevantes

A Oliva e A Torralba (2001). "Modelando a forma da cena: uma representação holística do envelope espacial" (PDF) . International Journal of Computer Vision . pp. 42: 145–175.

Recursos de imagem global e estimativa de densidade não paramétrica

A Yavlinsky, E Schofield & S Rüger (2005). "Anotação de imagem automatizada usando recursos globais e estimativa de densidade não paramétrica robusta" (PDF) . International Conf on Image and Video Retrieval (CIVR, Cingapura, julho de 2005) . Arquivado do original (PDF) em 20/12/2005.

Semântica de vídeo

N Vasconcelos e A. Lippman (2001). "Modelos estatísticos de estrutura de vídeo para análise e caracterização de conteúdo" (PDF) . Transações IEEE no processamento de imagens . pp. 1-17.

Ilaria Bartolini; Marco Patella e Corrado Romani (2010). "Shiatsu: Etiquetagem Hierárquica Automática Baseada em Semântica de Vídeos por Segmentação Usando Cortes" . 3º Workshop Internacional de Multimídia da ACM sobre Extração Automatizada de Informação na Produção de Mídia (AIEMPro10) .

Refinamento de anotação de imagem

Yohan Jin; Latifur Khan ; Lei Wang e Mamoun Awad (2005). "Anotações de imagem combinando evidências múltiplas e wordNet" . 13ª Conferência Internacional Anual da ACM sobre Multimídia (MM 05) . pp. 706–715.

Changhu Wang; Feng Jing; Lei Zhang e Hong-Jiang Zhang (2006). "Refinamento de anotação de imagem usando passeio aleatório com reinicializações" . 14ª Conferência Internacional Anual da ACM sobre Multimídia (MM 06) .

Changhu Wang; Feng Jing; Lei Zhang e Hong-Jiang Zhang (2007). "refinamento de anotação de imagem baseada em conteúdo". Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões (CVPR 07) . doi : 10.1109 / CVPR.2007.383221 .

Ilaria Bartolini e Paolo Ciaccia (2007). "Imagination: Explorando Link Analysis for Accurate Image Annotation". Springer Adaptive Multimedia Retrieval . doi : 10.1007 / 978-3-540-79860-6_3 .

Ilaria Bartolini e Paolo Ciaccia (2010). "Anotação e pesquisa de imagens multidimensionais baseadas em palavras-chave" . 2º Workshop internacional da ACM sobre pesquisa de palavras-chave em dados estruturados (KEYS 2010) .

Anotação automática de imagens por conjunto de descritores visuais

Emre Akbas & Fatos Y. Vural (2007). "Anotação automática de imagens por conjunto de descritores visuais". Intl. Conf. on Computer Vision (CVPR) 2007, Workshop on Semantic Learning Applications in Multimedia . doi : 10.1109 / CVPR.2007.383484 .

Uma nova linha de base para anotação de imagem

Ameesh Makadia e Vladimir Pavlovic e Sanjiv Kumar (2008). "Uma nova linha de base para anotação de imagem" (PDF) . Conferência Europeia sobre Visão Computacional (ECCV) .

Classificação e anotação simultâneas de imagens

Chong Wang e David Blei e Li Fei-Fei (2009). "Classificação e anotação simultâneas de imagens" (PDF) . Conf. em Visão Computacional e Reconhecimento de Padrões (CVPR) .

TagProp: Aprendizagem de métrica discriminativa em modelos de vizinhos mais próximos para anotação automática de imagens

Matthieu Guillaumin e Thomas Mensink e Jakob Verbeek e Cordelia Schmid (2009). "TagProp: Aprendizagem de métrica discriminativa em modelos de vizinhos mais próximos para anotação automática de imagens" (PDF) . Intl. Conf. em Visão por Computador (ICCV) .

Anotação de imagem usando o aprendizado métrico em vizinhanças semânticas

Yashaswi Verma e CV Jawahar (2012). "Anotação de imagem usando o aprendizado métrico em vizinhanças semânticas" (PDF) . Conferência Europeia sobre Visão Computacional (ECCV) . Arquivado do original (PDF) em 14/05/2013 . Página visitada em 26/02/2014 .

Anotação automática de imagens usando representações de aprendizado profundo

Venkatesh N. Murthy & Subhransu Maji e R. Manmatha (2015). "Anotação automática de imagens usando representações de aprendizado profundo" (PDF) . Conferência Internacional sobre Multimídia (ICMR) .

Anotação de imagens médicas usando redes bayesianas e aprendizagem ativa

NB Marvasti & E. Yörük e B. Acar (2018). "Computer-Aided Medical Image Annotation: Preliminary Results With Liver Lesions in CT" . IEEE Journal of Biomedical and Health Informatics .

Languages

In other projects

Anotação automática de imagem - Automatic image annotation

Veja também

Referências

Leitura adicional