Esboço de reconhecimento de objeto - Outline of object recognition

O seguinte esboço é fornecido como uma visão geral e um guia tópico para o reconhecimento de objetos:

Reconhecimento de objetos - tecnologia no campo da visão computacional para localizar e identificar objetos em uma imagem ou sequência de vídeo. Os humanos reconhecem uma infinidade de objetos em imagens com pouco esforço, apesar do fato de que a imagem dos objetos pode variar um pouco em diferentes pontos de vista, em muitos tamanhos e escalas diferentes ou mesmo quando são transladados ou girados. Os objetos podem até ser reconhecidos quando estão parcialmente obstruídos da vista. Essa tarefa ainda é um desafio para sistemas de visão computacional. Muitas abordagens para a tarefa foram implementadas ao longo de várias décadas.

Abordagens baseadas em modelos de objetos do tipo CAD

Reconhecimento por partes

Métodos baseados em aparência

  • Use imagens de exemplo (chamadas de modelos ou exemplares) dos objetos para realizar o reconhecimento
  • Os objetos parecem diferentes em condições variadas:
    • Mudanças na iluminação ou cor
    • Mudanças na direção de visualização
    • Mudanças no tamanho / forma
  • É improvável que um único exemplar seja bem-sucedido de maneira confiável. No entanto, é impossível representar todas as aparências de um objeto.

Combinação de borda

  • Usa técnicas de detecção de bordas, como a detecção de bordas Canny , para encontrar bordas.
  • Mudanças na iluminação e cor geralmente não têm muito efeito nas bordas da imagem
  • Estratégia:
    1. Detectar bordas no modelo e na imagem
    2. Compare as imagens das bordas para encontrar o modelo
    3. Deve-se considerar a gama de posições possíveis do modelo
  • Medidas:
    • Bom - conte o número de arestas sobrepostas. Não é robusto a mudanças na forma
    • Melhor - conte o número de pixels da borda do modelo com alguma distância de uma borda na imagem de pesquisa
    • Melhor - determina a distribuição de probabilidade da distância até a borda mais próxima na imagem de pesquisa (se o modelo estiver na posição correta). Estimar a probabilidade de cada posição do modelo gerando imagem

Pesquisa de divisão e conquista

  • Estratégia:
    • Considere todas as posições como um conjunto (uma célula no espaço de posições)
    • Determine o limite inferior da pontuação na melhor posição na célula
    • Se o limite for muito grande, podar a célula
    • Se o limite não for muito grande, divida a célula em subcélulas e tente cada subcélula recursivamente
    • O processo para quando a célula é "pequena o suficiente"
  • Ao contrário da pesquisa de resolução múltipla, esta técnica é garantida para encontrar todas as correspondências que atendam ao critério (assumindo que o limite inferior seja preciso)
  • Encontrando o Limite:
    • Para encontrar o limite inferior da melhor pontuação, observe a pontuação para a posição do modelo representada pelo centro da célula
    • Subtraia a mudança máxima da posição "central" para qualquer outra posição na célula (ocorre nos cantos da célula)
  • Complexidades surgem da determinação de limites na distância

Correspondência em escala de cinza

  • As bordas são (principalmente) robustas a mudanças de iluminação, no entanto, elas jogam fora muitas informações
  • Deve calcular a distância do pixel como uma função da posição do pixel e da intensidade do pixel
  • Pode ser aplicado à cor também

Gradiente correspondente

  • Outra maneira de ser robusto para mudanças de iluminação sem jogar fora tantas informações é comparar gradientes de imagem
  • A correspondência é realizada como a correspondência de imagens em tons de cinza
  • Alternativa simples: Use correlação (normalizada)

Histogramas de respostas de campo receptivo

  • Evita correspondências de pontos explícitas
  • Relações entre diferentes pontos de imagem implicitamente codificados nas respostas do campo receptivo
  • Swain e Ballard (1991), Schiele e Crowley (2000), Linde e Lindeberg (2004, 2012)

Grandes bases de modelos

  • Uma abordagem para pesquisar de forma eficiente no banco de dados uma imagem específica para usar eigenvetores dos modelos (chamados de eigenfaces )
  • Modelbases são uma coleção de modelos geométricos dos objetos que devem ser reconhecidos

Métodos baseados em recursos

  • uma pesquisa é usada para encontrar correspondências viáveis ​​entre as características do objeto e as características da imagem .
  • a restrição primária é que uma única posição do objeto deve ser responsável por todas as correspondências viáveis.
  • métodos que extraem características dos objetos a serem reconhecidos e das imagens a serem pesquisadas.
    • manchas de superfície
    • cantos
    • bordas lineares

Árvores de interpretação

  • Um método para pesquisar correspondências viáveis ​​é pesquisar em uma árvore.
  • Cada nó na árvore representa um conjunto de correspondências.
    • O nó raiz representa um conjunto vazio
    • Cada outro nó é a união das correspondências no nó pai e uma correspondência adicional.
    • O curinga é usado para recursos sem correspondência
  • Os nós são “podados” quando o conjunto de correspondências é inviável.
    • Um nó podado não tem filhos
  • Historicamente significativo e ainda usado, mas menos comumente

Faça uma hipótese e teste

  • Ideia geral:
    • Hipotetize uma correspondência entre uma coleção de características de imagem e uma coleção de características de objeto
    • Em seguida, use isso para gerar uma hipótese sobre a projeção do quadro de coordenadas do objeto para o quadro da imagem
    • Use esta hipótese de projeção para gerar uma representação do objeto. Esta etapa é geralmente conhecida como retroprojeção
    • Compare a renderização com a imagem e, se os dois forem suficientemente semelhantes, aceite a hipótese
  • Obtendo Hipóteses:
    • Existem várias maneiras diferentes de gerar hipóteses.
    • Quando os parâmetros intrínsecos da câmera são conhecidos, a hipótese é equivalente a uma posição e orientação hipotética - pose - para o objeto.
    • Utilize restrições geométricas
    • Construa uma correspondência para pequenos conjuntos de características de objeto para cada subconjunto de pontos de imagem de tamanho correto. (Estas são as hipóteses)
  • Três abordagens básicas:
    • Obtenção de hipóteses por consistência de postura
    • Obtenção de hipóteses por agrupamento de posturas
    • Obtendo Hipóteses Usando Invariantes
  • Pesquisa de despesas que também é redundante, mas pode ser melhorada usando Randomização e / ou Agrupamento
    • Randomization
      • Examinando pequenos conjuntos de características de imagem até que a probabilidade de objeto perdido se torne pequena
      • Para cada conjunto de recursos de imagem, todos os conjuntos de correspondência possíveis de recursos do modelo devem ser considerados.
      • Fórmula:
        (1 - W c ) k = Z
        • W = a fração dos pontos da imagem que são "bons" (w ~ m / n)
        • c = o número de correspondências necessárias
        • k = o número de tentativas
        • Z = a probabilidade de cada tentativa usando uma (ou mais) correspondências incorretas
    • Agrupamento
      • Se pudermos determinar grupos de pontos que provavelmente virão do mesmo objeto, poderemos reduzir o número de hipóteses que precisam ser examinadas

Consistência de pose

  • Também chamado de Alinhamento, uma vez que o objeto está sendo alinhado à imagem
  • As correspondências entre os recursos da imagem e os recursos do modelo não são independentes - Restrições geométricas
  • Um pequeno número de correspondências produz a posição do objeto - as outras devem ser consistentes com esta
  • Ideia geral:
    • Se criarmos a hipótese de uma correspondência entre um grupo suficientemente grande de recursos de imagem e um grupo suficientemente grande de recursos de objeto, então podemos recuperar os parâmetros de câmera ausentes a partir desta hipótese (e assim renderizar o resto do objeto)
  • Estratégia:
    • Gere hipóteses usando um pequeno número de correspondências (por exemplo, triplos de pontos para reconhecimento 3D)
    • Projetar outras características do modelo em imagem ( backproject ) e verificar correspondências adicionais
  • Use o menor número de correspondências necessárias para conseguir poses discretas de objetos

Pose clustering

  • Ideia geral:
    • Cada objeto leva a muitos conjuntos corretos de correspondências, cada um dos quais tem (aproximadamente) a mesma pose
    • Vote na pose. Use uma matriz de acumulador que representa o espaço de pose para cada objeto
    • Esta é essencialmente uma transformada de Hough
  • Estratégia:
    • Para cada objeto, configure uma matriz de acumulador que representa o espaço de pose - cada elemento na matriz de acumulador corresponde a um “balde” no espaço de pose.
    • Em seguida, pegue cada grupo de quadros de imagem e crie a hipótese de uma correspondência entre ele e cada grupo de quadros em cada objeto
    • Para cada uma dessas correspondências, determine os parâmetros de posicionamento e faça uma entrada na matriz do acumulador para o objeto atual no valor de posicionamento.
    • Se houver um grande número de votos na matriz acumuladora de qualquer objeto, isso pode ser interpretado como evidência da presença desse objeto naquela posição.
    • A evidência pode ser verificada usando um método de verificação
  • Observe que este método usa conjuntos de correspondências, em vez de correspondências individuais
    • A implementação é mais fácil, pois cada conjunto produz um pequeno número de poses de objetos possíveis.
  • Melhoria
    • A resistência ao ruído deste método pode ser melhorada não contando votos para objetos em poses onde o voto é obviamente não confiável
    § Por exemplo, nos casos em que, se o objeto estivesse naquela pose, o grupo de quadros do objeto seria invisível.
    • Essas melhorias são suficientes para produzir sistemas de trabalho

Invariância

  • Existem propriedades geométricas que são invariáveis ​​às transformações da câmera
  • Mais facilmente desenvolvido para imagens de objetos planos, mas pode ser aplicado a outros casos também

Hashing geométrico

  • Um algoritmo que usa invariantes geométricos para votar em hipóteses de objeto
  • Semelhante ao agrupamento de pose, no entanto, em vez de votar na pose, agora estamos votando na geometria
  • Uma técnica desenvolvida originalmente para combinar características geométricas (visualizações afins não calibradas de modelos planos) em um banco de dados de tais características
  • Amplamente utilizado para correspondência de padrões, CAD / CAM e imagens médicas.
  • É difícil escolher o tamanho dos baldes
  • É difícil ter certeza do que “suficiente” significa. Portanto, pode haver algum perigo de a mesa ficar entupida.

Transformação de recurso invariante de escala (SIFT)

  • Pontos-chave de objetos são primeiro extraídos de um conjunto de imagens de referência e armazenados em um banco de dados
  • Um objeto é reconhecido em uma nova imagem comparando individualmente cada característica da nova imagem a este banco de dados e encontrando características de correspondência candidatas com base na distância euclidiana de seus vetores de características.
  • Lowe (2004)

Recursos robustos acelerados (SURF)

  • Um detector e descritor de imagem robusto
  • A versão padrão é várias vezes mais rápida do que SIFT e afirmada por seus autores ser mais robusta contra diferentes transformações de imagem do que SIFT
  • Com base em somas aproximadas de respostas wavelet de Haar 2D e feito uso eficiente de imagens integrais.
  • Bay et al. (2008)

Representações de saco de palavras

Algoritmo genético

Algoritmos genéticos podem operar sem conhecimento prévio de um determinado conjunto de dados e podem desenvolver procedimentos de reconhecimento sem intervenção humana. Um projeto recente atingiu 100 por cento de precisão nos conjuntos de dados de imagens de motocicletas, rostos, aviões e carros de referência da Caltech e 99,4 por cento de precisão nos conjuntos de dados de imagens de espécies de peixes.

Outras abordagens

Formulários

Os métodos de reconhecimento de objetos têm os seguintes aplicativos:

pesquisas

  • Daniilides e Eklundh, Edelman.
  • Roth, Peter M. e Winter, Martin (2008). "MÉTODOS BASEADOS NA PESQUISA DE SEU APARÊNCIA PARA RECONHECIMENTO DE OBJETOS" (PDF) . Relatório Técnico . ICG-TR-01/08.

Veja também

Listas

Notas

Referências

links externos