Imagem de alcance - Range imaging

Imagem de alcance é o nome de uma coleção de técnicas usadas para produzir uma imagem 2D mostrando a distância a pontos em uma cena a partir de um ponto específico, normalmente associado a algum tipo de dispositivo sensor.

A imagem resultante, a imagem de alcance , tem valores de pixel que correspondem à distância. Se o sensor usado para produzir a imagem de alcance estiver devidamente calibrado, os valores de pixel podem ser dados diretamente em unidades físicas, como metros.

Diferentes tipos de câmeras de alcance

O dispositivo sensor usado para produzir a imagem de alcance às vezes é chamado de câmera de alcance . As câmeras de alcance podem operar de acordo com várias técnicas diferentes, algumas das quais são apresentadas aqui.

Triangulação estéreo

A triangulação estéreo é uma aplicação de estereofotogrametria onde os dados de profundidade dos pixels são determinados a partir de dados adquiridos usando um sistema de configuração estéreo ou de múltiplas câmeras . Desta forma, é possível determinar a profundidade de pontos na cena, por exemplo, a partir do ponto central da linha entre seus pontos focais. Para resolver o problema de medição de profundidade usando um sistema de câmera estéreo, é necessário primeiro encontrar os pontos correspondentes nas diferentes imagens. Resolver o problema da correspondência é um dos principais problemas ao usar este tipo de técnica. Por exemplo, é difícil resolver o problema de correspondência para pontos de imagem que estão dentro de regiões de intensidade ou cor homogênea. Como consequência, a imagem de alcance baseada em triangulação estéreo geralmente pode produzir estimativas de profundidade confiáveis ​​apenas para um subconjunto de todos os pontos visíveis nas várias câmeras.

A vantagem dessa técnica é que a medição é mais ou menos passiva; não requer condições especiais em termos de iluminação da cena. As outras técnicas mencionadas aqui não precisam resolver o problema de correspondência, mas dependem de condições particulares de iluminação da cena.

Folha de triangulação de luz

Se a cena for iluminada com uma folha de luz, isso criará uma linha refletida conforme vista da fonte de luz. De qualquer ponto fora do plano da folha, a linha normalmente aparecerá como uma curva, cuja forma exata depende tanto da distância entre o observador e a fonte de luz, quanto da distância entre a fonte de luz e os pontos refletidos. Ao observar a folha de luz refletida usando uma câmera (geralmente uma câmera de alta resolução) e conhecer as posições e orientações da câmera e da fonte de luz, é possível determinar as distâncias entre os pontos refletidos e a fonte de luz ou câmera.

Ao mover a fonte de luz (e normalmente também a câmera) ou a cena na frente da câmera, uma sequência de perfis de profundidade da cena pode ser gerada. Eles podem ser representados como uma imagem de alcance 2D.

Luz estruturada

Ao iluminar a cena com um padrão de luz especialmente projetado, luz estruturada , a profundidade pode ser determinada usando apenas uma única imagem da luz refletida. A luz estruturada pode ser na forma de linhas horizontais e verticais, pontos ou padrões de tabuleiro de xadrez. Um estágio de luz é basicamente um dispositivo genérico de imagem de faixa de luz estruturada originalmente criado para o trabalho de captura de refletância .

Tempo de vôo

A profundidade também pode ser medida usando a técnica de tempo de vôo padrão (ToF), mais ou menos como um radar , em que uma imagem de alcance semelhante a uma imagem de radar é produzida, exceto que um pulso de luz é usado em vez de um RF pulso. Também não é diferente de um LIDAR , exceto que o ToF não tem scanner, ou seja, toda a cena é capturada com um único pulso de luz, em oposição a ponto a ponto com um feixe de laser rotativo. Câmeras de tempo de voo são dispositivos relativamente novos que capturam uma cena inteira em três dimensões com um sensor de imagem dedicado e, portanto, não precisam de partes móveis. Um radar a laser de tempo de vôo com uma câmera CCD intensificada de passagem rápida atinge resolução de profundidade abaixo de um milímetro. Com essa técnica, um curto pulso de laser ilumina a cena, e a câmera CCD intensificada abre seu obturador de alta velocidade por apenas algumas centenas de picossegundos . A informação 3D é calculada a partir de uma série de imagens 2D que foi coletada com atraso crescente entre o pulso de laser e a abertura do obturador.

Interferometria

Ao iluminar pontos com luz coerente e medir a mudança de fase da luz refletida em relação à fonte de luz, é possível determinar a profundidade. Partindo do pressuposto de que a imagem de alcance real é uma função mais ou menos contínua das coordenadas da imagem, a profundidade correta pode ser obtida usando uma técnica chamada desdobramento de fase. Consulte interferometria SAR terrestre .

Abertura codificada

A informação de profundidade pode ser parcial ou totalmente inferida ao lado da intensidade por meio da convolução reversa de uma imagem capturada com um padrão de abertura codificado especialmente projetado com um arranjo complexo específico de orifícios através dos quais a luz que entra é permitida ou bloqueada. A forma complexa da abertura cria um desfoque não uniforme da imagem para as partes da cena que não estão no plano focal da lente. A extensão do desfoque na cena, que está relacionada ao deslocamento do plano focal, pode ser usada para inferir a profundidade.

Para identificar o tamanho do desfoque (necessário para decodificar as informações de profundidade) na imagem capturada, duas abordagens podem ser usadas: 1) desfocagem da imagem capturada com desfoque diferentes, ou 2) aprender alguns filtros lineares que identificam o tipo de desfoque .

A primeira abordagem usa deconvolução matemática correta que leva em consideração o padrão de projeto de abertura conhecido; essa deconvolução pode identificar onde e em que grau a cena se tornou complicada pela luz fora de foco que cai seletivamente na superfície de captura e reverter o processo. Assim, a cena sem desfoque pode ser recuperada junto com o tamanho do desfoque.

A segunda abordagem, em vez disso, extrai a extensão do desfoque, contornando a recuperação da imagem sem desfoque e, portanto, sem realizar a convolução reversa. Usando uma técnica baseada em análise de componente principal (PCA), o método aprende off-line um banco de filtros que identifica exclusivamente cada tamanho de desfoque; esses filtros são então aplicados diretamente à imagem capturada, como uma convolução normal. Uma vantagem principal desta abordagem é que nenhuma informação sobre o padrão de abertura codificado é necessária. Devido à sua eficiência, esse algoritmo também foi estendido para sequências de vídeo com objetos móveis e deformáveis.

Uma vez que a profundidade de um ponto é inferida a partir de sua extensão de desfoque causado pela luz se espalhando do ponto correspondente na cena, chegando a toda a superfície da abertura e distorcendo de acordo com essa extensão, esta é uma forma complexa de triangulação estéreo. Cada ponto na imagem é efetivamente amostrado espacialmente ao longo da largura da abertura.

Esta tecnologia foi recentemente usada no iPhone X . Muitos outros telefones da Samsung e computadores da Microsoft tentaram usar essa tecnologia, mas não usam o mapeamento 3D.

Veja também

Referências