Similaridade estrutural - Structural similarity

A medida do índice de similaridade estrutural ( SSIM ) é um método para prever a qualidade percebida da televisão digital e imagens cinematográficas, bem como outros tipos de imagens e vídeos digitais. SSIM é usado para medir a semelhança entre duas imagens. O índice SSIM é uma métrica de referência completa ; em outras palavras, a medição ou previsão da qualidade da imagem é baseada em uma imagem inicial não compactada ou sem distorção como referência.

SSIM é um modelo baseado na percepção que considera a degradação da imagem como uma mudança percebida na informação estrutural , ao mesmo tempo que incorpora fenômenos perceptivos importantes, incluindo mascaramento de luminância e termos de mascaramento de contraste. A diferença com outras técnicas, como MSE ou PSNR, é que essas abordagens estimam erros absolutos . Informação estrutural é a ideia de que os pixels têm fortes interdependências, especialmente quando estão espacialmente próximos. Essas dependências carregam informações importantes sobre a estrutura dos objetos na cena visual. O mascaramento de luminância é um fenômeno em que as distorções da imagem (neste contexto) tendem a ser menos visíveis em regiões brilhantes, enquanto o mascaramento de contraste é um fenômeno em que as distorções se tornam menos visíveis onde há atividade significativa ou "textura" na imagem.

História

O predecessor do SSIM foi chamado de Índice de Qualidade Universal (UQI), ou Índice Wang – Bovik , que foi desenvolvido por Zhou Wang e Alan Bovik em 2001. Isso evoluiu, por meio de sua colaboração com Hamid Sheikh e Eero Simoncelli , para a versão atual do SSIM , que foi publicado em abril de 2004 no IEEE Transactions on Image Processing . Além de definir o índice de qualidade SSIM, o artigo fornece um contexto geral para o desenvolvimento e avaliação de medidas de qualidade perceptiva, incluindo conexões com neurobiologia visual humana e percepção, e validação direta do índice em relação às classificações de seres humanos.

O modelo básico foi desenvolvido no Laboratório de Engenharia de Imagem e Vídeo (LIVE) da Universidade do Texas em Austin e posteriormente desenvolvido em conjunto com o Laboratório de Visão Computacional (LCV) da Universidade de Nova York . Outras variantes do modelo foram desenvolvidas no Laboratório de Computação Visual e Imagem da Universidade de Waterloo e foram comercializadas.

O SSIM posteriormente encontrou forte adoção na comunidade de processamento de imagem. O artigo do SSIM de 2004 foi citado mais de 20.000 vezes de acordo com o Google Scholar , tornando-o um dos artigos mais citados nas áreas de processamento de imagem e engenharia de vídeo. Recebeu o prêmio de melhor artigo da IEEE Signal Processing Society de 2009. Ele também recebeu o prêmio de impacto sustentado da IEEE Signal Processing Society de 2016, indicativo de um artigo que teve um impacto excepcionalmente alto por pelo menos 10 anos após sua publicação.

Algoritmo

O índice SSIM é calculado em várias janelas de uma imagem. A medida entre duas janelas e de tamanho comum N × N é:

com:

  • a média de ;
  • a média de ;
  • a variância de ;
  • a variância de ;
  • a covariância de e ;
  • , duas variáveis ​​para estabilizar a divisão com denominador fraco;
  • a faixa dinâmica dos valores de pixel (normalmente isso é );
  • e por padrão.

Componentes da fórmula

A fórmula SSIM é baseada em três medidas de comparação entre as amostras de e : luminância ( ), contraste ( ) e estrutura ( ). As funções de comparação individuais são:

com, além das definições acima:

SSIM é, então, uma combinação ponderada dessas medidas comparativas:

Definindo os pesos para 1, a fórmula pode ser reduzida para a forma mostrada acima.

Propriedades Matemáticas

SSIM satisfaz a identidade de indiscerníveis e propriedades de simetria, mas não a desigualdade de triângulo ou não-negatividade e, portanto, não é uma função de distância . No entanto, sob certas condições, o SSIM pode ser convertido em uma medida MSE de raiz normalizada, que é uma função de distância. A praça de tal função a não é convexa, mas é localmente convexa e quasiconvex , tornando SSIM um alvo viável para a otimização.

Aplicação da fórmula

Para avaliar a qualidade da imagem, esta fórmula é normalmente aplicada apenas em luma , embora também possa ser aplicada em valores de cor (por exemplo, RGB ) ou valores cromáticos (por exemplo, YCbCr ). O índice SSIM resultante é um valor decimal entre 0 e 1, e o valor 1 só é alcançável no caso de dois conjuntos de dados idênticos e, portanto, indica similaridade estrutural perfeita. Um valor de 0 indica nenhuma semelhança estrutural. Para uma imagem, é normalmente calculado usando uma janela deslizante Gaussiana de tamanho 11x11 ou uma janela de bloco de tamanho 8 × 8. A janela pode ser deslocada pixel a pixel na imagem para criar um mapa de qualidade SSIM da imagem. No caso da avaliação da qualidade do vídeo, os autores propõem usar apenas um subgrupo das janelas possíveis para reduzir a complexidade do cálculo.

Variantes

SSIM multi-escala

Uma forma mais avançada de SSIM, chamada SSIM multiescala (MS-SSIM), é conduzida em várias escalas por meio de um processo de vários estágios de subamostragem, que lembra o processamento multiescala no sistema de visão precoce. Foi demonstrado que ele tem um desempenho tão bom ou melhor do que o SSIM em diferentes bancos de dados subjetivos de imagens e vídeos.

SSIM multicomponente

SSIM de três componentes (3-SSIM) é uma forma de SSIM que leva em consideração o fato de que o olho humano pode ver as diferenças com mais precisão em regiões texturizadas ou de borda do que em regiões lisas. A métrica resultante é calculada como uma média ponderada de SSIM para três categorias de regiões: bordas, texturas e regiões suaves. A ponderação proposta é de 0,5 para as bordas e 0,25 para as regiões texturizadas e lisas. Os autores mencionam que uma ponderação 1/0/0 (ignorando qualquer coisa, exceto distorções de borda) leva a resultados que estão mais próximos de classificações subjetivas. Isso sugere que as regiões de borda desempenham um papel dominante na percepção da qualidade da imagem.

Os autores do 3-SSIM também estenderam o modelo para SSIM de quatro componentes (4-SSIM). Os tipos de borda são subdivididos em bordas preservadas e alteradas por seu status de distorção. A ponderação proposta é de 0,25 para todos os quatro componentes.

Dissimilaridade Estrutural

A dissimilaridade estrutural (DSSIM) pode ser derivada de SSIM, embora não constitua uma função de distância, pois a desigualdade do triângulo não é necessariamente satisfeita.

Métricas de qualidade de vídeo e variantes temporais

É importante notar que a versão original do SSIM foi projetada para medir a qualidade de imagens estáticas. Não contém nenhum parâmetro diretamente relacionado aos efeitos temporais da percepção humana e do julgamento humano. Uma prática comum é calcular o valor SSIM médio de todos os quadros na sequência de vídeo. No entanto, várias variantes temporais do SSIM foram desenvolvidas.

SSIM Wavelet Complexo

A variante de transformação wavelet complexa do SSIM (CW-SSIM) foi projetada para lidar com problemas de dimensionamento, translação e rotação da imagem. Em vez de atribuir pontuações baixas a imagens com tais condições, o CW-SSIM tira proveito da complexa transformação wavelet e, portanto, produz pontuações mais altas para essas imagens. O CW-SSIM é definido da seguinte forma:

Onde está a transformada wavelet complexa do sinal e é a transformada wavelet complexa do sinal . Além disso, é um pequeno número positivo usado para fins de estabilidade da função. Idealmente, deve ser zero. Como o SSIM, o CW-SSIM tem um valor máximo de 1. O valor máximo de 1 indica que os dois sinais são perfeitamente semelhantes estruturalmente, enquanto um valor de 0 indica que não há semelhança estrutural.

SSIMPLUS

O índice SSIMPLUS é baseado no SSIM e é uma ferramenta disponível comercialmente. Ele estende os recursos do SSIM, principalmente para direcionar os aplicativos de vídeo. Ele fornece pontuações na faixa de 0 a 100, linearmente combinadas com as classificações subjetivas humanas. Também permite adaptar as pontuações ao dispositivo de visualização pretendido, comparando o vídeo em diferentes resoluções e conteúdos.

De acordo com seus autores, o SSIMPLUS atinge maior precisão e velocidade do que outras métricas de qualidade de imagem e vídeo. No entanto, nenhuma avaliação independente do SSIMPLUS foi realizada, pois o algoritmo em si não está disponível publicamente.

cSSIM

A fim de investigar melhor o SSIM discreto padrão de uma perspectiva teórica, o SSIM contínuo (cSSIM) foi introduzido e estudado no contexto da interpolação de função de base radial .

Outras modificações simples

A métrica de correlação cruzada r * é baseada nas métricas de variância do SSIM. É definido como r * ( x , y ) = σ xy/σ x σ yquando σ x σ y ≠ 0 , 1 quando ambos os desvios padrão forem zero e 0 quando apenas um for zero. Ele encontrou uso na análise da resposta humana a fantasmas com detalhes de contraste.

O SSIM também foi usado no gradiente de imagens, tornando-o "G-SSIM". O G-SSIM é especialmente útil em imagens desfocadas.

As modificações acima podem ser combinadas. Por exemplo, 4-Gr * é uma combinação de 4-SSIM, G-SSIM er *. É capaz de refletir a preferência do radiologista por imagens muito melhor do que outras variantes do SSIM testadas.

Aplicativo

O SSIM tem aplicativos em uma variedade de problemas diferentes. Alguns exemplos são:

  • Compressão de imagem: Na compressão de imagem com perdas , as informações são deliberadamente descartadas para diminuir o espaço de armazenamento de imagens e vídeo. O MSE é normalmente usado em tais esquemas de compressão. Segundo seus autores, o uso de SSIM em vez de MSE é sugerido para produzir melhores resultados para as imagens descompactadas.
  • Restauração de imagem: A restauração de imagem se concentra em resolver o problema onde está a imagem borrada que deve ser restaurada, é o kernel do borrão, é o ruído aditivo e é a imagem original que desejamos recuperar. O filtro tradicional que é usado para resolver este problema é o Filtro Wiener. No entanto, o projeto do filtro Wiener é baseado no MSE. O uso de uma variante SSIM, especificamente Stat-SSIM, produz melhores resultados visuais, de acordo com os autores do algoritmo.
  • Reconhecimento de padrões: como o SSIM imita aspectos da percepção humana, ele pode ser usado para reconhecer padrões. Ao se deparar com problemas como dimensionamento, translação e rotação da imagem, os autores do algoritmo afirmam que é melhor usar CW-SSIM, que é insensível a essas variações e pode ser aplicado diretamente por correspondência de modelo sem usar qualquer amostra de treinamento. Uma vez que as abordagens de reconhecimento de padrões baseadas em dados podem produzir melhor desempenho quando uma grande quantidade de dados está disponível para treinamento, os autores sugerem o uso de CW-SSIM em abordagens baseadas em dados.

Comparação de desempenho

Devido à sua popularidade, o SSIM é frequentemente comparado a outras métricas, incluindo métricas mais simples, como MSE e PSNR, e outras métricas de percepção de imagem e qualidade de vídeo . O SSIM demonstrou repetidamente superar o desempenho do MSE e seus derivados em precisão, incluindo pesquisas feitas por seus próprios autores e outros.

Um artigo de Dosselmann e Yang afirma que o desempenho do SSIM é "muito mais próximo do MSE" do que normalmente se supõe. Embora não contestem a vantagem do SSIM sobre o MSE, eles afirmam uma dependência analítica e funcional entre as duas métricas. De acordo com sua pesquisa, descobriu-se que o SSIM correlaciona, bem como os métodos baseados no MSE, em bancos de dados subjetivos diferentes dos bancos de dados dos criadores do SSIM. Como exemplo, eles citam Reibman e Poole, que descobriram que o MSE superou o SSIM em um banco de dados contendo vídeo com perda de pacotes. Em outro artigo, uma ligação analítica entre PSNR e SSIM foi identificada.

Veja também

Referências

links externos