Desentrelaçamento - Deinterlacing

Desentrelaçamento é o processo de conversão de vídeo entrelaçado em uma forma não entrelaçada ou progressiva . Os sinais de vídeo entrelaçados são comumente encontrados na televisão analógica , televisão digital ( HDTV ) quando no formato 1080i , alguns títulos de DVD e um número menor de discos Blu-ray .

Um quadro de vídeo entrelaçado consiste em dois campos tomados em sequência: o primeiro contendo todas as linhas ímpares da imagem e o segundo todas as linhas pares. A televisão analógica empregava essa técnica porque permitia menos largura de banda de transmissão enquanto mantinha uma alta taxa de quadros para movimentos mais suaves e realistas. Um sinal não entrelaçado (ou varredura progressiva ) que usa a mesma largura de banda atualiza a exibição apenas pela metade da frequência e foi descoberto que cria uma oscilação ou trepidação percebida. Os monitores baseados em CRT foram capazes de exibir o vídeo entrelaçado corretamente devido à sua natureza analógica completa, combinando as linhas alternadas perfeitamente. No entanto, desde o início dos anos 2000, telas como televisores e monitores de computador tornaram-se quase totalmente digitais - em que a tela é composta de pixels discretos - e em tais telas o entrelaçamento se torna perceptível e pode aparecer como um defeito visual perturbador. O processo de desentrelaçamento deve tentar minimizá-los.

O desentrelaçamento é, portanto, um processo necessário e vem embutido na maioria dos leitores de DVD modernos, leitores de Blu-ray, televisores LCD / LED, projetores digitais, decodificadores de TV, equipamento de transmissão profissional e leitores e editores de vídeo de computador - embora cada um com vários níveis de qualidade.

O desentrelaçamento foi pesquisado por décadas e emprega algoritmos de processamento complexos; no entanto, resultados consistentes têm sido muito difíceis de alcançar.

Fundo

Exemplo de vídeo entrelaçado (lento)

O vídeo e o filme fotográfico capturam uma série de quadros (imagens estáticas) em rápida sucessão; no entanto, os sistemas de televisão lêem a imagem capturada varrendo em série o sensor de imagem por linhas (filas). Na televisão analógica, cada quadro é dividido em dois campos consecutivos , um contendo todas as linhas pares e outro com as linhas ímpares. Os campos são capturados em sucessão a uma taxa duas vezes maior que a taxa de quadros nominal. Por exemplo, os sistemas PAL e SECAM têm uma taxa de 25 quadros / s ou 50 campos / s, enquanto o sistema NTSC oferece 29,97 quadros / s ou 59,94 campos / s. Esse processo de divisão de quadros em campos de meia resolução com o dobro da taxa de quadros é conhecido como entrelaçamento .

Uma vez que o sinal entrelaçado contém os dois campos de um quadro de vídeo capturado em dois momentos diferentes, ele melhora a percepção de movimento para o espectador e reduz a cintilação , aproveitando a persistência do efeito de visão . Isso resulta em uma duplicação efetiva da resolução de tempo em comparação com a gravação não entrelaçada (para taxas de quadros iguais às taxas de campo). No entanto, o sinal entrelaçado requer um display que seja nativamente capaz de mostrar os campos individuais em uma ordem sequencial, e apenas os aparelhos de TV tradicionais baseados em CRT são capazes de exibir o sinal entrelaçado, devido à varredura eletrônica e à falta de resolução fixa aparente.

A maioria dos monitores modernos, como LCD , DLP e plasma , não funcionam no modo entrelaçado, porque são monitores de resolução fixa e suportam apenas varredura progressiva. Para exibir o sinal entrelaçado em tais telas, os dois campos entrelaçados devem ser convertidos em um quadro progressivo com um processo conhecido como desentrelaçamento . No entanto, quando os dois campos tomados em pontos diferentes no tempo são recombinados para um quadro completo exibido de uma vez, defeitos visuais chamados artefatos entrelaçados ou penteados ocorrem com objetos em movimento na imagem. Um bom algoritmo de desentrelaçamento deve tentar evitar artefatos de entrelaçamento tanto quanto possível e não sacrificar a qualidade da imagem no processo, o que é difícil de conseguir de forma consistente. Existem várias técnicas disponíveis que extrapolam as informações de imagem que faltam; no entanto, elas se enquadram na categoria de criação de quadro inteligente e requerem algoritmos complexos e poder de processamento substancial.

As técnicas de desentrelaçamento requerem um processamento complexo e, portanto, podem causar um atraso no feed de vídeo. Embora geralmente não seja perceptível, isso pode resultar na exibição de videogames mais antigos ficando para trás na entrada do controlador. Muitas TVs, portanto, têm um "modo de jogo" em que o processamento mínimo é feito para maximizar a velocidade em detrimento da qualidade da imagem. O desentrelaçamento é apenas parcialmente responsável por esse atraso; o dimensionamento também envolve algoritmos complexos que levam milissegundos para serem executados.

Material de origem progressiva

Alguns vídeos entrelaçados podem ter sido originalmente criados a partir de filmagens progressivas e o processo de desentrelaçamento também deve considerar isso.

O material típico de um filme é filmado em um filme de 24 quadros / s. A conversão de filme em vídeo entrelaçado normalmente usa um processo chamado telecine, no qual cada quadro é convertido em vários campos. Em alguns casos, cada quadro de filme pode ser apresentado por exatamente dois quadros segmentados progressivos (PsF) e, nesse formato, não requer um algoritmo de desentrelaçamento complexo porque cada campo contém uma parte do mesmo quadro progressivo. No entanto, para corresponder ao sinal PAL / SECAM de 50 campos entrelaçados ou NTSC de campos entrelaçados 59.94 / 60, a conversão da taxa de quadros é necessária usando várias técnicas de "pulldown". A maioria dos aparelhos de TV avançados pode restaurar o sinal original de 24 quadros / s usando um processo de telecine inverso . Outra opção é acelerar o filme de 24 quadros em 4% (para 25 quadros / s) para conversão PAL / SECAM; este método ainda é amplamente usado para DVDs, bem como para transmissões de televisão (SD e HD) nos mercados PAL.

Os DVDs podem codificar filmes usando um desses métodos ou armazenar vídeo progressivo de 24 quadros / s original e usar tags de decodificador MPEG-2 para instruir o reprodutor de vídeo sobre como convertê-los para o formato entrelaçado. A maioria dos filmes em Blu-rays preservou a taxa de filme em movimento original de 24 quadros / s não entrelaçados e permite a saída no formato 1080p24 progressivo diretamente para dispositivos de exibição, sem a necessidade de conversão.

Algumas camcorders HDV 1080i também oferecem modo PsF com taxas de quadros semelhantes às de cinema de 24 ou 25 quadros / s. As equipes de produção de TV também podem usar câmeras de filme especiais que operam a 25 ou 30 quadros / s, onde esse material não precisa de conversão de taxa de quadros para transmissão no formato de sistema de vídeo pretendido.

Métodos de desentrelaçamento

Quando alguém assiste a um vídeo entrelaçado em um monitor progressivo com desentrelaçamento deficiente, pode ver "pentear" em movimento entre dois campos de um quadro.

O desentrelaçamento requer que o monitor armazene em buffer um ou mais campos e os recombine em quadros completos. Em teoria, isso seria tão simples quanto capturar um campo e combiná-lo com o próximo campo a ser recebido, produzindo um único quadro. No entanto, o sinal gravado originalmente foi produzido a partir de dois campos em pontos diferentes no tempo e, sem processamento especial, qualquer movimento através dos campos geralmente resulta em um efeito de "pentear", em que as linhas alternadas são ligeiramente deslocadas umas das outras.

Existem vários métodos para desentrelaçar o vídeo, cada um produzindo diferentes problemas ou artefatos próprios. Alguns métodos são muito mais limpos em artefatos do que outros métodos.

A maioria das técnicas de desentrelaçamento se enquadra em três grandes grupos:

  1. Desentrelaçamento de combinação de campos que pega os campos pares e ímpares e os combina em um quadro. Isso divide pela metade a taxa de quadros percebida (a resolução temporal) em que 50i ou 60i é convertido em 25p ou 30p.
  2. Desentrelaçamento de extensão de campo que pega cada campo (com apenas metade das linhas) e o estende a toda a tela para fazer um quadro. Isso reduz pela metade a resolução vertical da imagem, mas mantém a taxa de campo original (50i ou 60i é convertido para 50p ou 60p).
  3. Desentrelaçamento de compensação de movimento que usa algoritmos mais avançados para detectar movimento em campos, alternando técnicas quando necessário. Isso produz o resultado de melhor qualidade, mas requer mais poder de processamento.

Os sistemas de desentrelaçamento modernos, portanto, armazenam em buffer vários campos e usam técnicas como a detecção de bordas na tentativa de encontrar o movimento entre os campos. Isso é então usado para interpolar as linhas que faltam do campo original, reduzindo o efeito de pentear.

Desentrelaçamento de combinação de campo

Esses métodos pegam os campos pares e ímpares e os combinam em um quadro. Eles retêm a resolução vertical total às custas da resolução temporal (taxa de quadros percebida), em que 50i / 60i é convertido para 24p / 25p / 30p, o que pode perder a sensação suave e fluida do original. No entanto, se o sinal entrelaçado foi originalmente produzido a partir de uma fonte de taxa de quadros inferior, como filme, nenhuma informação é perdida e esses métodos podem ser suficientes.

Tecelagem
  • A tecelagem é o método mais simples e rudimentar, executado intercalando ("tecendo") os campos consecutivos em um único quadro. Este método não causa problemas quando a imagem não muda entre os campos, mas qualquer movimento resultará em artefatos conhecidos como "pentear" quando os pixels de um campo não se alinham com os pixels do outro, formando uma borda recortada.
Misturando
  • A mesclagem é feita mesclando ou calculando a média de campos consecutivos para serem exibidos como um quadro. O pentear é evitado porque as imagens ficam uma em cima da outra. Em vez disso, isso deixa um artefato conhecido como fantasma. A imagem perde a resolução vertical e a resolução temporal. Embora o vídeo produzido com essa técnica exija apenas metade do número de pixels verticalmente, ele geralmente é combinado com um redimensionamento vertical para que a saída não tenha perda numérica em pixels verticais. Quando a interpolação é usada, ela pode resultar em uma imagem ainda mais suave. A mesclagem também perde metade da resolução temporal, pois dois campos de movimento são combinados em um quadro.
  • Mistura selectivo , ou a mistura inteligente ou movimento de fusão adaptativa , é uma combinação de tecelagem e misturando. Como as áreas que não mudaram de quadro para quadro não precisam de nenhum processamento, os quadros são tecidos e apenas as áreas que precisam são mescladas. Isso retém a resolução vertical total e metade da resolução temporal, e tem menos artefatos do que a tecelagem ou a combinação devido à combinação seletiva de ambas as técnicas.
  • Telecine inverso : Telecine é usado para converter uma fonte de filme a 24 quadros por segundo em vídeo de TV entrelaçado em países que usam o sistema de vídeo NTSC a 30 quadros por segundo. Os países que usam PAL a 25 quadros por segundo não exigem o Telecine - as fontes de filmes apenas aumentam a velocidade de 4% para atingir os 25 quadros por segundo necessários. Se o Telecine foi usado, é possível reverter o algoritmo para obter a sequência original não entrelaçada, que possui uma taxa de quadros mais lenta. Para que isso funcione, o padrão telecine exato deve ser conhecido ou adivinhado. Ao contrário da maioria dos outros métodos de desentrelaçamento, quando funciona, o telecine inverso pode recuperar perfeitamente o fluxo de vídeo progressivo original.
  • Algoritmos de estilo telecida: Se a filmagem entrelaçada foi gerada a partir de quadros progressivos em uma taxa de quadros mais lenta (por exemplo, "desenho suspenso"), então os quadros originais exatos podem ser recuperados copiando o campo ausente de um quadro anterior / seguinte correspondente. Nos casos em que não há correspondência (por exemplo, breves sequências de desenho animado com uma taxa de quadros elevada), o filtro recorre a outro método de desentrelaçamento, como combinação ou duplicação de linha. Isso significa que o pior caso para o Telecide são frames ocasionais com fantasmas ou resolução reduzida. Por outro lado, quando algoritmos de detecção de movimento mais sofisticados falham, eles podem introduzir artefatos de pixel que são infiéis ao material original. Para vídeo telecine , a decimação pode ser aplicada como um pós-processo para reduzir a taxa de quadros, e essa combinação é geralmente mais robusta do que um telecine inverso simples, que falha quando uma sequência entrelaçada de maneira diferente é unida.

Desentrelaçamento de extensão de campo

Esses métodos pegam cada campo (com apenas metade das linhas) e os estendem para a tela inteira para fazer um quadro. Isso pode reduzir pela metade a resolução vertical da imagem, mas visa manter a taxa de campo original (50i ou 60i é convertido para 50p ou 60p).

Meio dimensionado
  • A metade do tamanho exibe cada campo entrelaçado por conta própria, resultando em um vídeo com metade da resolução vertical do original, sem escala. Embora este método retenha todos os pixels originais e toda a resolução temporal, é compreensível que não seja usado para visualização regular devido à sua falsa proporção de aspecto. No entanto, pode ser usado com sucesso para aplicar filtros de vídeo que esperam um quadro não entrelaçado, como aqueles que exploram informações de pixels vizinhos (por exemplo, nitidez).
Duplicação de linha
  • A duplicação de linha ou "bobbing" pega as linhas de cada campo entrelaçado (consistindo apenas em linhas pares ou ímpares) e as duplica, preenchendo todo o quadro. Isso resulta no vídeo com uma taxa de quadros idêntica à taxa de campo original, mas cada quadro com metade da resolução vertical, ou resolução igual à de cada campo do qual o quadro foi feito. A duplicação de linha evita os artefatos penteados e mantém o movimento suave, mas pode causar uma redução perceptível na qualidade da imagem devido à perda de resolução vertical e anomalias visuais em que objetos estacionários podem parecer balançar para cima e para baixo conforme as linhas pares e ímpares se alternam. Essas técnicas também são chamadas de desentrelaçamento bob e desentrelaçamento linear por esse motivo. Uma variante desse método descarta um campo de cada quadro, reduzindo pela metade a resolução temporal.

A duplicação de linha às vezes é confundida com desentrelaçamento em geral ou com interpolação (escala de imagem) que usa filtragem espacial para gerar linhas extras e, portanto, reduzir a visibilidade da pixelização em qualquer tipo de exibição. A terminologia 'duplicador de linha' é usada com mais frequência em eletrônicos de consumo de ponta, enquanto 'desentrelaçamento' é usado com mais frequência na área de computador e vídeo digital.

Desentrelaçamento de compensação de movimento

Algoritmos de desentrelaçamento mais avançados combinam os métodos tradicionais de combinação de campo (entrelaçamento e combinação) e métodos de extensão de quadro (bob ou duplicação de linha) para criar uma sequência de vídeo progressiva de alta qualidade. Uma das dicas básicas para a direção e quantidade de movimento seria a direção e o comprimento dos artefatos de pentear no sinal entrelaçado.

Os melhores algoritmos também tentam prever a direção e a quantidade de movimento da imagem entre os campos subsequentes para combinar melhor os dois campos. Eles podem empregar algoritmos semelhantes à compensação de movimento do bloco usado na compressão de vídeo. Por exemplo, se dois campos tivessem o rosto de uma pessoa movendo-se para a esquerda, a tecelagem criaria penteados e a mesclagem criaria fantasmas. A compensação de movimento avançada (idealmente) veria que o rosto em vários campos é a mesma imagem, apenas movido para uma posição diferente, e tentaria detectar a direção e a quantidade de tal movimento. O algoritmo tentaria reconstruir todos os detalhes do rosto em ambos os quadros de saída combinando as imagens, movendo partes de cada campo ao longo da direção detectada pela quantidade de movimento detectada. Os desentrelaçadores que usam essa técnica costumam ser superiores porque podem usar informações de muitos campos, ao contrário de apenas um ou dois; no entanto, eles exigem um hardware poderoso para fazer isso em tempo real.

A compensação de movimento precisa ser combinada com a detecção de mudança de cena (que tem seus próprios desafios), caso contrário, ela tentará encontrar movimento entre duas cenas completamente diferentes. Um algoritmo de compensação de movimento mal implementado interfere no movimento natural e pode levar a artefatos visuais que se manifestam como partes "saltitantes" no que deveria ser uma imagem estacionária ou em movimento suave.

Medição de Qualidade

Diferentes métodos de desentrelaçamento têm diferentes características de qualidade e velocidade.

Normalmente, para medir a qualidade do método de desentrelaçamento, a seguinte abordagem é usada:

  1. Um conjunto de vídeos progressivos é composto
  2. Todos esses vídeos são entrelaçados
  3. Cada um dos vídeos entrelaçados são desentrelaçados com método de desentrelaçamento específico
  4. Todos os vídeos desentrelaçados são comparados com o vídeo de origem correspondente por meio da métrica de qualidade de vídeo objetiva, como PSNR , SSIM ou VMAF .

A principal métrica de medição de velocidade é frames por segundo (FPS) - quantos frames o desinterlacer é capaz de processar por segundo. Por falar em FPS, é necessário especificar a resolução de todos os frames e as características do hardware, pois a velocidade do método específico de desentrelaçamento depende significativamente desses dois fatores.

Benchmarks

Desentrelaçamento de 2019

Este benchmark comparou 8 métodos diferentes de desentrelaçamento em um vídeo sintético. Há uma curva de Lissajous tridimensional móvel no vídeo para torná-lo um desafio para os métodos modernos de desentrelaçamento. Os autores usaram MSE e PSNR como métricas objetivas. Além disso, eles medem a velocidade de processamento em FPS . Para alguns métodos, há apenas comparação visual, para outros - apenas objetivo.

Outros algoritmos do Desentrelaçamento de 2019
Algoritmo MSE PSNR Velocidade de processamento
(FPS)
Código aberto
Vegas De-Interlace Blend 8.086 43.594 3,53 Não
Vegas De-interlace Interpolar 16.426 41,292 3,58 Não

Benchmark de MSU Deinterlacer

Este benchmark comparou mais de 20 métodos em 40 sequências de vídeo. O comprimento total das sequências é de 834 quadros. Seus autores afirmam que a principal característica deste benchmark é a comparação abrangente de métodos com ferramentas de comparação visual, gráficos de desempenho e ajuste de parâmetros. Os autores usaram PSNR e SSIM como métricas objetivas.

Principais algoritmos de MSU DIB
Algoritmo PSNR SSIM Velocidade de processamento
(FPS)
Código aberto
MSU Deinterlacer 40,708 0,983 1,3 Não
VapourSynth TDeintMod 39.916 0,977 50,29 sim
NNEDI 39.625 0,978 1,91 sim
Filtro de desentrelaçamento FFmpeg Bob Weaver 39.679 0,976 46,45 sim
Vapoursynth EEDI3 39.373 0,977 51,9 sim
Desinterlacador de vídeo profundo em tempo real 39,203 0,976 0,27 sim

O autor de VapourSynth TDeintMod afirma que é um desintercalador adaptativo de movimento bidirecional. O método NNEDI usa uma rede neural para desentrelaçar as sequências de vídeo. O Filtro de Desentrelaçamento FFmpeg Bob Weaver faz parte de uma estrutura bem conhecida para processamento de áudio e vídeo. Vapoursynth EEDI3 é a abreviatura de "Enhanced Edge Oriented Interpolation 3", os autores deste método afirmam que funciona encontrando o melhor empenamento não decrescente entre duas linhas de acordo com um funcional de custo. Os autores de Real-Time Deep Video Deinterlacer usam Deep CNN para obter a melhor qualidade de vídeo de saída.

Onde o desentrelaçamento é executado

O desentrelaçamento de um sinal de vídeo entrelaçado pode ser feito em vários pontos da cadeia de produção da TV.

Mídia progressiva

O desentrelaçamento é necessário para programas de arquivo entrelaçado quando o formato de transmissão ou formato de mídia é progressivo, como na transmissão EDTV 576p ou HDTV 720p50, ou transmissão DVB-H móvel; existem duas maneiras de fazer isso.

  • Produção - O material de vídeo entrelaçado é convertido em varredura progressiva durante a produção do programa. Isso normalmente deve render a melhor qualidade possível, uma vez que os cinegrafistas têm acesso a software e equipamento de desentrelaçamento caro e poderoso e podem desentrelaçar na melhor qualidade possível, provavelmente escolhendo manualmente o método de desentrelaçamento ideal para cada quadro.
  • Broadcasting - O hardware de desentrelaçamento em tempo real converte programas entrelaçados em varredura progressiva imediatamente antes da transmissão. Como o tempo de processamento é limitado pela taxa de quadros e nenhuma entrada humana está disponível, a qualidade da conversão é provavelmente inferior ao método de pré-produção; entretanto, equipamentos de desentrelaçamento caros e de alto desempenho ainda podem produzir bons resultados quando devidamente ajustados.

Mídia entrelaçada

Quando o formato de transmissão ou formato de mídia é entrelaçado, o desentrelaçamento em tempo real deve ser executado por circuitos integrados em um decodificador, televisão, processador de vídeo externo, reprodutor de DVD ou DVR ou placa sintonizadora de TV. Como o equipamento eletrônico de consumo é normalmente muito mais barato, tem consideravelmente menos poder de processamento e usa algoritmos mais simples em comparação com o equipamento de desentrelaçamento profissional, a qualidade do desentrelaçamento pode variar amplamente e os resultados típicos costumam ser ruins, mesmo em equipamentos de última geração.

Usar um computador para reprodução e / ou processamento permite potencialmente uma escolha mais ampla de players de vídeo e / ou software de edição não limitada à qualidade oferecida pelo dispositivo eletrônico de consumo incorporado, portanto, pelo menos teoricamente, uma qualidade de desentrelaçamento maior é possível - especialmente se o usuário puder pré-converter vídeo entrelaçado em varredura progressiva antes da reprodução e algoritmos de desentrelaçamento demorados e avançados (isto é, empregando o método de "produção").

No entanto, a qualidade do software livre e comercial para o consumidor pode não atingir o nível do software e equipamento profissional. Além disso, a maioria dos usuários não é treinada em produção de vídeo; isso geralmente causa resultados ruins, pois muitas pessoas não sabem muito sobre desentrelaçamento e não sabem que a taxa de quadros é a metade da taxa de campo. Muitos codecs / players nem mesmo se desentrelaçam sozinhos e dependem da placa de vídeo e da API de aceleração de vídeo para fazer o desentrelaçamento adequado.

Preocupações com a eficácia

A European Broadcasting Union argumentou contra o uso de vídeo entrelaçado na produção e transmissão, recomendando 720p 50 fps (frames por segundo) como formato de produção atual e trabalhando com a indústria para introduzir 1080p 50 como um padrão de produção à prova do futuro que oferece maior vertical resolução, melhor qualidade com taxas de bits mais baixas e conversão mais fácil para outros formatos, como 720p50 e 1080i50. O principal argumento é que não importa o quão complexo o algoritmo de desentrelaçamento possa ser, os artefatos no sinal entrelaçado não podem ser completamente eliminados porque algumas informações são perdidas entre os quadros.

Yves Faroudja , o fundador do Faroudja Labs e vencedor do Emmy Award por suas realizações na tecnologia de desentrelaçamento, afirmou que "entrelaçar para progressivo não funciona" e desaconselhou o uso de sinal entrelaçado.

Veja também

Referências

links externos