Profundidade de bits de áudio - Audio bit depth

Um sinal analógico (em vermelho) codificado para amostras digitais PCM de 4 bits (em azul); a profundidade de bits é quatro, então a amplitude de cada amostra é um dos 16 valores possíveis.

Em áudio digital usando modulação por código de pulso (PCM), a profundidade de bits é o número de bits de informação em cada amostra e corresponde diretamente à resolução de cada amostra. Exemplos de profundidade de bits incluem Áudio Digital de Disco Compacto , que usa 16 bits por amostra, e DVD-Áudio e Disco Blu-ray, que podem suportar até 24 bits por amostra.

Em implementações básicas, as variações na profundidade de bits afetam principalmente o nível de ruído do erro de quantização - portanto, a relação sinal-ruído (SNR) e a faixa dinâmica . No entanto, técnicas como pontilhamento , modelagem de ruído e sobreamostragem atenuam esses efeitos sem alterar a profundidade de bits. A profundidade de bits também afeta a taxa de bits e o tamanho do arquivo.

A profundidade de bits só é significativa em referência a um sinal digital PCM . Os formatos não PCM, como formatos de compactação com perdas , não têm profundidades de bits associadas.

Representação binária

Um sinal PCM é uma sequência de amostras de áudio digital contendo os dados que fornecem as informações necessárias para reconstruir o sinal analógico original . Cada amostra representa a amplitude do sinal em um ponto específico no tempo, e as amostras são uniformemente espaçadas no tempo. A amplitude é a única informação explicitamente armazenada na amostra e normalmente é armazenada como um número inteiro ou de ponto flutuante , codificado como um número binário com um número fixo de dígitos: a profundidade de bits da amostra , também conhecida como comprimento de palavra ou tamanho da palavra.

A resolução indica o número de valores discretos que podem ser representados na faixa de valores analógicos. A resolução de inteiros binários aumenta exponencialmente à medida que o comprimento da palavra aumenta. Adicionar um bit duplica a resolução, adicionar dois quadruplica e assim por diante. O número de valores possíveis que podem ser representados por uma profundidade de bits inteira pode ser calculado usando 2 n , onde n é a profundidade de bits. Assim, um sistema de 16 bits tem uma resolução de 65.536 (2 16 ) valores possíveis.

Os dados de áudio PCM inteiros são normalmente armazenados como números assinados no formato de complemento de dois .

Muitos formatos de arquivo de áudio e estações de trabalho de áudio digital (DAWs) agora oferecem suporte a formatos PCM com amostras representadas por números de ponto flutuante. Tanto o formato de arquivo WAV quanto o formato de arquivo AIFF suportam representações de ponto flutuante. Ao contrário dos inteiros, cujo padrão de bits é uma única série de bits, um número de ponto flutuante é, em vez disso, composto de campos separados cuja relação matemática forma um número. O padrão mais comum é o IEEE 754 que é composto por três campos: um bit de sinal que representa se o número é positivo ou negativo, um expoente e uma mantissa que é aumentada pelo expoente. A mantissa é expressa como uma fração binária em formatos de ponto flutuante de base dois IEEE.

Quantização

A profundidade de bits limita a relação sinal-ruído (SNR) do sinal reconstruído a um nível máximo determinado pelo erro de quantização . A profundidade de bits não tem impacto na resposta de frequência , que é limitada pela taxa de amostragem .

O erro de quantização introduzido durante a conversão analógico-digital (ADC) pode ser modelado como ruído de quantização. É um erro de arredondamento entre a tensão de entrada analógica para o ADC e o valor digitalizado de saída. O ruído é não linear e dependente do sinal.

Um número binário de 8 bits (149 em decimal ), com o LSB destacado

Em um ADC ideal, onde o erro de quantização é uniformemente distribuído entre o bit menos significativo (LSB) e onde o sinal tem uma distribuição uniforme cobrindo todos os níveis de quantização, a razão sinal-para-ruído de quantização (SQNR) pode ser calculada a partir de

onde Q é o número de bits de quantização e o resultado é medido em decibéis (dB).

Portanto, o áudio digital de 16 bits encontrado em CDs tem um SNR máximo teórico de 96 dB e o áudio digital profissional de 24 bits chega a 144 dB. A partir de 2011, a tecnologia do conversor de áudio digital está limitada a um SNR de cerca de 123 dB ( efetivamente 21 bits) por causa das limitações do mundo real no design do circuito integrado . Ainda assim, isso corresponde aproximadamente ao desempenho do sistema auditivo humano . Vários conversores podem ser usados ​​para cobrir diferentes faixas do mesmo sinal, sendo combinados para registrar uma faixa dinâmica mais ampla em longo prazo, embora ainda sejam limitados pela faixa dinâmica de um único conversor em curto prazo, que é chamada de extensão de faixa dinâmica .

Relação sinal-ruído e resolução de profundidades de bits
# bits SNR Valores inteiros possíveis (por amostra) Intervalo sinalizado de base dez (por amostra)
4 24,08 dB 16 -8 a +7
8 48,16 dB 256 -128 a +127
11 66,22 dB 2048 -1024 a +1023
12 72,24 dB 4096 -2048 a +2047
16 96,33 dB 65.536 -32.768 a +32.767
18 108,37 dB 262.144 -131072 a +131071
20 120,41 dB 1.048.576 -524.288 a +524.287
24 144,49 dB 16.777.216 -8.388.608 a +8.388.607
32 192,66 dB 4.294.967.296 -2.147.483.648 a +2.147.483.647
48 288,99 dB 281.474.976.710.656 -140.737.488.355.328 para +140.737.488.355.327
64 385,32 dB 18.446.744.073.709.551.616 -9.223.372.036.854.775.808 a +9.223.372.036.854.775.807

Ponto flutuante

A resolução de amostras de ponto flutuante é menos direta do que amostras de inteiros porque os valores de ponto flutuante não são uniformemente espaçados. Na representação de ponto flutuante, o espaço entre quaisquer dois valores adjacentes é proporcional ao valor. Isso aumenta muito o SNR em comparação com um sistema inteiro porque a precisão de um sinal de alto nível será igual à precisão de um sinal idêntico em um nível inferior.

A compensação entre o ponto flutuante e os inteiros é que o espaço entre os grandes valores do ponto flutuante é maior do que o espaço entre os grandes valores inteiros da mesma profundidade de bits. Arredondar um grande número de ponto flutuante resulta em um erro maior do que arredondar um pequeno número de ponto flutuante, enquanto o arredondamento de um número inteiro sempre resultará no mesmo nível de erro. Em outras palavras, os inteiros possuem arredondamento uniforme, sempre arredondando o LSB para 0 ou 1, e o ponto flutuante possui SNR que é uniforme, o nível de ruído de quantização é sempre de uma certa proporção ao nível do sinal. Um piso de ruído de ponto flutuante aumentará conforme o sinal aumenta e diminui conforme o sinal cai, resultando em variação audível se a profundidade de bits for baixa o suficiente.

Processamento de áudio

A maioria das operações de processamento em áudio digital envolve a re-quantização de amostras e, portanto, introduz erro de arredondamento adicional análogo ao erro de quantização original introduzido durante a conversão analógico-digital. Para evitar erros de arredondamento maiores que o erro implícito durante o ADC, os cálculos durante o processamento devem ser executados com precisões mais altas do que as amostras de entrada.

As operações de processamento digital de sinais (DSP) podem ser realizadas com precisão de ponto fixo ou de ponto flutuante. Em ambos os casos, a precisão de cada operação é determinada pela precisão das operações de hardware usadas para realizar cada etapa do processamento e não pela resolução dos dados de entrada. Por exemplo, em processadores x86 , as operações de ponto flutuante são realizadas com precisão simples ou dupla e operações de ponto fixo com resolução de 16, 32 ou 64 bits. Conseqüentemente, todo o processamento realizado em hardware baseado em Intel será realizado com essas restrições, independentemente do formato de origem.

Os processadores de sinal digital de ponto fixo geralmente oferecem suporte a comprimentos de palavra específicos para oferecer suporte a resoluções de sinal específicas. Por exemplo, o chip Motorola 56000 DSP usa multiplicadores de 24 bits e acumuladores de 56 bits para realizar operações de multiplicação-acumulação em duas amostras de 24 bits sem estouro ou truncamento. Em dispositivos que não suportam grandes acumuladores, os resultados de pontos fixos podem ser truncados, reduzindo a precisão. Os erros são compostos por vários estágios de DSP a uma taxa que depende das operações que estão sendo executadas. Para etapas de processamento não correlacionadas em dados de áudio sem um deslocamento DC, os erros são considerados aleatórios com média zero. Sob essa suposição, o desvio padrão da distribuição representa o sinal de erro e as escalas de erro de quantização com a raiz quadrada do número de operações. Altos níveis de precisão são necessários para algoritmos que envolvem processamento repetido, como convolução . Altos níveis de precisão também são necessários em algoritmos recursivos, como filtros de resposta ao impulso infinito (IIR). No caso particular dos filtros IIR, o erro de arredondamento pode degradar a resposta de frequência e causar instabilidade.

Dither

Espaço livre e piso de ruído nos estágios do processo de áudio para fins de comparação com o nível de oscilação

O ruído introduzido pelo erro de quantização, incluindo erros de arredondamento e perda de precisão introduzidos durante o processamento de áudio, pode ser mitigado adicionando uma pequena quantidade de ruído aleatório, chamado dither , ao sinal antes da quantização. O pontilhamento elimina o comportamento de erro de quantização não linear, dando distorção muito baixa, mas à custa de um piso de ruído ligeiramente elevado . O dither recomendado para áudio digital de 16 bits medido usando a ponderação de ruído ITU-R 468 é cerca de 66 dB abaixo do nível de alinhamento , ou 84 dB abaixo da escala total digital , que é comparável ao microfone e ao nível de ruído da sala e, portanto, de pouca consequência em 16- bit de áudio.

O áudio de 24 bits não requer pontilhamento, pois o nível de ruído do conversor digital é sempre mais alto do que o nível necessário de qualquer pontilhamento que possa ser aplicado. O áudio de 24 bits poderia teoricamente codificar 144 dB de faixa dinâmica, mas com base nas planilhas do fabricante, não existem ADCs que possam fornecer mais de ~ 125 dB.

O pontilhamento também pode ser usado para aumentar a faixa dinâmica efetiva. A faixa dinâmica percebida de áudio de 16 bits pode ser 120 dB ou mais com pontilhamento em forma de ruído , aproveitando a resposta de frequência do ouvido humano.

Faixa dinâmica e espaço livre

A faixa dinâmica é a diferença entre o maior e o menor sinal que um sistema pode gravar ou reproduzir. Sem dither, a faixa dinâmica se correlaciona com o piso de ruído de quantização. Por exemplo, a resolução inteira de 16 bits permite uma faixa dinâmica de cerca de 96 dB. Com a aplicação adequada do dither, os sistemas digitais podem reproduzir sinais com níveis mais baixos do que sua resolução normalmente permitiria, estendendo a faixa dinâmica efetiva além do limite imposto pela resolução. O uso de técnicas como sobreamostragem e modelagem de ruído pode estender ainda mais a faixa dinâmica do áudio amostrado movendo o erro de quantização para fora da banda de frequência de interesse.

Se o nível máximo do sinal for inferior ao permitido pela profundidade de bits, a gravação tem headroom . O uso de profundidades de bits mais altas durante a gravação em estúdio pode disponibilizar espaço livre enquanto mantém a mesma faixa dinâmica. Isso reduz o risco de corte sem aumentar os erros de quantização em volumes baixos.

Sobreamostragem

Oversampling é um método alternativo para aumentar a faixa dinâmica do áudio PCM sem alterar o número de bits por amostra. Na sobreamostragem, as amostras de áudio são adquiridas em um múltiplo da taxa de amostragem desejada. Como o erro de quantização é considerado uniformemente distribuído com a frequência, muito do erro de quantização é deslocado para frequências ultrassônicas e pode ser removido pelo conversor digital para analógico durante a reprodução.

Para um aumento equivalente a n bits adicionais de resolução, um sinal deve ser sobreamostrado por

Por exemplo, um ADC de 14 bits pode produzir áudio de 16 bits e 48 kHz se operado a 16 × sobreamostragem, ou 768 kHz. O PCM com Oversampled, portanto, troca menos bits por amostra por mais amostras a fim de obter a mesma resolução.

A faixa dinâmica também pode ser aprimorada com sobreamostragem na reconstrução do sinal, ausência de sobreamostragem na fonte. Considere 16 × sobreamostragem na reconstrução. Cada amostra na reconstrução seria única em que para cada um dos pontos da amostra original dezesseis são inseridos, todos tendo sido calculados por um filtro de reconstrução digital . O mecanismo de aumento da profundidade de bits efetiva é conforme discutido anteriormente, ou seja, a potência do ruído de quantização não foi reduzida, mas o espectro de ruído foi distribuído em 16 × a largura de banda do áudio.

Nota histórica — O padrão do CD foi desenvolvido por uma colaboração entre a Sony e a Philips. A primeira unidade de consumo da Sony apresentava um DAC de 16 bits; as primeiras unidades Philips têm dois DACs de 14 bits. Isso causou confusão no mercado e até mesmo nos círculos profissionais, porque o PCM de 14 bits permite SNR de 84 dB, 12 dB a menos que o PCM de 16 bits. A Philips implementou a sobreamostragem 4 × com modelagem de ruído de primeira ordem que teoricamente alcançou a faixa dinâmica completa de 96 dB do formato de CD. Na prática, o Philips CD100 foi avaliado em 90 dB SNR na banda de áudio de 20Hz-20kHz, o mesmo que o CDP-101 da Sony.

Modelagem de ruído

A sobreamostragem de um sinal resulta em ruído de quantização igual por unidade de largura de banda em todas as frequências e uma faixa dinâmica que melhora apenas com a raiz quadrada da razão de sobreamostragem. A modelagem de ruído é uma técnica que adiciona ruído adicional em frequências mais altas, o que cancela alguns erros em frequências mais baixas, resultando em um aumento maior na faixa dinâmica durante a sobreamostragem. Para modelagem de ruído de ordem n , a faixa dinâmica de um sinal sobreamostrado é melhorada em 6 n  dB adicionais em relação à sobreamostragem sem modelagem de ruído. Por exemplo, para um áudio analógico de 20 kHz amostrado em 4 × sobreamostragem com modelagem de ruído de segunda ordem, a faixa dinâmica é aumentada em 30 dB. Portanto, um sinal de 16 bits amostrado em 176 kHz teria uma profundidade de bits igual a um sinal de 21 bits amostrado em 44,1 kHz sem formação de ruído.

A modelagem de ruído é comumente implementada com modulação delta-sigma . Usando a modulação delta-sigma, o Direct Stream Digital atinge um SNR teórico de 120 dB em frequências de áudio usando áudio de 1 bit com sobreamostragem de 64 ×.

Formulários

A profundidade de bits é uma propriedade fundamental das implementações de áudio digital. Dependendo dos requisitos da aplicação e das capacidades do equipamento, diferentes profundidades de bits são usadas para diferentes aplicações.

Aplicativos de exemplo e profundidade de bits de áudio compatível
Aplicativo Descrição Formato (s) de áudio
CD-DA (livro vermelho) Mídia digital LPCM de 16 bits
DVD-Audio Mídia digital LPCM de 16, 20 e 24 bits
Super Audio CD Mídia digital Direct Stream Digital ( PDM ) de 1 bit
Áudio de disco Blu-ray Mídia digital LPCM de 16, 20 e 24 bits e outros
Áudio DV Mídia digital PCM não compactado de 12 e 16 bits
Recomendação ITU-T G.711 Padrão de compressão para telefonia PCM de 8 bits com compressão / expansão
NICAM -1, NICAM-2 e NICAM-3 Padrões de compressão para transmissão PCM de 10, 11 e 10 bits, respectivamente, com compressão / expansão
Ardor DAW de Paul Davis e a Comunidade Ardor Ponto flutuante de 32 bits
Pro Tools 11 DAW da Avid Technology Sessões de ponto flutuante de 16 e 24 bits ou 32 bits e mistura de ponto flutuante de 64 bits
Logic Pro X DAW da Apple Inc. Projetos de 16 e 24 bits e mistura de ponto flutuante de 32 ou 64 bits
Cubase DAW by Steinberg Permite precisão de processamento de áudio para flutuação de 32 bits ou flutuação de 64 bits
Ableton Live DAW by Ableton Profundidade de ponto flutuante de 32 bits e soma de 64 bits
Razão 7 DAW da Propellerhead Software E / S de 16, 20 e 24 bits, aritmética de ponto flutuante de 32 bits e soma de 64 bits
Reaper 5 DAW por Cockos Inc. PCM de 8 bits, PCM de 16 bits, PCM de 24 bits, PCM de 32 bits, FP de 32 bits, FP de 64 bits, IMA ADPCM de 4 bits e renderização cADPCM de 2 bits ;

8-bit int, 16-bit int, 24-bit int, 32-bit int, 32-bit float, e 64-bit float mix

GarageBand '11 (versão 6) DAW da Apple Inc. Padrão de 16 bits com gravação de instrumento real de 24 bits
Audácia Editor de áudio de código aberto LPCM de 16 e 24 bits e ponto flutuante de 32 bits
FL Studio DAW por Image-Line 16 e 24 bits int e ponto flutuante de 32 bits (controlado pelo sistema operacional)

Taxa de bits e tamanho do arquivo

A profundidade de bits afeta a taxa de bits e o tamanho do arquivo. Os bits são a unidade básica de dados usada na computação e nas comunicações digitais. A taxa de bits se refere à quantidade de dados, especificamente bits, transmitidos ou recebidos por segundo. Em MP3 e outros formatos de áudio compactado com perdas , a taxa de bits descreve a quantidade de informações usadas para codificar um sinal de áudio. Geralmente é medido em kb / s .

Veja também

Notas

Referências

  • Ken C. Pohlmann (15 de fevereiro de 2000). Princípios de áudio digital (4ª ed.). McGraw-Hill Professional. ISBN 978-0-07-134819-5.