Predição linear de excitação mista - Mixed-excitation linear prediction

A previsão linear de excitação mista ( MELP ) é um padrão de codificação de voz do Departamento de Defesa dos Estados Unidos usado principalmente em aplicações militares e comunicações por satélite , voz segura e dispositivos de rádio seguros. Sua padronização e posterior desenvolvimento foram liderados e apoiados pela NSA e pela OTAN.

História

O MELP inicial foi inventado por Alan McCree por volta de 1995, enquanto um estudante de graduação no Centro de Processamento de Sinal e Imagem (CSIP) da Georgia Tech, e as patentes originais relacionadas ao MELP já expiraram. Esse codificador de fala inicial foi padronizado em 1997 e era conhecido como MIL-STD-3005. Ultrapassou outros codificadores de voz candidatos na competição DoD dos EUA, incluindo: (a) Codificador Harmônico Seletivo de Freqüência (FSHC), (b) Excitação Multi-Bandas Avançada (AMBE), (c) Excitação Multibanda Aprimorada (EMBE), (d) Sinusóide Transform Coder (STC), e (e) Subband LPC Coder (SBC). Devido à sua complexidade inferior ao codificador Waveform Interpolative (WI), o vocoder MELP venceu a competição DoD e foi selecionado para MIL-STD -3005.

MIL-STD-3005

Entre 1998 e 2001, um novo vocoder baseado em MELP foi criado pela metade da taxa (ou seja, 1200 bit / s), e melhorias substanciais foram adicionadas ao MIL-STD-3005 pela SignalCom (posteriormente adquirida pela Microsoft ), Compandent e AT&T Corporation , que incluiu (a) novo codificador de voz adicional pela metade da taxa (ou seja, 1200 bit / s), (b) codificação (análise) substancialmente melhorada, (c) decodificação (síntese) substancialmente melhorada, (d) Pré-processamento de ruído para remoção ruído de fundo, (e) transcodificação entre os fluxos de bits de 2400 bit / se 1200 bit / s e (f) novo pós-filtro. Este desenvolvimento bastante significativo teve como objetivo criar um novo codificador pela metade da taxa e torná-lo interoperável com o antigo padrão MELP. Este MELP aprimorado (também conhecido como MELPe) foi adotado como o novo MIL-STD-3005 em 2001 na forma de anexos e suplementos feitos ao MIL-STD-3005 original, permitindo a mesma qualidade do antigo MELP de 2400 bits / s pela metade da taxa. Uma das maiores vantagens do novo MELPe de 2400 bits / s é que ele compartilha o mesmo formato de bits do MELP e, portanto, pode interoperar com sistemas MELP legados, mas forneceria melhor qualidade em ambas as extremidades. O MELPe oferece qualidade muito melhor do que todos os padrões militares mais antigos, especialmente em ambientes barulhentos, como campos de batalha e veículos e aeronaves.

STANAG-4591 (OTAN)

Em 2002, após extensa competição e testes, o US DoD MELPe de 2400 e 1200 bit / s foi adotado também como padrão da OTAN , conhecido como STANAG -4591. As medições de desempenho de teste da OTAN incluíram inteligibilidade de voz, qualidade de voz, reconhecimento de alto-falante, dependência de idioma, dependência de alto-falante, 10 ambientes de ruído acústico, canal de transmissão abaixo de 1% de BER, tandem usando codificador de voz CVSD de 16 kbps, fala sussurrada e implementação em tempo real. Os dados de teste incluíram mais de 36.000 arquivos, ou 500 horas de discurso em várias condições e idiomas. Como parte dos testes da OTAN para o novo padrão da OTAN, o MELPe foi testado contra outros candidatos, como HSX da França (Harmonic Stochastic eXcitation) e SB-LPC da Turquia (Split-Band Linear Predictive Coding), bem como a velha voz segura padrões como FS1015 LPC-10e (2,4 kbit / s), FS1016 CELP (4,8 kbit / s) e CVSD (16 kbit / s). Posteriormente, o MELPe ganhou também o concurso da OTAN, superando a qualidade de todos os outros candidatos, bem como a qualidade de todos os antigos padrões de voz seguros (CVSD, CELP e LPC-10e ). A competição da OTAN concluiu que o MELPe melhorou substancialmente o desempenho (em termos de qualidade de voz, inteligibilidade e imunidade a ruído), enquanto reduzia os requisitos de transferência. O teste da OTAN também incluiu testes de interoperabilidade, usou mais de 200 horas de dados de fala e foi conduzido por 3 laboratórios de teste em todo o mundo. A Compandent Inc, como parte dos projetos baseados no MELPe realizados para a NSA e a OTAN , forneceu à NSA e à OTAN uma plataforma de teste especial conhecida como dispositivo MELCODER que forneceu a referência de ouro para a implementação em tempo real do MELPe. Os equipamentos de terminal de dados (DTE) FLEXI-232 de baixo custo fabricados pela Compandent , que são baseados na referência de ouro MELCODER , são muito populares e amplamente utilizados para avaliar e testar o MELPe em tempo real, vários canais e redes e condições de campo .

Em 2005, uma nova variação de taxa MELPe de 600 bits / s pelo Grupo Thales ( França ) foi adicionada (sem competição extensiva e testes realizados para o MELPe 2400/1200 bit / s) ao padrão OTAN STANAG-4591.

300 bit / s MELP

Em 2010, o MIT Lincoln Labs, Compandent , BBN e General Dynamics também desenvolveram para a DARPA um dispositivo MELP de 300 bits / s. Sua qualidade era melhor do que o MELPe de 600 bits / s, mas seu atraso algorítmico era maior.

Implementações

O MELPe foi implementado em muitos aplicativos, incluindo dispositivos de rádio seguros, comunicações por satélite, VoIP e aplicativos de telefone celular. Em tais aplicações, é necessário conhecimento adicional para combater erros de canal, perda de pacotes e perda de sincronização. Tal experiência requer a compreensão da sensibilidade dos bits do MELPe a erros. Os MELPe de 2400 bit / se 1200 bit / s incluem bit de sincronização, que é útil em comunicações seriais.

Nível de compressão

O MELPe destina-se à compressão da fala. Dada uma entrada de áudio amostrada a 8 kHz, o codec MELPe produz as seguintes taxas de compressão em um fluxo de dados da Lei G.711 de 64 kbit / s, descontando os efeitos da sobrecarga do protocolo:

Taxa de bits Taxa de compressão sobre G.711 Tamanho da carga útil Intervalo de carga útil
2400 bit / s 26,7 X 54 bits 22,5 ms
1200 bit / s 53,3 X 81 bits 67,5 ms
600 bit / s 106,7 X 54 bits 90 ms

Geralmente, a codificação de voz envolve uma troca de diferentes aspectos, incluindo taxa de bits, qualidade de voz, atraso (tamanho do quadro e antecipação), complexidade computacional, robustez para diferentes falantes e idiomas, robustez para diferentes ruídos de fundo, robustez de erro de canal e também recuperação do estado do codec em caso de perda de pacotes. Como as taxas mais baixas do MELPe (600 e 1200 bits / s) são superconjuntos da taxa de 2400 bits / s, a complexidade do algoritmo (por exemplo, no MIPS) é quase a mesma para todas as taxas. As taxas mais baixas usam quadros e lookahead aumentados, bem como o tamanho do livro de código, portanto, requerem mais memória.

Direito de propriedade intelectual

O MELPe (e / ou seus derivados) está sujeito ao licenciamento IPR das seguintes empresas, Texas Instruments (algoritmo / código fonte MELP de 2400 bit / s), Microsoft (transcodificador de 1200 bit / s), Grupo Thales (taxa de 600 bit / s) , Compandent e AT&T (NPP de pré-processador de ruído).

Veja também

Referências

  1. ^ Um modelo misturado da excitação LPC Vocoder para a codificação do discurso da baixa taxa de bits, Alan V. McCree, Thomas P. Barnweell, 1995 no transporte de IEEE. Processamento de fala e áudio (MELP original)
  2. ^ Conversão analógica para digital de voz por predição linear de excitação mista de 2.400 bits / segundo (MELP), US DoD (MIL_STD-3005, MELP original)
  3. ^ MR Bielefeld, LM Supplee, "Developing a test program for the DoD 2400 bps vocoder selection process", Acoustics Speech and Signal Processing 1996. ICASSP-96. Atas da conferência. 1996 IEEE International Conference on, vol. 2, pp. 1141-1144 vol. 2, 1996.
  4. ^ LM Supplee, RP Cohn, JS Collura, AV McCree, "MELP: o novo padrão federal em 2400 bps", Acoustics Speech and Signal Processing 1997. ICASSP-97. 1997 IEEE International Conference on, vol. 2, pp. 1591-1594 vol.2, 1997.
  5. ^ O CÓDIGO DE VOZ DE BANDA ESTREITA INTEROPERÁVEL DA OTAN 1200 E 2400 BIT / S, STANAG-4591, OTAN
  6. ^ MELPe VARIATION PARA 600 BIT / S NATO NARROW BAND VOICE CODER, STANAG-4591, NATO
  7. ^ Alan McCree, "Uma estrutura de vocoder fonética escalável usando quantização vetorial preditiva conjunta de parâmetros MELP", em Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, pp. I 705-708, Toulouse, França