Modelo de filtro de origem - Source–filter model

O modelo de filtro de fonte representa a fala como uma combinação de uma fonte de som, como as cordas vocais , e um filtro acústico linear, o trato vocal . Embora seja apenas uma aproximação, o modelo é amplamente usado em várias aplicações, como síntese de voz e análise de voz , devido à sua relativa simplicidade. Também está relacionado à previsão linear . O desenvolvimento do modelo se deve, em grande parte, ao trabalho inicial de Gunnar Fant , embora outros, notavelmente Ken Stevens , também tenham contribuído substancialmente para os modelos subjacentes à análise acústica da fala e à síntese da fala. Fant desenvolveu o trabalho de Tsutomu Chiba e Masato Kajiyama, que primeiro mostraram a relação entre as propriedades acústicas de uma vogal e a forma do trato vocal.

Uma suposição importante freqüentemente feita no uso do modelo fonte-filtro é a independência da fonte e do filtro. Nesses casos, o modelo deve ser referido com mais precisão como "modelo de fonte-filtro independente".

História

Em 1942, Chiba e Kajiyama publicaram sua pesquisa sobre a acústica das vogais e o trato vocal em seu livro The Vowel: Its nature and structure . Ao criar modelos do trato vocal por meio de fotografia de raios-X , eles foram capazes de predizer as frequências dos formantes de diferentes vogais, estabelecendo uma relação entre os dois. Gunnar Fant, um cientista da fala pioneiro, usou a pesquisa de Chiba e Kajiyama envolvendo fotografia de raios-X do trato vocal para interpretar seus próprios dados de sons da fala russa na Teoria Acústica da Produção da Fala , que estabeleceu o modelo fonte-filtro.

Formulários

Em vários graus, diferentes fonemas podem ser distinguidos pelas propriedades de sua (s) fonte (s) e sua forma espectral . Sons sonoros (por exemplo, vogais) têm pelo menos uma fonte devido à excitação glótica principalmente periódica, que pode ser aproximada por um trem de impulso no domínio do tempo e por harmônicos no domínio da frequência, e um filtro que depende, por exemplo, da língua posição e protrusão labial. Por outro lado, as fricativas , como [s] e [f] , têm pelo menos uma origem devido ao ruído turbulento produzido em uma constrição na cavidade oral ou faringe . As chamadas fricativas sonoras , como [z] e [v] , têm duas fontes - uma na glote e outra na constrição supraglótica.

Síntese de fala

Na implementação do modelo fonte-filtro de produção de fala, a fonte de som, ou sinal de excitação, é freqüentemente modelada como um trem de impulso periódico, para fala sonora, ou ruído branco para fala não-voz. O filtro do trato vocal é, no caso mais simples, aproximado por um filtro multipolar, onde os coeficientes são obtidos por meio de predição linear para minimizar o erro quadrático médio no sinal de voz a ser reproduzido. A convolução do sinal de excitação com a resposta do filtro produz então a fala sintetizada.

Modelando a produção da fala humana

Uma possível combinação de fonte e filtro no trato vocal humano.

Na produção da fala humana, a fonte sonora são as pregas vocais , que podem produzir um som periódico quando contraídas ou um som aperiódico (ruído branco) quando relaxadas. O filtro é o resto do trato vocal, que pode mudar de forma por meio da manipulação da faringe , boca e cavidade nasal. Fant compara aproximadamente a fonte e o filtro à fonação e articulação , respectivamente. A fonte produz vários harmônicos de amplitudes variadas , que viajam pelo trato vocal e são amplificados ou atenuados para produzir um som de fala.

Veja também

Referências