Viseme - Viseme

Um viseme é qualquer um dos vários sons da fala que parecem iguais, por exemplo, durante a leitura labial (Fisher 1968).

Visemes e fonemas não compartilham uma correspondência um a um. Muitas vezes, vários fonemas correspondem a um único viseme, já que vários fonemas parecem iguais na face quando produzidos, como / k, ɡ, ŋ / , (viseme: / k /), / t͡ʃ, ʃ, d͡ʒ, ʒ / (viseme : / ch /), / t, d, n, l / (viseme: / t /) e / p, b, m / (viseme: / p /). Assim, palavras como animal de estimação, sino e homem são difíceis para os leitores labiais distinguirem, pois todas se parecem com / animal de estimação /. No entanto, pode haver diferenças de tempo e duração durante a fala real em termos da 'assinatura' visual de um determinado gesto que não pode ser capturado com uma única fotografia. Por outro lado, alguns sons que são difíceis de distinguir acusticamente são claramente distinguidos pela face (Chen 2001). Por exemplo, acusticamente falando em inglês / l / e / r / podem ser bastante semelhantes (especialmente em grupos, como 'grama' vs. 'vidro'), mas as informações visuais podem mostrar um contraste claro. Isso é demonstrado pelo fato de ouvir mal as palavras com mais frequência ao telefone do que pessoalmente. Alguns linguistas argumentaram que a fala é melhor entendida como bimodal (aural e visual), e a compreensão pode ser comprometida se um desses dois domínios estiver ausente ( McGurk e MacDonald 1976 ).

Os visemes muitas vezes podem ser engraçados, como na frase "suco de elefante", que quando lida labial parece idêntica a "Eu te amo".

Aplicações para o estudo da visemas incluem processamento de voz , reconhecimento de voz e computador animação facial .

Veja também

Referências

  • Chen, T. (maio de 1998). "Integração audiovisual na comunicação multimodal". Processos do IEEE 86, 837–852.
  • Chen, T. (2001). "Processamento de fala audiovisual". IEEE Signal Processing Magazine , 9–31.
  • Fisher, CG (1968). "Confusões entre consoantes percebidas visualmente". Journal of Speech and Hearing Research , 11 (4): 796–804.
  • McGurk, H. e MacDonald, J. (1976, dezembro). "Ouvir lábios e ver vozes". Nature , 746–748.
  • Patrick Lucey, Terrence Martin, Sridha Sridharan (2004). "Confusibilidade de fonemas agrupados de acordo com suas classes viseme em ambientes ruidosos". Apresentado na Décima Conferência Internacional Australiana sobre Ciência e Tecnologia da Fala, Macquarie University , Sydney, 8–10 de dezembro de 2004. Artigo online (documento PDF)