Reconhecimento de fala do Windows - Windows Speech Recognition

Reconhecimento de fala do Windows
WSRIcon.png
Tutorial de reconhecimento de fala do Windows Vista.PNG
O tutorial para o Reconhecimento de Fala do Windows no Windows Vista que descreve a seleção de texto no WordPad para exclusão.
Desenvolvedor (s) Microsoft
lançamento inicial 30 de novembro de 2006 ; 14 anos atras ( 2006-11-30 )
Sistema operacional Windows Vista e posterior
Modelo Reconhecimento de fala

O Windows Speech Recognition ( WSR ) é o reconhecimento de fala desenvolvido pela Microsoft para o Windows Vista que permite que os comandos de voz controlem a interface do usuário da área de trabalho ; ditar texto em documentos eletrônicos e e- mail ; navegar em sites ; executar atalhos de teclado ; e para operar o cursor do mouse . Ele oferece suporte a macros personalizadas para executar tarefas adicionais ou suplementares.

WSR é uma plataforma de reconhecimento de voz processada localmente; ele não depende da computação em nuvem para precisão, ditado ou reconhecimento, mas se adapta com base em contextos, gramáticas, amostras de fala, sessões de treinamento e vocabulários. Ele fornece um dicionário pessoal que permite aos usuários incluir ou excluir palavras ou expressões do ditado e registrar as pronúncias para aumentar a precisão do reconhecimento. Modelos de linguagem personalizados também são suportados.

Com o Windows Vista, o WSR foi desenvolvido para fazer parte do Windows, já que o reconhecimento de voz era exclusivo para aplicativos como o Windows Media Player . Ele está presente no Windows 7 , Windows 8 , Windows 8.1 , Windows RT , Windows 10 e Windows 11 .

História

A Microsoft esteve envolvida na pesquisa de reconhecimento de fala e síntese de fala por muitos anos antes do WSR. Em 1993, a Microsoft contratou Xuedong Huang da Carnegie Mellon University para liderar seus esforços de desenvolvimento de discurso; a pesquisa da empresa levou ao desenvolvimento da Speech API (SAPI) introduzida em 1994. O reconhecimento de voz também havia sido usado em produtos anteriores da Microsoft. O Office XP e o Office 2003 fornecem recursos de reconhecimento de fala entre os aplicativos do Internet Explorer e do Microsoft Office ; também ativou a funcionalidade de fala limitada no Windows 98 , Windows ME , Windows NT 4.0 e Windows 2000 . O Windows XP Tablet PC Edition 2002 incluía recursos de reconhecimento de fala com o Painel de Entrada do Tablet PC e o Microsoft Plus! para comandos de voz habilitados para Windows XP para Windows Media Player. No entanto, tudo isso exigia a instalação de reconhecimento de voz como um componente separado; antes do Windows Vista, o Windows não incluía reconhecimento de voz integrado ou extenso. O Office 2007 e versões posteriores dependem do WSR para serviços de reconhecimento de fala.

Windows Vista

Um protótipo de reconhecimento de fala Aero Wizard no Windows Vista (então conhecido como "Longhorn") build 4093 .

No WinHEC 2002, a Microsoft anunciou que o Windows Vista (codinome "Longhorn") incluiria avanços no reconhecimento de voz e em recursos como suporte a matriz de microfone como parte de um esforço para "fornecer uma infraestrutura de áudio de qualidade consistente para reconhecimento de voz natural (contínuo) e ( discreto) comando e controle. " Bill Gates declarou durante o PDC 2003 que a Microsoft "incorporaria recursos de fala ao sistema - um grande avanço para isso no 'Longhorn', tanto em reconhecimento quanto em síntese, em tempo real"; e compilações de pré-lançamento durante o desenvolvimento do Windows Vista incluíram um mecanismo de fala com recursos de treinamento. Uma apresentação de desenvolvedor PDC 2003 afirmou que o Windows Vista também incluiria uma interface de usuário para feedback e controle do microfone e configuração de usuário e recursos de treinamento. A Microsoft esclareceu até que ponto o reconhecimento de voz seria integrado quando afirmou em um kit de desenvolvimento de software de pré-lançamento que "os cenários de fala comuns, como botões e menus de habilitação de fala, serão habilitados em todo o sistema".

Durante o WinHEC 2004, a Microsoft incluiu o WSR como parte de uma estratégia para melhorar a produtividade em PCs móveis. Mais tarde, a Microsoft enfatizou a acessibilidade , novos cenários de mobilidade, suporte para idiomas adicionais e melhorias na experiência do usuário de fala no WinHEC 2005. Ao contrário do suporte de fala incluído no Windows XP, que foi integrado ao Painel de Entrada do Tablet PC e exigiu alternar entre Commanding e Modos de ditado, o Windows Vista introduziria uma interface dedicada para entrada de fala na área de trabalho e unificaria os modos de fala separados; os usuários anteriormente não podiam falar um comando após ditar ou vice-versa sem primeiro alternar entre esses dois modos. O Windows Vista Beta 1 incluiu reconhecimento de voz integrado. Para incentivar os funcionários da empresa a analisar o WSR em busca de falhas de software e fornecer feedback, a Microsoft ofereceu uma oportunidade para seus testadores ganharem um modelo Premium do Xbox 360 .

Durante uma demonstração da Microsoft em 27 de julho de 2006 - antes do lançamento do Windows Vista para fabricação (RTM) - ocorreu um incidente notável envolvendo o WSR que resultou em uma saída não intencional de "Querida tia, vamos definir o dobro do assassino excluir selecionar tudo" quando vários tentativas de ditar levaram a erros de saída consecutivos; o incidente foi objeto de escárnio significativo entre analistas e jornalistas na audiência, apesar de outra demonstração de gerenciamento de aplicativos e navegação ter sido bem-sucedida. A Microsoft revelou que esses problemas ocorreram devido a uma falha no ganho de áudio que fez com que o reconhecedor distorcesse comandos e ditados; a falha foi corrigida antes do lançamento do Windows Vista.

Relatórios do início de 2007 indicaram que o WSR é vulnerável a invasores que usam reconhecimento de voz para operações mal-intencionadas, reproduzindo certos comandos de áudio por meio dos alto-falantes de um alvo; foi a primeira vulnerabilidade descoberta após a disponibilidade geral do Windows Vista . A Microsoft afirmou que embora tal ataque seja teoricamente possível, uma série de fatores atenuantes e pré-requisitos limitariam sua eficácia ou o impediriam por completo: um alvo precisaria que o reconhecedor estivesse ativo e configurado para interpretar adequadamente tais comandos; microfones e alto-falantes precisam estar habilitados e em níveis de volume suficientes; e um ataque exigiria que o computador realizasse operações visíveis e produzisse feedback audível sem que os usuários percebessem. O Controle de Conta de Usuário também proibiria a ocorrência de operações privilegiadas.

Windows 7

O bloco de notas de ditado no Windows 7 substitui a opção "habilitar ditado em todos os lugares" do Windows Vista.

O WSR foi atualizado para usar o Microsoft UI Automation e seu mecanismo agora usa a pilha de áudio WASAPI , melhorando substancialmente seu desempenho e permitindo o suporte para cancelamento de eco , respectivamente. O coletor de documentos, que pode analisar e coletar texto em e-mails e documentos para contextualizar os termos do usuário, melhorou o desempenho e agora é executado periodicamente em segundo plano, em vez de apenas após a inicialização do reconhecedor. O modo de suspensão também apresentou melhorias de desempenho e, para resolver problemas de segurança, o reconhecedor é desativado por padrão depois que os usuários falam "pare de ouvir" em vez de serem suspensos. O Windows 7 também apresenta uma opção de enviar dados de treinamento de fala à Microsoft para melhorar as versões futuras do reconhecedor.

Uma nova interface de bloco de notas de ditado funciona como um documento temporário no qual os usuários podem ditar ou digitar texto para inserção em aplicativos que não são compatíveis com o Text Services Framework . Anteriormente, o Windows Vista fornecia uma "opção habilitar o ditado em todos os lugares" para esses aplicativos.

Windows 8.x e Windows RT

O WSR pode ser usado para controlar a interface do usuário Metro no Windows 8, Windows 8.1 e Windows RT com comandos para abrir a barra Charms ("Pressione Windows C"); para ditar ou exibir comandos em aplicativos estilo Metro ("Pressione Windows Z"); para realizar tarefas em aplicativos (por exemplo, "Mudar para Celsius" no MSN Weather ); e para exibir todos os aplicativos instalados listados pela tela inicial ("Aplicativos").

Windows 10

O WSR é apresentado no aplicativo Configurações a partir da atualização do Windows 10 de abril de 2018 ( versão 1803 ); a mudança apareceu pela primeira vez no Insider Preview Build 17083. A atualização de abril de 2018 também apresenta um novo atalho de teclado ⊞ Win+ Ctrl+ Spara ativar o WSR.

Visão geral e recursos

O WSR permite que um usuário controle os aplicativos e a interface do usuário da área de trabalho do Windows por meio de comandos de voz. Os usuários podem ditar texto em documentos, e-mail e formulários; controlar a interface de usuário do sistema operacional; executar atalhos de teclado ; e mova o cursor do mouse . A maioria dos aplicativos integrados no Windows Vista pode ser controlada; os aplicativos de terceiros devem oferecer suporte ao Text Services Framework para ditado. Inglês (EUA) , Inglês (Reino Unido) , francês , alemão , japonês , chinês mandarim e espanhol são os idiomas suportados.

Quando iniciado pela primeira vez, o WSR apresenta um assistente de configuração do microfone e um tutorial passo a passo interativo opcional que os usuários podem começar a aprender os comandos básicos enquanto adaptam o reconhecedor às suas características de voz específicas; o tutorial é estimado em aproximadamente 10 minutos para ser concluído. A precisão do reconhecedor aumenta com o uso regular, que o adapta a contextos, gramáticas, padrões e vocabulários. Modelos de linguagem personalizados para contextos específicos, fonética e terminologias de usuários em campos ocupacionais específicos, como jurídico ou médico, também são suportados. Com o Windows Search , o reconhecedor também pode, opcionalmente, coletar texto em documentos, e-mail, bem como entrada de tablet PC manuscrita para contextualizar e eliminar a ambigüidade de termos para melhorar a precisão; nenhuma informação é enviada à Microsoft.

WSR é uma plataforma de reconhecimento de voz processada localmente; ele não depende da computação em nuvem para precisão, ditado ou reconhecimento. Os perfis de fala que armazenam informações sobre os usuários são retidos localmente. Backups e transferências de perfis podem ser executados por meio da Transferência Fácil do Windows .

Interface

O reconhecedor de fala exibindo informações com base em diferentes modos; a cor do botão do reconhecedor muda com base na interação do usuário.

A interface WSR consiste em uma área de status que exibe instruções, informações sobre comandos (por exemplo, se um comando não for ouvido pelo reconhecedor) e o status do reconhecedor; um medidor de voz exibe feedback visual sobre os níveis de volume. A área de status representa o estado atual do WSR em um total de três modos, listados abaixo com seus respectivos significados:

  • Ouvindo : o reconhecedor está ativo e aguardando a entrada do usuário
  • Dormindo : O reconhecedor não ouvirá ou responderá a comandos além de "Comece a ouvir"
  • Desligado : O reconhecedor não ouvirá ou responderá a nenhum comando; este modo pode ser ativado falando "Pare de ouvir"

As cores do botão do modo de escuta do reconhecedor denotam seus vários modos de operação: azul durante a escuta; cinza-azulado ao dormir; cinza quando desligado; e amarelo quando o usuário muda de contexto (por exemplo, da área de trabalho para a barra de tarefas) ou quando um comando de voz é mal interpretado. A área de status também pode exibir informações personalizadas do usuário como parte das macros de reconhecimento de voz do Windows .

O painel alternativo exibindo sugestões para uma frase.

Painel de alternativas

Uma interface de desambiguação de painel alternativo lista os itens interpretados como sendo relevantes para a (s) palavra (s) falada (s) de um usuário; se a palavra ou frase que um usuário deseja inserir em um aplicativo estiver listada entre os resultados, o usuário pode falar o número correspondente da palavra ou frase nos resultados e confirmar essa escolha falando "OK" para inseri-la no aplicativo. O painel alternativo também aparece ao iniciar aplicativos ou falar comandos que se referem a mais de um item (por exemplo, falar "Iniciar Internet Explorer" pode listar o navegador da web e uma versão separada com complementos desabilitados). Uma entrada ExactMatchOverPartialMatch no Registro do Windows pode limitar os comandos a itens com nomes exatos se houver mais de uma instância incluída nos resultados.

Comandos comuns

Listados abaixo estão os comandos WSR comuns. Palavras em itálico indicam uma palavra que pode ser substituída pelo item desejado (por exemplo, "direção" em " direção de rolagem " pode ser substituída pela palavra " para baixo "). Um comando "começar a digitar" permite que o WSR interprete todos os comandos de ditado como atalhos de teclado.

Comandos de ditado: "Nova linha"; "Novo parágrafo"; "Aba"; " Palavra literal "; " Número numérico "; "Vá para a palavra "; "Vá atrás da palavra "; "Sem espaço"; "Vá para o início da frase"; "Vá para o final da frase"; "Vá para o início do parágrafo"; "Vá para o final do parágrafo"; "Vá para o início do documento" "Vá para o final do documento"; "Vá para o nome do campo " (por exemplo, vá para o endereço , cc ou assunto ). Caracteres especiais, como vírgulas, são ditados pelo nome do caractere especial.
Comandos de navegação:
Atalhos de teclado: "Pressione a tecla do teclado "; "Pressione ⇧ Shiftmais a"; "Pressione capital b."
As teclas que podem ser pressionados sem primeiro dar o comando de imprensa incluem: ← Backspace, Delete, End, ↵ Enter, Home, Page Down, Page Up, e Tab ↹.
Comandos do mouse: "Clique"; "Clique nisso "; "Duplo click"; "Clique duas vezes nisso "; "Marca"; "Marque isso "; "Clique com o botão direito"; "Clique com o botão direito nisso "; " MouseGrid ".
Comandos de gerenciamento de janela: "Fechar (alternativamente maximizar, minimizar ou restaurar) janela"; "Feche isso "; "Fechar nome do aplicativo aberto "; "Alternar aplicativos"; "Mudar para o nome do aplicativo aberto "; " Direção de rolagem "; " Direção da rolagem em número de páginas "; "Mostrar area de trabalho"; " Mostrar números ."
Comandos de reconhecimento de fala: "Comece a ouvir"; "Pare de ouvir"; "Mostrar opções de fala"; "Abrir dicionário de fala"; "Mova o reconhecimento de fala"; "Minimize o reconhecimento de voz"; "Restaurar o reconhecimento de voz". No idioma inglês, os comandos aplicáveis ​​podem ser mostrados falando "O que posso dizer?" Os usuários também podem consultar o reconhecedor sobre tarefas no Windows falando "Como faço para o nome da tarefa " (por exemplo, "Como faço para instalar uma impressora?"), Que abre a documentação de ajuda relacionada.
O comando MouseGrid exibindo uma grade de números na área de trabalho do Windows Vista.

MouseGrid

O MouseGrid permite que os usuários controlem o cursor do mouse sobrepondo números em nove regiões da tela; essas regiões se estreitam gradualmente à medida que um usuário fala o (s) número (s) da região na qual focar até que o elemento de interface desejado seja alcançado. Os usuários podem então emitir comandos incluindo "Clique no número da região ", que move o cursor do mouse para a região desejada e clica nela; e "Marcar número de região ", que permite que um item (como um ícone de computador ) em uma região seja selecionado, que pode então ser clicado com o comando de clique anterior . Os usuários também podem interagir com várias regiões ao mesmo tempo.

Mostrar Números

Aplicativos e elementos de interface que não apresentam comandos identificáveis ​​ainda podem ser controlados solicitando ao sistema que sobreponha números sobre eles por meio de um comando Mostrar Números . Uma vez ativo, falar o número sobreposto seleciona aquele item para que um usuário possa abri-lo ou realizar outras operações. O Show Numbers foi projetado para que os usuários pudessem interagir com itens que não são facilmente identificáveis.

O comando Mostrar Números sobrepondo números no Explorador de Jogos .

Ditado

O WSR permite o ditado de texto em aplicativos e Windows. Se ocorrer um erro de ditado, ele pode ser corrigido falando " Palavra correta " ou "Corrija isso" e o painel de alternativas aparecerá e fornecerá sugestões para correção; essas sugestões podem ser selecionadas falando o número correspondente ao número da sugestão e falando "OK". Se o item desejado não estiver listado entre as sugestões, um usuário pode falá-lo para que apareça. Como alternativa, os usuários podem falar "Soletrar" ou "Soletrarei sozinho" para falar a palavra desejada letra por letra; os usuários podem usar seu alfabeto pessoal ou o alfabeto fonético da OTAN (por exemplo, "N como em novembro") ao soletrar.

Várias palavras em uma frase podem ser corrigidas simultaneamente (por exemplo, se um usuário fala "ditando", mas o reconhecedor interpreta essa palavra como "a coisa", um usuário pode afirmar "corrigir a coisa" para corrigir as duas palavras de uma vez). No idioma inglês, mais de 100.000 palavras são reconhecidas por padrão.

Dicionário de fala

Um dicionário pessoal permite que os usuários incluam ou excluam certas palavras ou expressões do ditado. Quando um usuário adiciona uma palavra que começa com uma letra maiúscula ao dicionário, um usuário pode especificar se ela deve ser sempre maiúscula ou se a capitalização depende do contexto em que a palavra é falada. Os usuários também podem gravar as pronúncias das palavras adicionadas ao dicionário para aumentar a precisão do reconhecimento; palavras escritas por meio de uma caneta em um tablet PC para o recurso de reconhecimento de manuscrito do Windows também são armazenadas. As informações armazenadas em um dicionário são incluídas como parte do perfil de fala do usuário. Os usuários podem abrir o dicionário de fala falando o comando "mostrar dicionário de fala".

Macros

Uma interface do Aero Wizard exibindo opções para criar macros de reconhecimento de fala.

O WSR oferece suporte a macros customizadas por meio de um aplicativo suplementar da Microsoft que permite comandos adicionais de linguagem natural . Como exemplo dessa funcionalidade, uma macro de e-mail lançada pela Microsoft permite um comando de linguagem natural onde um usuário pode falar "enviar e-mail para contato sobre o assunto ", que abre o Microsoft Outlook para redigir uma nova mensagem com o contato designado e o assunto inseridos automaticamente. A Microsoft também lançou macros de amostra para o dicionário de voz, para Windows Media Player, para Microsoft PowerPoint , para síntese de voz , para alternar entre vários microfones, para personalizar vários aspectos da configuração do dispositivo de áudio, como níveis de volume, e para consultas de linguagem natural geral, como como "Qual é a previsão do tempo?" "Que horas são?" e "Qual é a data?" As respostas a essas perguntas do usuário são faladas de volta para o usuário na voz ativa de conversão de texto em voz da Microsoft instalada na máquina.

Aplicativo ou item Frases de macro de amostra ( itálico indica palavras substituíveis)
Microsoft Outlook Enviar email Enviar um email a Enviar email para Makoto Enviar email para Makoto Yamagishi Envie um e-mail para Makoto Yamagishi sobre Envie um e-mail para Makoto Yamagishi sobre a reunião desta semana Atualizar contatos de e-mail do Outlook
Microsoft PowerPoint Próximo slide Slide anterior Próximo Anterior Avance 5 slides Voltar 3 slides Vá para o slide 8
Windows Media Player Próxima faixa Musica anterior Tocar Beethoven Toque algo de Mozart Toque o CD que tem No Hall of the Mountain King Toque algo escrito em 1930 Pausar música
Microfones no Windows Microfone Mudar de microfone Microfone com matriz de microfone Mudar para linha Mudar para matriz de microfone Mudar para microfone de linha Mudar para microfone de matriz de microfone
Níveis de volume no Windows Silenciar os alto-falantes Ative o som dos alto-falantes Desligue o áudio Aumenta o volume Aumente o volume em 2 vezes Diminua o volume em 50 Ajuste o volume para 66
Dicionário de fala WSR Exportar o dicionário de fala Adicione uma pronúncia Adicione esse [ texto selecionado ] ao dicionário de fala Bloquear aquele [ texto selecionado ] do dicionário de fala Remova aquele [ texto selecionado ] [ Texto selecionado ] soa como ... Como é esse [ texto selecionado ]?
Síntese de fala Leia isso [ texto selecionado ] Leia os próximos 3 parágrafos Leia a frase anterior Por favor pare de ler Que horas são? Qual é a data de hoje? Diga-me a previsão do tempo para Redmond

Os usuários e desenvolvedores podem criar suas próprias macros com base na transcrição e substituição de texto; execução de aplicativos (com suporte para argumentos de linha de comando ); atalhos do teclado; emulação de comandos de voz existentes; ou uma combinação desses itens. XML , JScript e VBScript são suportados. As macros podem ser limitadas a aplicativos específicos e as regras para macros podem ser definidas programaticamente. Para que uma macro seja carregada, ela deve ser armazenada em uma pasta Speech Macros dentro do diretório Documents do usuário ativo . Todas as macros são assinadas digitalmente por padrão se um certificado de usuário estiver disponível para garantir que os comandos armazenados não sejam alterados ou carregados por terceiros; se um certificado não estiver disponível, um administrador pode criar um. Os níveis de segurança configuráveis ​​podem impedir o carregamento de macros não assinadas; para solicitar que os usuários assinem macros após a criação; e para carregar macros não assinadas.

atuação

A partir de 2017, o WSR usa o Microsoft Speech Recognizer 8.0, a versão introduzida no Windows Vista. Para ditado, descobriu-se que era 93,6% preciso sem treinamento por Mark Hachman, Editor Sênior da PC World - uma taxa que não é tão precisa quanto o software concorrente. Segundo a Microsoft, o índice de acerto quando treinado é de 99%. Hachman opinou que a Microsoft não discute publicamente o recurso por causa do incidente de 2006 durante o desenvolvimento do Windows Vista, com o resultado de que poucos usuários sabiam que os documentos poderiam ser ditados no Windows antes da introdução da Cortana .

Veja também

Referências

links externos