TIMIT - TIMIT
TIMIT é um corpus de fala transcrita fonêmica e lexicamente de falantes do inglês americano de diferentes sexos e dialetos. Cada elemento transcrito foi delineado no tempo.
TIMIT foi projetado para promover o conhecimento acústico-fonético e sistemas de reconhecimento automático de fala. Foi encomendado pela DARPA e o desenho do corpus foi um esforço conjunto entre o Instituto de Tecnologia de Massachusetts , SRI International e Texas Instruments (TI). A palestra foi gravada na TI, transcrita no MIT e verificada e preparada para publicação pelo National Institute of Standards and Technology (NIST). Também existe uma versão de largura de banda de telefone chamada NTIMIT (Network TIMIT).
TIMIT e NTIMIT não estão disponíveis gratuitamente - é necessário ser membro do Linguistic Data Consortium ou um pagamento em dinheiro para acessar o conjunto de dados.
História
O corpus telefônico da TIMIT foi uma das primeiras tentativas de criar um banco de dados com amostras de fala. Foi publicado no ano de 1988 em CD-ROM e consiste em apenas 10 frases por palestrante. Duas sentenças em 'dialeto' foram lidas por cada falante, assim como outras 7 sentenças selecionadas de um conjunto maior. Cada sentença tem 30 segundos de duração e é falada por 630 falantes diferentes. Foi a primeira tentativa notável de criar e distribuir um corpus de discursos e o projeto geral gerou custos de US $ 1,5 milhão.
O nome completo do projeto é DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus e a sigla TIMIT significa Texas Instruments / Massachusetts Institute of Technology. A principal razão pela qual um corpus de fala por telefone foi criado foi para treinar softwares de reconhecimento de fala . No desafio da Blizzard , diferentes softwares têm a obrigação de converter gravações de áudio em dados textuais e o corpus TIMIT foi usado como uma linha de base padronizada.
Comparação de métodos de aprendizado de máquina
Estude | Método | Precisão (%) |
---|---|---|
Cao e Fan | KIRF | 93,1 |
Bird et al. | DEvo MLP | 92,85 |
Cao e Fan | NPCD / MPLSR | 92,8 |
Cao e Fan | NPCD / PCA | 92,1 |
Cao e Fan | MPLSR | 91,1 |
Cao e Fan | PDA / Ridge | 91,1 |
Li e Ghosal | UMP | 89,25 |
Li e Ghosal | MLO | 85,25 |
Li e Ghosal | QDA | 83,75 |
Ager et al. | GMM | 81,5 |
Li e Yu | FSDA | 81,5 |
Li e Yu | FSVM | 78 |
Veja também
Referências
- ^ Fisher, William M .; Doddington, George R .; Goudie-Marshall, Kathleen M. (1986). "Banco de dados de pesquisa de reconhecimento de fala da DARPA: especificações e status". Anais do Workshop DARPA sobre Reconhecimento de Fala . pp. 93–99.
- ^ Morales, Nicolas e Tejedor, Javier e Garrido, Javier e Colas, Jose e Toledano, Doroteo T (2008). "STC-TIMIT Geração de um corpus telefônico monocanal". Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) : 391–395.CS1 maint: vários nomes: lista de autores ( link )
- ^ Lori F Lamel e Robert H. Kassel e Stephanie Seneff (1986). Desenvolvimento de Banco de Dados de Fala: Desenho e Análise do Corpus Acústico-Fonético (Relatório Técnico). DARPA (SAIC-86/1546).
- ^ John S. Garofolo e Lori F. Lamel e William M. Fisher e Jonathan G. Fiscus e David S. Pallett e Nancy L. Dahlgren (1993). DARPA TIMIT: (Relatório técnico). Instituto Nacional de Padrões e Tecnologia. doi : 10.6028 / nist.ir.4930 .
- ^ Nattanun Chanchaochai e Christopher Cieri e Japhet Debrah e Hongwei Ding e Yue Jiang e Sishi Liao e Mark Liberman e Jonathan Wright e Jiahong Yuan e Juhong Zhan e Yuqing Zhan (2018). GlobalTIMIT: Conjuntos de dados acústico-fonéticos para os idiomas do mundo . Interspeech 2018. ISCA. doi : 10.21437 / interspeech.2018-1185 .
- ^ Bauer, Patrick e Scheler, David e Fingscheidt, Tim (2010). WTIMIT: The TIMIT Speech Corpus transmitido pela rede móvel de banda larga 3G AMR . LREC.CS1 maint: vários nomes: lista de autores ( link )
- ^ Sawada, Kei e Asai, Chiaki e Hashimoto, Kei e Oura, Keiichiro e Tokuda, Keiichi (2016). O sistema de texto para fala da NITech para o Blizzard Challenge 2016 . Oficina do Desafio da Blizzard 2016.CS1 maint: vários nomes: lista de autores ( link )
- ^ a b c d e Cao, Jiguo; Fan, Guangzhe (2010). Classificação de sinal usando floresta aleatória com kernels . IEEE. doi : 10.1109 / aict.2010.81 . ISBN 978-1-4244-6748-8.
- ^ Bird, Jordan J .; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Otimização do reconhecimento de fala fonética por meio de algoritmos evolutivos multiobjetivos" (PDF) . Sistemas especialistas com aplicativos . Elsevier BV. 153 : 113402. doi : 10.1016 / j.eswa.2020.113402 . ISSN 0957-4174 .
- ^ a b Li, Bin; Yu, Qingzhao (2008). "Classificação de dados funcionais: uma abordagem de segmentação". Estatística Computacional e Análise de Dados . Elsevier BV. 52 (10): 4790–4800. doi : 10.1016 / j.csda.2008.03.024 . ISSN 0167-9473 .