TIMIT - TIMIT

TIMIT é um corpus de fala transcrita fonêmica e lexicamente de falantes do inglês americano de diferentes sexos e dialetos. Cada elemento transcrito foi delineado no tempo.

TIMIT foi projetado para promover o conhecimento acústico-fonético e sistemas de reconhecimento automático de fala. Foi encomendado pela DARPA e o desenho do corpus foi um esforço conjunto entre o Instituto de Tecnologia de Massachusetts , SRI International e Texas Instruments (TI). A palestra foi gravada na TI, transcrita no MIT e verificada e preparada para publicação pelo National Institute of Standards and Technology (NIST). Também existe uma versão de largura de banda de telefone chamada NTIMIT (Network TIMIT).

TIMIT e NTIMIT não estão disponíveis gratuitamente - é necessário ser membro do Linguistic Data Consortium ou um pagamento em dinheiro para acessar o conjunto de dados.

História

O corpus telefônico da TIMIT foi uma das primeiras tentativas de criar um banco de dados com amostras de fala. Foi publicado no ano de 1988 em CD-ROM e consiste em apenas 10 frases por palestrante. Duas sentenças em 'dialeto' foram lidas por cada falante, assim como outras 7 sentenças selecionadas de um conjunto maior. Cada sentença tem 30 segundos de duração e é falada por 630 falantes diferentes. Foi a primeira tentativa notável de criar e distribuir um corpus de discursos e o projeto geral gerou custos de US $ 1,5 milhão.

O nome completo do projeto é DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus e a sigla TIMIT significa Texas Instruments / Massachusetts Institute of Technology. A principal razão pela qual um corpus de fala por telefone foi criado foi para treinar softwares de reconhecimento de fala . No desafio da Blizzard , diferentes softwares têm a obrigação de converter gravações de áudio em dados textuais e o corpus TIMIT foi usado como uma linha de base padronizada.

Comparação de métodos de aprendizado de máquina

Uma comparação de métodos de reconhecimento de fonemas no conjunto de dados TIMIT
Estude	Método	Precisão (%)
Cao e Fan	KIRF	93,1
Bird et al.	DEvo MLP	92,85
Cao e Fan	NPCD / MPLSR	92,8
Cao e Fan	NPCD / PCA	92,1
Cao e Fan	MPLSR	91,1
Cao e Fan	PDA / Ridge	91,1
Li e Ghosal	UMP	89,25
Li e Ghosal	MLO	85,25
Li e Ghosal	QDA	83,75
Ager et al.	GMM	81,5
Li e Yu	FSDA	81,5
Li e Yu	FSVM	78

Veja também

Comparação de conjuntos de dados em aprendizado de máquina

Referências

^ Fisher, William M .; Doddington, George R .; Goudie-Marshall, Kathleen M. (1986). "Banco de dados de pesquisa de reconhecimento de fala da DARPA: especificações e status". Anais do Workshop DARPA sobre Reconhecimento de Fala . pp. 93–99.
^ Morales, Nicolas e Tejedor, Javier e Garrido, Javier e Colas, Jose e Toledano, Doroteo T (2008). "STC-TIMIT Geração de um corpus telefônico monocanal". Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) : 391–395.CS1 maint: vários nomes: lista de autores ( link )
^ Lori F Lamel e Robert H. Kassel e Stephanie Seneff (1986). Desenvolvimento de Banco de Dados de Fala: Desenho e Análise do Corpus Acústico-Fonético (Relatório Técnico). DARPA (SAIC-86/1546).
^ John S. Garofolo e Lori F. Lamel e William M. Fisher e Jonathan G. Fiscus e David S. Pallett e Nancy L. Dahlgren (1993). DARPA TIMIT: (Relatório técnico). Instituto Nacional de Padrões e Tecnologia. doi : 10.6028 / nist.ir.4930 .
^ Nattanun Chanchaochai e Christopher Cieri e Japhet Debrah e Hongwei Ding e Yue Jiang e Sishi Liao e Mark Liberman e Jonathan Wright e Jiahong Yuan e Juhong Zhan e Yuqing Zhan (2018). GlobalTIMIT: Conjuntos de dados acústico-fonéticos para os idiomas do mundo . Interspeech 2018. ISCA. doi : 10.21437 / interspeech.2018-1185 .
^ Bauer, Patrick e Scheler, David e Fingscheidt, Tim (2010). WTIMIT: The TIMIT Speech Corpus transmitido pela rede móvel de banda larga 3G AMR . LREC.CS1 maint: vários nomes: lista de autores ( link )
^ Sawada, Kei e Asai, Chiaki e Hashimoto, Kei e Oura, Keiichiro e Tokuda, Keiichi (2016). O sistema de texto para fala da NITech para o Blizzard Challenge 2016 . Oficina do Desafio da Blizzard 2016.CS1 maint: vários nomes: lista de autores ( link )
^ ^a ^b ^c ^d ^e Cao, Jiguo; Fan, Guangzhe (2010). Classificação de sinal usando floresta aleatória com kernels . IEEE. doi : 10.1109 / aict.2010.81 . ISBN 978-1-4244-6748-8.
^ Bird, Jordan J .; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Otimização do reconhecimento de fala fonética por meio de algoritmos evolutivos multiobjetivos" (PDF) . Sistemas especialistas com aplicativos . Elsevier BV. 153 : 113402. doi : 10.1016 / j.eswa.2020.113402 . ISSN 0957-4174 .
^ ^a ^b Li, Bin; Yu, Qingzhao (2008). "Classificação de dados funcionais: uma abordagem de segmentação". Estatística Computacional e Análise de Dados . Elsevier BV. 52 (10): 4790–4800. doi : 10.1016 / j.csda.2008.03.024 . ISSN 0167-9473 .

links externos

Corpus Acústico-Fonético de Fala Contínua TIMIT

[1] Fisher, William M .; Doddington, George R .; Goudie-Marshall, Kathleen M. (1986). "Banco de dados de pesquisa de reconhecimento de fala da DARPA: especificações e status". Anais do Workshop DARPA sobre Reconhecimento de Fala . pp. 93–99.

[2] Morales, Nicolas e Tejedor, Javier e Garrido, Javier e Colas, Jose e Toledano, Doroteo T (2008). "STC-TIMIT Geração de um corpus telefônico monocanal". Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) : 391–395.CS1 maint: vários nomes: lista de autores ( link )

[3] Lori F Lamel e Robert H. Kassel e Stephanie Seneff (1986). Desenvolvimento de Banco de Dados de Fala: Desenho e Análise do Corpus Acústico-Fonético (Relatório Técnico). DARPA (SAIC-86/1546).

[4] John S. Garofolo e Lori F. Lamel e William M. Fisher e Jonathan G. Fiscus e David S. Pallett e Nancy L. Dahlgren (1993). DARPA TIMIT: (Relatório técnico). Instituto Nacional de Padrões e Tecnologia. doi : 10.6028 / nist.ir.4930 .

[5] Nattanun Chanchaochai e Christopher Cieri e Japhet Debrah e Hongwei Ding e Yue Jiang e Sishi Liao e Mark Liberman e Jonathan Wright e Jiahong Yuan e Juhong Zhan e Yuqing Zhan (2018). GlobalTIMIT: Conjuntos de dados acústico-fonéticos para os idiomas do mundo . Interspeech 2018. ISCA. doi : 10.21437 / interspeech.2018-1185 .

[6] Bauer, Patrick e Scheler, David e Fingscheidt, Tim (2010). WTIMIT: The TIMIT Speech Corpus transmitido pela rede móvel de banda larga 3G AMR . LREC.CS1 maint: vários nomes: lista de autores ( link )

[7] Sawada, Kei e Asai, Chiaki e Hashimoto, Kei e Oura, Keiichiro e Tokuda, Keiichi (2016). O sistema de texto para fala da NITech para o Blizzard Challenge 2016 . Oficina do Desafio da Blizzard 2016.CS1 maint: vários nomes: lista de autores ( link )

[Cao_Fan_2010_p.-8] Cao, Jiguo; Fan, Guangzhe (2010). Classificação de sinal usando floresta aleatória com kernels . IEEE. doi : 10.1109 / aict.2010.81 . ISBN 978-1-4244-6748-8.

[Bird_Wanner_Ekárt_Faria_2020_p=113402-9] Bird, Jordan J .; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Otimização do reconhecimento de fala fonética por meio de algoritmos evolutivos multiobjetivos" (PDF) . Sistemas especialistas com aplicativos . Elsevier BV. 153 : 113402. doi : 10.1016 / j.eswa.2020.113402 . ISSN 0957-4174 .

[Li_Yu_2008_pp._4790–4800-10] Li, Bin; Yu, Qingzhao (2008). "Classificação de dados funcionais: uma abordagem de segmentação". Estatística Computacional e Análise de Dados . Elsevier BV. 52 (10): 4790–4800. doi : 10.1016 / j.csda.2008.03.024 . ISSN 0167-9473 .

Languages

In other projects