Title
Adaptable phoneme-based models for large-vocabulary speech recognition
Abstract
DragonDictate est un système de reconnaissance de la parole développé par Dragon Systems. Pour l'entraînement d'un tel système, une approche efficace consiste à utiliser des “phonèmes-en-contexte”, c.à.d. des triphones accompagnés d'un code concernant leur allongement éventuel devant une pause (PIC). A son tour, chaque PIC est représenté comme une suite de 1 à 6 élément phonétiques (PEL). Pour chaque phonème, il peut y avoir des milliers de PIC différent, mais les PEL sont tout au plus au nombre de 63. Initialement, tous les PIC et PEL sont entraînés à partir d'une base de données d'environ 16.000 mots enregistrés. Ces mots, prononcés par un locuteur de références, ont d'abord été analysés comme des suites de PEL. Quand un nouveau locuteur utilise le système de reconnaissance, chaque mot reconnu sert immédiatement à adapter les PEL dans sa chaîne de Markov cachée. Après la reconnaissance d'environ 1.000 mots, la plupart des PEL se trouvent adaptés au nouveau locuteur. Ainsi, même les modèles de mots qu'il n'a jamais prononcés sont adaptés au locuteur. Nous avons essayé le système de reconnaissance avec 2 textes, qui diffèrent beaucoup sur le plan du vocabulaire et du style. Ils ont été lus par 3 locuteurs: un locuteur de référence, un nouveau locuteur masculin et un nouveau locuteur féminin. Après une phase d'adaptation d'approximativement 1.500 mots, le rendement pour les trois était meilleur que celui obtenu par le locuteur de référence avec des modèles non adaptés. Avec un vocabulaire actif de 25.000 mots, 86% des mots étaient reconnus correctement; en plus 8% des mots figurant sur une liste de choix de 8 mots.
Year
DOI
Venue
1991
10.1016/0167-6393(91)90047-W
Speech Communication
Keywords
Field
DocType
speaker adaptation,adaptable phoneme-based model,recognition,large-vocabulary speech recognition,speech recognition
Vocabulary speech recognition,Computer science,Markov model,Adaptive method,Speech recognition,Speaker recognition,Artificial intelligence,Speaker diarisation,Natural language processing,Vocabulary,Code (cryptography),Speaker adaptation
Journal
Volume
Issue
ISSN
10
5-6
Speech Communication
Citations 
PageRank 
References 
2
0.85
0
Authors
2
Name
Order
Citations
PageRank
Paul Bamberg14025.80
Mark A. Mandel2333.63