Abstract | ||
---|---|---|
Ce papier commence par décrire les nouvelles directions d'applications aux télécommunications de la reconnaissance automatique de la parole et de la synthèse vocale à partir du texte au Japon. Les applications de la reconnaissance automatique de la parole se focalisent sur les services publics tels que l'automatisation du travail des opérateurs, l'assistance aux opérateurs, la commande vocale des serveurs d'information, et la numérotation vocale. Les applications majeures de la synthèse vocale incluent les services d'information par la voix et la lecture des messages électroniques (e-mail). On estime que l'utilisation de la reconnaissance de la parole et de la synthèse vocale à partir du texte va fortement augmenter dans un avenir proche avec la pénétration des terminaux téléphoniques mobiles et des portables, en particulier dans des domaines comme la diffusion de textes et la communication numérique. Deuxièmement, ce papier décrit le paramètrage expérimental du système vocal interactif de NTT qui comporte (1) une reconnaissance de la parole hautement performante en mode indépendant du locuteur et grand vocabulaire, basée sur une modélisation par HMM des phonèmes en contexte dont les paramètres sont appris sur des données parole provenant de plus de 10 000 locuteurs et collectées à travers le réseau téléphonique, (2) une synthèse de parole à partir du texte de haute qualité qui génère de la parole en concaténant des segments de signal représentant des triphones, (3) une configuration logicielle qui ne demande aucune architecture matérielle spécifique autre qu'un PC équipé d'une carte son et d'un modem vocal, (4) un prototypage facile et rapide qui permet à l'utilisateur de construire un système en écrivant certains types de scénarios du service. |
Year | DOI | Venue |
---|---|---|
1997 | 10.1016/S0167-6393(97)00044-7 | Speech Communication |
Keywords | Field | DocType |
speech recognition,text-to-speech,tts telecommunications application,telecommunication applications,voice interaction,information retrieval,type of service,text to speech,context dependent | Rapid prototyping,Telephone network,Broadcasting,Speech processing,Speech synthesis,Telecommunications,Computer science,Speech recognition,Automation,Software,Hidden Markov model | Journal |
Volume | Issue | ISSN |
23 | 1-2 | Speech Communication |
Citations | PageRank | References |
3 | 0.46 | 3 |
Authors | ||
12 |
Name | Order | Citations | PageRank |
---|---|---|---|
Mikio Kitai | 1 | 3 | 1.14 |
Kazuo Hakoda | 2 | 24 | 5.07 |
Shigeki Sagayama | 3 | 1217 | 137.97 |
Tomokazu Yamada | 4 | 13 | 5.00 |
Hajime Tsukada | 5 | 449 | 29.46 |
Satoshi Takahashi | 6 | 3 | 0.46 |
Yoshiaki Noda | 7 | 10 | 2.17 |
Jun-ichi Takahashi | 8 | 30 | 4.22 |
Yuki Yoshida | 9 | 3 | 0.46 |
Kazuhiro Arai | 10 | 25 | 3.54 |
Takashi Imoto | 11 | 19 | 1.56 |
Tomohisa Hirokawa | 12 | 46 | 9.64 |