HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

借助音频数据的发音字典新词学习方法

作者:范正光; 屈丹; 闫红刚; 张文林语音识别发音字典新词学习集外词

摘要:针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

西安交通大学学报

《西安交通大学学报》(CN:61-1069/T)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《西安交通大学学报》主要刊登机械、电气、能源、动力、材料、电子、信息与控制、计算机、物理、力学、化学工程、生物工程、建筑工程以及有关新兴、交叉学科方面的最新研究成果。

杂志详情