HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Viseme的连续语音识别系统及Talking Head

作者:蒋冬梅; 谢磊; Ilse; Ravyse; 赵荣椿; Hi...说话人头部动画viseme连续语音识别triseme决策树图像相似度加权嘴形圆度

摘要:为实现听觉/视觉驱动的说话人头部动画,该文给出了一个基于viseme(说话时的基本嘴形单位)的连续语音识别系统.它训练viseme隐马尔可夫模型(HMM),识别语音为viseme图像序列.建模采用triseme的概念来考虑viseme的上下文相关性,但它需要超大量的训练数据.该文根据viseme图像及其相似度权值(VSW)定义视觉问题集,用来建立triseme决策树,以实现triseme的状态捆绑及HMM参数共享.为比较系统性能,基于phoneme(听觉领域的语音基本单位)的语音识别结果也被映射为viseme序列.在评价准则上,定义viseme图像相似度加权识别精度,更全面地考虑输出和参考图像序列的差别,并用嘴形圆度和VSW曲线中的突变点来评估所得viseme序列的平滑性.结果表明,基于viseme的语音识别系统能给出更平滑和合理的嘴形图像序列.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子与信息学报

《电子与信息学报》(CN:11-4494/TN)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情