HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于多时间尺度的深层说话人特征提取研究

作者:王文超; 黎塔说话人识别深层说话人特征不同时间尺度

摘要:在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点。然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视。这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺度的处理模式对声音信息进行解析的。基于这些研究,本文提出了一种双通道神经网络模型,其中一条通道处理短时间尺度(即局部)特征,另一条处理长时间尺度(即全局)特征。两种局部特征融合形成可用于说话人识别的声纹特征,称之为t-vector。在RSR2015 Part3文本相关数据集上进行的检测说话人识别系统性能的实验结果表明,不同时间尺度的特征可以互补,并且融合的t-vector特征也优于i-vector和d-vector特征。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

网络新媒体技术

《网络新媒体技术》(CN:10-1055/TP)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情