HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 语音识别系统

语音识别系统

时间:2022-11-03 15:43:12

语音识别系统

第1篇

关键词:SAPI;C#;.NET;语音识别

1 引言

语音识别是信息处理领域的一个重要方向,语音识别通常又可以分为两种工作方式:一种是连续语音听写,这种方式需要语音识别引擎对语音听写过程中上下文以及相同相似发音的词语进行分析、做出判断,实现难度较大。另一种是命令与控制方式(command and control),在此种方式下,语音识别引擎可以通过对简短的命令语音进行识别,以便执行相应操作。

语音识别技术基础是非常复杂的。正是如此,它获得了世界上著名的公司与研究机构的青睐,语音识别技术正经历着日新月异的改变,其中一些产品已经取得较好的效果,用户可以在上述产品基础之上进行二次开发。

2开发图片语音识别系统的条件

语音识别技术的发展涉及人机交互,自然语言处理,人工智能。这使开发人员难以从底层进行应用开发,欣慰的是一些公司与研究机构已经推出他们的研究成果,并且提供了供开发人员使用的开发平台与接口。其中影响比较大的有微软的SAPI、剑桥大学发布的HTK,IBM的via voice开发平台。本文采用微软的Speech SDK5.1开发包,它不仅是一个免费的开发包,同时提供对中文的支持。

2.1微软SAPI简介

微软的 Speech SDK是基于 C O M 的视窗操作系统开发工具包。这个 SDK中含有语音应用程序接口( SAPI )、微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎(TTS)等等。SAPI 中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、 语法、 编译、资源、语音识别管理以及文本到语音管理,其结构如图 l 所示。

图1 SAPI结构

SAPI API在应用程序和语音引擎之间提供一个高级别的接口。SAPI实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。

SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。

2.2 在.net应用程序中使用SAPI的准备

安装SAPI 5.1语音开发包。

由于SAPI基于Windows平台,通过COM接口供.net平台调用,所以具体调用方法为:新建工程,在此工程的解决方案中单击右键,在添加/引用中选择 Microsoft Speech Object Library,并在程序中添加对SAPI命名空间的引用:using SpeechLib。

3 系统模型设计及实现

3.1 创立系统界面

 

图2 系统界面一览

3.2  使用SAPI语音识别核心类

ISpRecognizer类是支持语音识别的核心类,主要用于访问MCSR实现语音识别。在进行语音识别时,微软Speech SDK 5.1 支持两种模式的语音识别引擎:共享(Share)和独享(InProc)。在本系统中,我们使用共享型语音识别引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext类是语音识别上下文接口,它可以发送与接收消息通知,通过CreateGrammar方法创建语法规则。通过对它的两个事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重写,我们可以很轻松的得到当前语音识别结果。第一个事件对应的就是识别结果显示:1、第二个事件对应的就是识别结果显示;2、ISpeechRecoGrammar类是语法规则接口,定义语音识别引擎需要是别的语音类容。起语法规则可以分为听写型与命令控制型。听写型可以识别大词汇量语音,但是别效率与识别准确率较低。命令控制型有针对性的对特定语音进行识别,在效率与准确率上都非常高。

当然一个ISpRecognizer不管是共享还是独享,都可以有多个RecoContext与其关联,而一个RecoContext也可以与多个ISpeechReco  Grammar关联,每个ISpeechRecoGramma  r识别各自规定的内容。

 

图3 语音识别类对应关系

3.3  编写系统核心代码

通过读入外部Grammar配置语音识别引擎,外部Grammar文件以xml文件格式存储。具体形式如下:

ManegePic.xml

玫瑰

大象

狮子

老虎

仙人掌

珠穆朗玛峰

布达拉宫

貂蝉

十字军

世界杯

阿里巴巴

乒乓球

五星红旗

……

采用命令控制型Grammar是为了使语音识别结果准确有效,定义外部Grammar是为了保持以后系统的可扩展性。对于新输入的图片,只要将图片名字加入到 图片名字

中即可。

开始语音输入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//读入规则

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加识别最终事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加识别怀疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活规则 

}

其中识别最终事件是系统在完整处理输入音频之后得到的最后识别结果,怀疑事件则是因为系统在处理过程中的最相似识别结果。这两个事件在一些环境之下得到的识别结果不同。

识别怀疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

将系统在处理过程中的最相似结果显示在textBox控件之中。

识别最终事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 将系统最终结果显示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//显示识别结果的图片

}

Catch (Exception e)

{}

}

由于篇幅有限,这里仅仅给出了构建语音识别引擎与图片显示部分的代码。完 整的系统可以在Windows XP + vs2008环境中调试通过,实现基于.net和SAPI的图片语音识别系统。

4 结语

通过制作图片语音识别系统,对利用SAPI进行语音识别有了初步的研究和实践,该系统具有一定的扩展性,也可以作为子系统嵌入到其他系统之中。该系统的功能可以扩展到语音控制文件操作,比如打开/关闭文件,添加文件,可以制作一个不需要键盘鼠标只利用语音就可进行操作的软件系统。

参考文献:

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第2篇

关键词:语音识别;数字信号处理器;美尔频率倒谱系数;动态时间规整

中图分类号:TP319 文献标识码:A 文章编号:2095-1302(2012)09-0014-02

Design of voice recognition system based on TMS320C6713

XU Fei-yan1, CHEN Tao2, SUN Xu3, FANG Zong-liang1, LI Li-rong1

(1. Department 2, Anti-Chemical Institute, Beijing 102205, China;

2. Beijing Research & Development Center of Xiamen Jiuhua Communications Equipment Factory, Beijing 100083, China;

3. Chengdu University of Technology, Chengdu 610059,China)

Abstract: Taking the TMS320C6713DSP with floating-point functions produced by Texas Instruments chip as the system core processor and the MSP430 microcontroller as a peripheral controller, a real-time speech recognition system is designed in the paper. The kernel algorithm for the system uses Mel-frequency cepstral coefficients as feature parameters for feature extraction and dynamic time warping (DTW) algorithm for pattern matching. Programming and debugging of the system indicate that the system has good flexibility and real-time capability and improves the performance in noise immunity, robustness and recognition rates. In many areas, it has a practical reference value.

Keywords: speech recognition; digital signal processing; Mel-frequency cepstral coefficients; dynamic time warping

0 引 言

语音识别[1]是一种最为理想的人机通信方式。随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业[2]。但是,语音识别系统在商品化的进程中还存在着诸如识别速度、系统鲁棒性以及更高的识别率等具体问题。如何提高语音识别系统的这些性能,使系统更快、更稳定地工作是目前研究的重点。本文正是基于这种思想,通过选用德州仪器公司带浮点功能的DSP芯片TMS320C6713(主频为200 MHz)作为语音信号处理的核心处理器,同时结合MSP430单片机作为控制器共同构建硬件系统, 以美尔频率倒谱系数作为语音信号特征参数,结合动态时间规整孤立词识别算法进行模式匹配,设计了一种具有良好实时性和高识别率及鲁棒性的语音识别系统。

1 系统硬件设计

本设计的整个硬件系统是以DSP为核心电路对语音信号进行采集和处理,再经过A/D转换电路把模拟语音信号转换成数字语音信号,然后送入DSP芯片进行匹配识别,最后将识别后的结果通过单片机控制模块外接的两个红绿颜色的二极管进行处理表示,其中红色表示拒绝命令,绿色表示接受命令。系统的硬件平台主要由DSP系统核心处理模块、语音信号采集模块、单片机控制模块、外扩存储器模块和电路等几个模块构成。系统的硬件设计总体方案框图如图1所示。

1.1 DSP系统核心处理模块

作为系统的核心模块DSP芯片采用TMS320C6713,该芯片的主频可达200 MHz。这是TI公司推出的一种新型的浮点DSP芯片,是继定点DSP芯片TMS320C62X系列后开发的。该芯片的内部结构在TMS320C62X的基础上进行了改进,内部同样集成了多个功能单元,可同时执行8条指令,其运算能力可达1G FLOPS。片内具有丰富的外设,如EDMA、EMIF、McBSP、HPI、GPIO等[4]。

TMS320C6713 以其出色的运算能力、高效的指令集、智能外设、大容量的片内存储器和大范围的寻址能力,十分适合对运算能力和存储量有高要求的应用场合。

第3篇

关键词:识别和跟踪,Netfilter防火墙框架,深度包检测技术,协议分析

 

1.引言

非法语音业务的出现,不仅挤占了正常带宽,导致语音业务收入大幅度降低,同时通信质量也得不到有效保证,影响了用户的利益。基于上述原因,语音系统的信息过滤与分析就具有十分重要的意义,迫切需要一种能有效识别应用和跟踪的方案。本系统是根据网络正常行为而进行设计的,可有效监测到语音信号的通信,在保障网络安全上起到了重要的作用。论文参考网。

2. 系统开发平台

此系统是在Linux操作系统下进行开发,主要用到Linux2.6内核版本[1]操作系统本身所带的Netfilter防火墙框架[2]。由于Linux操作系统具有稳定、灵活的特点以及其提供的优秀防火墙框架,用户可以根据自己的实际需要,将防火墙设计的一般理论和方法与自己系统的具体情况相结合,设计出新的可实用的安全防护系统。

3. 采用方法

在众多的网络安全技术中,防火墙使用最为广泛,其中最为关键的技术包括数据包的捕获、数据包的过滤、历史记录的存储。随着技术的发展和要求的提高,防火墙在被大众接受的同时也显露出不足。近几年来,深度包检测技术和协议分析技术的出现使得网络分析更加准确、有效。

3.1深度包检测技术

深度包检测技术[3]是包过滤技术的深入,所谓深度是和普通的报文解析技术比较而言的,普通报文检测仅能分析出数据包中简单的信息,而它除了对前面的层次进行分析外,还增加了应用层分析,能够识别各种应用及其内容,具有漏检率低、防御能力强的特点。

3.2协议分析技术

协议分析技术[4]需要对每一种协议(主要是应用层协议)编写一段协议检测的代码,例如HTTP协议分析模块主要对HTTP进行解码分析,并检测对WEB服务器的攻击。虽然不同的协议有不同的分析代码,但它们都遵照相同的检测思路——将报文分解成域,然后对每一个域进行检查,与预期的值进行比较,若有异常则发出警报。

下面通过一个具体的例子阐述基于协议分析的系统是如何进行入侵检测的,假设系统要检测一个HTTP协议包中是否包含/hidden/admin/,如果存在则认为是一次入侵攻击,检测过程如下:

(1)解码IP包头文件,确定IP包有效负载所包含的协议;

(2)如果是TCP包,则解码TCP头文件,寻找TCP的目的端口;

(3)如果端口为80,即这是一个HTTP协议包,则根据HTTP协议规则分析HTTP包中所有的成分,从中提取出URL路径;

(4)对URL路径进行处理,避免路径欺骗;

(5)查找是否存在与 “/hidden/admin/”一致的路径,如果存在则向系统发出警报。

从上面可以看出,运用字符串特征识别,就能很准确地判断出数据包是否满足我们所设定的条件,如果是,则按照预先设定的规则进行处理。

4. 系统研究及设计

识别和跟踪系统的设计主要分成三部分,首先是对语音类应用的协议进行分析,归纳出协议中的特征字,编写出能识别该协议的正则表达式[5],使用Netfilter中的L7-filter模块,运用正则表达式对协议进行识别,并通过数据包过滤情况进行验证;使用iptables的ULOG日志记录、MySql数据库,通过监测数据流的状态,对应用行为的过程进行跟踪;通过分析数据库中的日志记录,可以对应用行为进行统计和控制。论文参考网。

4.1语音聊天识别模块设计

语音聊天时会在数据包中表现出一些特定的规则,这些规则可以由正则表达式进行描述。安装L7-filter并编译内核[6],使用iptables工具进行添加、删除、编辑过滤规则,利用规则操作数据包并将过滤包的详细信息记录到系统日志文件中,日志记录在/var/log/messenges中。由于该框架运行在服务器网关,服务器需要对流经系统的所有数据包进行检测,这样将规则定义在PREROUTING链上最为合适,识别模块的流程如图1所示:

图1 语音聊天识别模块设计流程

我们以语音聊天工具qq为例,具体的实现命令如下:

iptables–F //清空所有链表

iptables –tmangle –I PREROUTING –m layer7 –l7proto qqtalk -j LOG --log–prefix“qqtalk” //允许符合正则表达式qqtalk的数据包进入系统并在日志文件中以“qqtalk” 标识

iptables –tmangle –L –v //查看数据包匹配情况

日志文件messages中记录了iptables匹配数据包的结果,通过查看日志文件,可以清楚的看到所匹配数据包的记录情况。

4.2语音聊天跟踪模块设计

协议跟踪就是跟踪应用中关键事件动作的发生,通过数据库显示出来,Netfilter本身自带了五个链用于存储规则,但我们可以创建新的单独链对各种协议进行处理,这样做可以更具有针对性,而且也不复杂。我们以语音聊天工具qq为例,新建一条qqtalk规则链的命令为:

iptables –Nqqtalkchain

将匹配qqtalk正则表达式的数据包转发到新建的qqtalkchain规则链:

iptables –IFORWARD –m layer7 –l7proto qqtalk –j qqtalkchain

研究应用通信过程可以看到,在关键事件发生时,一般都伴随着某些特征字的出现,例如qq发起语音聊天时出现的“INVITE”,取消时出现的“CANCEL”等,这就需要用到iptables中的string模块,使用字符串匹配的命令为:

iptables –tmangle –m string -algo kmp --string “CANCEL” -j ULOG --ulog –prefix “cancel”

5. 实验环境搭建及测试

5.1实验环境搭建

本实验将语音类应用识别与跟踪系统部署在双网卡服务器上,该主机用eth0作为外部网络接口,与学校网络相连;用eth1作为本地局域网的网关地址。客户机运行语音聊天软件和抓包软件Wireshark。服务器和客户机的环境配置见表1:

表1 测试环境配置

第4篇

【关键词】ARM;语音识别;LD3320

1.引言

随着汽车工业的发展以及电子市场的成熟,车载智能终端逐渐成为汽车重要的配套设备,另外,近年来,经济的繁荣也促使国内各地汽车数量急剧增加,人们的出行习惯也随之发生变化,人车共处的时间越来越长,因此,车载智能终端的功能从简单的行车导航多功能转变,但驾驶人员在行车过程中,面对繁复的界面进行功能选择操作,易造成安全隐患,因此本文提出基于ARM的车载语音识别系统设计方案,旨在让驾驶人通过语音指令,操作智能终端,实现基本的导航、语音通信等功能,为安全驾驶提供保障。

2.语音识别过程

语音识别过程是首先将采集到的语音数据进行预处理,以提高自然语言的识别率,并降低处理器对数据进行密集运算的处理量,然后再进行端点检测、语音特征提取,完成从采集到的语音数据波型中,分析并提取以时间为参照的语音特征序列,随后转换为可对比的信号参数,与系统语音模型库进行语言匹配,即可得出识别结果。

3.系统整体设计

本系统由硬件、软件两部分构成,操作系统采用嵌入式Linux,为语音识别指令操作实现、车载智能终端功能实现提供基本的软件平台,硬件系统由语音识别部分、核心处理部分、电子设备部分构成,语音识别阶段由LD3320专用芯片在51级单片机的控制下完成,获取语音特征后,指令识别程序进行指令的对比识别,并通过指令操作系统程序调用诸如定位、导航、媒体播放、视频监控等应用程序,系统结构如下图1所示。

4.硬件系统设计

硬件系统主要包括系统主板、核心处理器、语音采拾器、语音识别芯片、语音控制单片机、存储器、电源等部分构成,详细介绍如下:

4.1 核心处理模块

系统中,核心处理器既做语音指令识别、指令下达的核心部件,还是车载智能终端的核心,考虑车载智能终端的多功能性,例如定位导航、媒体播放、远程视频监控等,系统核心处理器采用飞思卡尔推出的iMX27芯片,利用其H.264硬件编解码模块可在车载智能终端上实现MPEG4、H.263及H.264视频流的高效处理,在能够支持语音识别功能的同时,还使智能终端产品达到D1(DVD画面质量,720×480的屏幕分辨率)分辨率。

iMX27在处理H.264的同时占用极少的CPU的资源并提高了视频处理的性能,使核心有更多资源进行其它的应用,例如本系统的语音识别功能,另外,iMX27还具备非常灵活和丰富的标准接口、串行端口和扩展端口,实现与多种外部设备的连接,包括摄像头、显示器,还可以使用Wi-Fi、蓝牙实现即插即用及无线互连的功能,通过增加适当的模块,即可实现GPS定位、GPRS通信等应用。

4.2 语音识别模块

目前语音识别方案,有针对特定人的语音识别技术,但用户无法自行修定识别内容,还有基于ARM的软件识别技术,即将采集到的语音数据,直接交由ARM平台上运行的软件进行处理、比对、识别,这种方案优点是可以附带庞大的语音模型库,适应范围较广,但对ARM硬件平台要求较高,软件设计也相对复杂,本系统根据设计目的,提出的解决方案是,采用专用的语音识别芯片LD3320完成语音识别功能,将识别后的少量数据通过串行通信接口传送给ARM处理器,再由软件执行判断并执行相应的功能,一方面仅需求少量的电子器件,即可完成非特定人、非特定人、孤立词、小词汇量的语音识别功能,另一方面也可减少对ARM硬件的需求,空余更多的资源用于处理其它功能项目,而且软件设计也可以相对简化。

LD3320是由ICRoute公司生产的一种基于非特定人语音识别技术的专用芯片,内置语音搜索引擎以及语音识别模型特征库,另外还包含一些外部电路,例如AD、DA转换器、音频输入输出接口等,不再需要存储器等器件,也不需要预置语音训练,将MIC接入LD3320的AD引脚上,再通过51级的MCU进行控制,就可以进行语音识别,经过实践,LD3320的语音识别稳定性较好,准确性基本保持在96%左右。

51MCU主控制器采用Atmel公司生产的ATMEGA128芯片,其具备先进的RISC指令系统,包含133条指令,并且大多指令可以一个时钟周期内完成,执行效率高,内置128K字节的可编程Flash,4K字节的EEPROM,以及多达64K字节的优化的外部存储器空间,足以满足语音识别的控制需求。

主控制器主要完成需识别关键词语的拼音串通过设置寄存器的方式传入芯片内部,从而实现识别列表的动态编辑,每次可以设置50项候选识别句,每个识别句可以是单字,词组或短句。

4.3 存储器模块

为存储更多的语音数据,可通过存储芯片来扩展系统的存储空间,本系统采用意法半导体推出的M25P16-VMF6P芯片,该芯片是16-Mbit(2M x 8)串行闪存,具有先进的写保护机制,支持速度高达50MHz的SPI兼容总线的存取操作。存储器主要用于保存声音素材。

5.软件系统设计

软件系统由两大部分构成,一个是基于ARM平台的嵌入式Linux操作系统,主要为系统的实现提供基本的软件平台,另一部分是语音识别程序以及应用程序,主要完成语音的识别以及系统应用。

5.1 操作系统

本文采用可以支持ARM CPU,具有MMU功能的Linux操作系统,通过内核精简和裁减,并在实时性方面进行加强,以适应车载环境的应用需求。

5.2 语音识别程序

语音识别程序的设计,主要基于LD3320系列产品开发手册,主要工作流程分为以下几个步骤:系统初始化、识别列表输入、语音识别、中断响应等。

(1)系统初始化分为两个子步骤,分别通用初始化以及设备初始化,时钟频率、模式等参数在这一环节中进行设定。

(2)识别列表输入,首先对需要识别的语音指令进行编码,按不同编号区分不同的条目,编号范围可以1-256之间选择,每个条目采用标准普通化拼音作为语音参考模型,2个标准字汉语之间以空格进行填充。

(3)语音识别,通过设置特定寄存器的值,系统即可开始进行语音识别,语音识别的准确率与MIC的灵敏度设置有直接关系,根据实际环境条件,设置在40H~6FH可达到较好的效果。

(4)中断响应,设置系统捕捉到MIC有信号产生,即产生中断,中断处理程序则根据LD3320寄存器的值对识别结果进行判断,以C5寄存器的值作为参考的正确结果。

5.3 指令执行程序

指令执行程序运行的ARM平台上,负责监听ATMEGA128的串口数据,当接收到识别结果时,把该结果以二进制形式读出,通过预先设定的识别结果-执行指令对照表,查询应当执行的指令,并根据指令完成相应的操作。

6.结论

本文从整体、硬件、软件等几方面,深入讨论了基于ARM的嵌入式语音识别系统的设计和实现,并对各个组成模块的硬件电路及软件实现进行了详细的介绍。经实践,本文设计的语音识别系统在稳定性、识别率方面有较好表现,配合车载智能移动终端,有较强的实用性。

参考文献

[1]张戟,杨腾飞.车载自动语音识别系统设计[J].佳木斯大学学报(自然科学版),2011,29(2):201-205.

[2]刘建臣,赵建光,庞炜等.基于ARM9+linux的智能小区语音识别系统研究[J].河北建筑工程学院学报,2009,27(1):119-121.

作者简介:

第5篇

论文关键词:VC,Matlab,实时语音识别,MFCC,DTW,非特定人,MEX

 

1引言

VC和Matlab的混合编程共同运用于语音识别,可以借助VC实现对语音信号的采集,同时通过Matlab强

大的矩阵计算功能,简便化的编程方法,实现对语音

信号的识别处理。

其中,VC主要做语音信号的采集,通过借助于微

软提供的WindowsMultimedia API 开发了在线实时语

音采集程序,实现了人机在线实时交互。

2 语音识别系统概述

语音信号的一般处理过程如图 1所示,其中首先对语音信号进行预处理DTW,其中预处理包括预滤波、采样和量化、加窗、端点检测、预加重等。然后是信号特征量的提取,本文对信号的特征量进行Mel 频率倒谱系数(Mel-Frequency Cepstrum Coefficients)处理。最后通过对已经建立好的参数模板进行对比,测试的依据是失真度最小准测,如本文用到的动态时间规整: DTW(DynamicTime Warping)。

图 1 语音识别过程基本流程图

3 语音信号的采集

语音信号的两个过程为:对语音信号进行实时

的采集,对采集的语音信号做出识别。本文对语音信号的采集是通过VC调用Microsoft的Windows系统中提供了多媒体应用程序接口(Multimedia API)实现。

3.1 用VC生成动态链接库供Matlab调用

通过mex文件来实现VC与Matlab的混合编程。mex

代表 MatlabExecutable。Matlab中可以调用的C或

Fortran语言程序称为mex文件。mex文件是一种特殊的动态连接库函数,它能够在MATLAB里像一般的M函数那样来执行。

VC编译的时候应该包含头文件mex.h。与C中的主函数main()函数一样,mex程序中的开始函数为:

void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中

nlhs指的是在调用函数时返回值的个数;

plhs[]是每个返回值(在MATLAB中都是矩阵)的指针;

nrhs指的是调用函数时的参数个数;

prhs[]是每个参数的指针。

对mexFunction的参数是进行指针操作的,不能用单纯的return返回值。mex程序传送回来的整数数据要变为双精度型数据,才能为其它函数所处理。

3.2 Multimedia API函数介绍

API(ApplicationProgramming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

MultimediaAPI 函数主要有以下几个:获取音频设备信的函数waveInGetNumDevs(),该函数用于获取当前系统中所安装的音频输入设备的数目。

查询音频设备的能力函数waveInOpen(),该函数的作用是打开波形输入输入设备。

通过CALLBACK_FUNCTION命令来打开设备。录音缓冲区的组织WAVEHDR结构, 一般都是设置双缓存区对语音信号进行平稳缓冲论文网站。开始和停止录音时用到waveInStart()和waveInStop()两个函数。

4 用Matlab实现语音识别过程

4.1 端点检测

从背景噪声中找出语音的开始和终止点这是在很多语音处理应用中的基本问题。端点检测对于语音识别有着重要的意义。本文主要采用短时能量与短时平均过零率双门限结合的方式,来对汉语语音的起止点进行检测。短时能量和过零率分别确定两个门限, 信号必须达到比较高的强度, 该门限才可能被超过。且低门限被超过未必就是语音的开始, 有可能是由短时间的噪声引起; 高门限被超过则可以基本确定是由于语音信号引起的。

%每帧过零率

4.2 特征函数的提取

语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。目前在语音识别中较为常用的特征参数是线性预测倒谱系数(LPCC,LinearPredictive Cepstrum Coefficients)和Mel频率倒谱系数(MFCCDTW,Mel-FrequencyCepstrum Coefficients),这两种特征参数都是将语音信号从时域变换到倒频域上。LPCC从人的发声模型角度出发,利用线性预测编码(LPC,LinearPredictive Coding)技术求出倒谱系数,而MFCC则是构造人的听觉模型,把通过该模型(滤波器组)的语音输出为声学特征,直接通过离散傅立叶变换(DFT,DiscreteFourier Transform)进行变换。本文采用MFCC方法。Mel频率倒谱系数,即MFCC为:

其中,S(m)为语音信号通过预加重、离散傅里叶变换、通过MEL滤波器、并通过对数能量处理等得到的对数频谱。

4.3 非特定人孤立词语音识别算法

通常,语音识别的方法可以大致分为三类,即模板匹配法、随机模型法、和概率语法分析法。这三类方法都属于统计模式识别方法。其中模板匹配法是将测试语音与参考模板的参数逐一进行比较和匹配,判决的依据是失真测度最小准测,随机模型法是使用隐马尔可夫模型(HMM,HiddenMarkov Model)来对似然函数进行估计与判决,从而得到相应的识别结果。而概率语法分析法利用连续语音中的语法约束知识来对似然函数进行估计和判决,更适用于大规模连续语音识别。本文用小词汇量的DTW方法。动态时间规整(DTW)是采用动态规划(DP,DynamicProgramming)技术,将一个复杂的全局最优化问题转化为许多局部最优化问题DTW,一步一步地进行决策。假设时间规整函数为:其中,表示时间规整函数中的第个匹配点对

这个匹配点对是由待测语音的第个特征矢量和参考模板第个特征矢量构成的,其中两者之间的距离(或失真值)称为局部匹配距离,记做,处于最优时间规整情况下两矢量的距离称为全局匹配距离,记做,表达式如下所示:

由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的两矢量的匹配距离是累计距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。

5 结束语

在本语音识别系统中, 设定采样率为11025Hz,帧数为300帧,帧长为240点,则最长的语音段长度不会超过300*240/11025=6.5秒。采样样本为男女各5个人的数码语音资料, 实验表明, 系统达到了较好的实时性和较高的识别率。由于Matlab功能强大, 在处理中可直接利用许多现成的函数, 编程方便, 结果可视化也容易实现。

参考文献

[1]杨熙,苏娟,赵鹏.MATLAB环境下的语音识别系统[J].电声技术,2007,31(2): 51-53.

[2]龙银东,刘宇红,敬岚,等.在MATLAB环境下实现的语音识别[J]

第6篇

关键词:语音检索;语音识别;语音合成

中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)22-6295-03

Hotel Information Voice Retrieval System

LV Dan-ju, XU Wei-heng

(Computer and Information Science Dept., Southwest Forestry University, Kunming, China, 650224)

Abstract: Unlike traditional retrieval system, manually inputting query requests, this paper proposes voice search system. Using voice search technology, we design and develop the Voice Hotel information inquiry system, which basically fulfils man-machine voice dialog forms of inquiry. The system uses the voice processing technologies 1) HMM model based on speech recognition, converting real speech to text; 2) PSOLA of speech synthesis technology, converting text to speech. The retrieval accuracy of the system reaches 85%.

Key words: voice search; speech recognition; speech synthesis

语音搜索技术(Voice Search)是把用户的语音咨询信息转换成文本咨询信息,根据该文本信息进行数据搜索的技术。该技术为用户提供了人-机交流更为直接的语音对话方式。由于语音的便利性(较传统的手工输入)和可用性(较以内容为主的影像检索),成为检索技术的重要发展方向。近年来,随着语音搜索技术中的关键技术如语音识别、语音合成技术的不断发展与完善,语音搜索已在电信、金融、娱乐、政府等行业中得到了广泛深入的运用[1],如语音电话号码查询,音乐/视频的搜索管理,股票的语音询问与报价以及会议信息系统等。微软旗下的Tellme公司推出了针对于黑莓手机语音搜索软件实现了移动电话语音查询功能,之后雅虎也推出了OneSearch语音信息搜索软件。继微软Tellme和OneSearch语音搜索服务之后,Google也于2009年11月推出了手机语音搜索软件。我国也于本世纪初相继推出各城市语音控制导航电子地图、KTV语音点歌服务系统等。语音搜索技术在不到20年的发展中不断完善[2-4],显示出其强大的发展潜力。

1 系统介绍

1.1 系统组成

本系统采用的语音检索系统结构[1], 如图1所示。

对话系统搜索模型首先将游客的语音查询信息输入自动语音识别器(Automatic Speech Recognizer ASR),该模块将由声学模型(Acoustic Model AM)和语言模型(Language Model LM)组成。语音识别器用于实现语音到文本的转换(Speech to Text),ASR产生最好的一个识别文本结果。 系统根据识别的文本调用搜索模块SQL Server引擎进行数据搜索。将符合条件的一个或多个数据信息进行显示,并将搜索结果语音播报给用户。

1.2 系统采用技术

1.2.1 语音识别

语音识别部分主要由两个部分组成:语音训练阶段与语音识别阶段,如图 2所示,语音训练阶段是利用语料库中的语音信息,抽取其美尔倒谱参数MFCC的语音特征值,该参数考虑了人耳对声音信号的因素,能够较好的反映;以隐马尔科夫模型HMM为语音模型,依据数据统计原理,建立起语音参考模板。在训练阶段完成后,即可进入识别阶段,识别阶段将用户的语音信号抽取MFCC语音特征,为该语音创建识别模板。最后,将参考模板与识别模板进行对比,通过识别匹配原则寻求识别模板与参考模板中最相近的一个模板,从而实现语音信号的识别,实现从语音到文本的转换。

1)MFCC特征参数:美尔频标倒谱系数考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪能力。本系统采用42维的MFCC(12维的倒谱参数,1维的对数能量, 1维的pitch和一、二阶倒谱参数)。

2)HMM声学模型:HMM是一种双重随机过程,而之所以称为隐藏式是因为其中有一组随机过程是隐藏的,看不见的,在语音中就如同人类在发声的过程中其发声器官状态是看不见的,好比喉咙、舌头与口腔的变化是不可能从可观测的语音信号序列看出来的。而另一组随机过程观测序列(Observation Sequence),本系统采用6状态的HMM表示的汉语音素模型,它是由状态观测概率(State Observation Probability)来描述在每个状态下观测到各种语音特征参数的概率分布。HMM的状态观测概率函数式bj(ot)是采用高斯混合密度函数GMM(Gaussian Mixture Model)来计算连续概率密度,因此每一个声音单元(本系统采用音素)皆有一组连续的HMM(GHMM)。

3)N-Gram的语言模型:本系统采用基于统计方法的适合大词汇量连续语音识别的Trigram统计语言模型,进一步提高文本识别率。为下一步检索提供更为优质的文本检索信息。一个词的N-gram的语言模型如式:

(1)

整个句子的概率表示为:

(2)

式中w1,w2,…,wm表示组成整个句子中出现的每个词,参数n为n-gram统计语言模型的阶数,其值取决于模型的精度和复杂度,通过实验表明,n值越大,则对句子中单词之间的依赖关系描述得越准确,此时模型的精确度越高,但模型的复杂度也越大。本系统采用n=3,也即Trigram。于是,训练数据的句子中每个词出现的概率只与其前两个词有关,表示为:

(3)

在计算时,上式表示为:

(4)

c(wi-2,wi-1,wi)表示为该词序列出现在训练文本中的次数。但由于统计数据的稀疏性,必然会有c(wi-2,wi-1,wi)=0的可能。为此,应采用平滑技术(back-off和interpolated插值)来调整序列在训练文本中的分布概率。本系统采用插值方法。其表达式为:

(5)

λ为插值系数,对于给定的p(wi|wi-2,wi-1),可以在训练语料上运用Baum-welch算法计算得到插值系数λ(01)。

4)Viterbi Search识别算法:系统采用Viterbi搜索方法获取最好的音节系列,作为识别的文本。

系统的训练与识别部分均采用HTK(HMM Tool Kit)[6]实现。HTK是一套功能强大的语音识别工具,可以将大量的语音用HMM训练后,加以识别。所以本系统采用HTK为识别核心。语料库中收录宾馆名称、宾馆价格、宾馆星级、宾馆地址的语音资料,并将其对应文本进行手工音素注音。训练阶段是实现语音的MFCC特征与文本音素依HMM的对应过程,完成HMM音素模板的建立。在识别运用部分将要识别的语音文件进行MFCC提取后与HMM音素模板,利用N-gram的语言模型,进一步完善识别文本。最后利用Viterbi Search算法,找出一个最相似的音节序列,进而确定文本。

1.2.2 语音理解/搜索(Spoken Language Understanding/search)

语音理解的目的是将用户的表述转换成相对应的语义。在语音搜索中所指的“相对应的语义”就是对数据库查询的关键词信息。由于用户在查询时所说的语句不可能严格按照语法要求,是一种口头的表述,如当用户选择宾馆名称查询时,按照要求用户只需要说明宾馆名称如“连云宾馆”即可,但用户可能会说“我想问一下连云宾馆,谢谢!”,而不只是“连云宾馆”。这样,就会造成识别文本与查询文本的错误对应。为此,本系统采用语音信息提示,告诉用户查询的语音表达方式,如按宾馆查询时,提示信息为“请说宾馆名称”,按宾馆星级查询时,提示信息为“请说出要查询的宾馆星级,1~5的数字”等。在文献[4]中,还提出了其它语音理解的解决方案。由于本系统只是一个初级性的语音检索,固没有采用像基于词类的N-Gram,填词法等语音理解技术。

1.2.3 语音合成

为了使结果查询采用多媒体方式输出,以提供更自然的人-机交互,系统实现能够将查询文字信息传化成连续的语音(TTS,Text to Speech),以提供高质量、智能化的语音服务的重要技术。首先将文字输入到TTS系统中,TTS系统在收到文字后,根据原有在语料库中的语音档案进行连音,调整长度,大小及声调的动作。本系统采用微软推出的TTS软件包,作为汉语合成时还要考虑声调因素。实现过程如图 3所示。

TTS引擎属于Windows API外挂函数,它是一个Speech API程序。安装TTS引擎后,自动将类库文件Vtxtauto.tlb安装在Windows系统目录里的Speech 目录下,从而将其导入语音库“Voicetext Type Library”中。形成库文件后,我们可以将TTS引擎作为一个外部工程从语音库中引入VB、VC等32位应用软件的可视化环境,在视图中的对象浏览器窗口观察分析TTS引擎所封装的类、类的成员函数、方法及各属性的意义,并在所开发的软件中嵌入TTS,编写出独具个性的语音合成软件。

2 系统设计说明

本系统采用VC++进行语音检索Voice Hotel系统的界面设计,其系统操作说明如下:

1)开始执行Voice Hotel,会以语音提示使用语音查询的方法。语音会提示在哔声后开始3秒录音,哔声响起,开始进行录音,此时,对着麦克风说出要查询的方式:“宾馆名称”、“宾馆价格”、“宾馆星级”、“宾馆地址”;如图 4表示,说出“宾馆名称”。

2)经过系统识别后,激活相应的查询方式,语音回报用户要求的查询方式,并提示查询表述方式,准备进行查询关键字的语音录入;如图 5所示。

3)语音提示在哔声后开始录音,哔声响起,对着麦克风说出要查询的关键字;如图6所示。

4)经系统识别后,将会在相应的查询方式处显示识别结果,并在检索结果处显示查询符合要求的结果,利用语音合成技术,将其识别结果及查询结果进行语音播报。如图 7表示,识别结果为:金龙,进行结果显示。

3 实验数据及结果

由于本语音识别系统是采用最接近的句子作为识别结果,被识别系统资料的充足与否,平均每句的字数,都会影响正确率。系统采用字正确率作为系统测评指标的标准:。系统采用的训练数据说明,如表 1所示,测试结果如表 2所示。

从表2可知,本系统的识别率达到大约85%,基本达到一个初级语音查询的要求。

本系统的开发出基于语音和文字两种查询与输出的多媒体查询系统,它优于传统资料查询的文字输入、输出的方式,显示出人-机交流更加自然的特点。系统中核心的部分即为语音识别与语音合成部分。就该系统识别率而言,由于本语音识别系统采用最接近的句子当作为识别结果,被识别系统资料的多少,平均每句的字数,都会影响正确率。训练语音资料信息如下:其测试结果如下:实验数据表明,本系统的平均识别率约为85%。

4 结论

本文已实现了一个较为完整的语音宾馆查询系统,关键技术为语音识别与合成。由于系统只是一个初级的语音检索系统,所以在语音理解部分采用的是对用户的语音查询表述进行了严格的限制,今后可近将针对语音理解部分作进一步研究,以实现更自然的口语查询的目的, 同时提高系统识别率。并提供多查询接入方式如电话方式的查询以及更加丰富输出结果如显示宾馆的地理位置等。

参考文献:

[1] Ye-Yi Wang, Dong Yu, Yun-Cheng Ju and Alex Acero, An Introduction to Voice Search, IEEE Signal Processing Mag.[J], pp.30-38, May 2008

[2] Yu D, Ju Y C, Wang Y Y, Zweig G, et al. Automated directory assistance system: From theory to practice[J].in Proc. Interspeech, Antwerp, Belgium,2007: 2709-2712.

[3] Natarajan P, Prasad R, Schwartz R M, et al. A scalable architecture for directory assistance automation[J].in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Orlando, FL, 2002:121-124.

[4] Yu D, Ju Y C, Wang Y Y, et al. N-Gram Based Filler Model for Robust Grammar Authoring[J].in Proc. ICASSP,2006(1):565-568.

第7篇

论文摘要 近20年来,随着信息技术的不断发展,语音识别技术也逐步的发展成熟。语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。本文就对语音技术的发展及趋势作了简单的阐述。  

 

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。 

1 语音技术的发展历史 

50年代,研究人员多数致力于声学和语音学的基本概念。1952年,在at& t bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956年,rca lab 开展了另外一项独立研究,试图识别单一发音的10个不同的音节,同样采用了度量共振峰的方法。1959年,英国university college的研究人员开始尝试另外一种思路,用谱分析和模板匹配方法构建音素识别器,用来识别4个元音和9个辅音。60年代,相继出现并发表了语音识别的几个重要的思想。1962年,东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分,并进行识别。1963年,日本nec lab对数字进行语音识别的尝试可以算得上最值得注意的工作,因为它不仅是nec研究语音识别的开端,还导致一个长期的和卓有成效的研究计划。在60年代中,3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在rca lab开始于60年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上,发展了一套时间归正的基本方法。 

2 语音识别技术的发展现状 

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以ibm via voice和dragon dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。 

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。 

目前,at&t和mit等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。 

3 语音识别技术发展趋势 

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面: 

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。 

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。 

 3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。 

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径,其推广程这取决于语音识别技术本身进步的程度,同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以大幅度降低产品成本和体积,产品必然受到消费者的青睐,语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。 

 21世纪是信息和网络的时代,internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。 

 

参考文献 

第8篇

关键词:语音识别 应用领域 热点 难点

中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如图所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

[3]赵力.语音信号处理[M].机械工业出版社,2003.

第9篇

关键词:夹具;语音识别;SPCE061A单片机,试验测试

中图分类号:TP273 文献标识码:A 文章编号:1674-7712 (2014) 02-0000-01

从上世纪50年代开始,人们就对研究语音识别提出各种理论构想,并取得了越加瞩目的突破。世界上第一个识别英文数字的语音识别系统(Audry系统)的建构,来自于AT&TBell实验室[1]。不过这只是一个简单的识别系统,其后二十年,人们对语音识别的研究才取得实质性进展。在当时,计算机技术的发展无论在硬件上还是软件上,都对语音识别研究的实现提供了前提。其中,提出DP(动态规划)方法,让语音识别中存在不等长对正问题得到了有效解决。直到80年代,人们才从语音识别技术理论逐步建立起较为使用的操作系统。

一、关于语音识别系统之硬件设计。

本文所设计的语音控制系统,是核心控制器(主要是单片机)构建的智能控制系统[2]。其硬件系统的整体性通过6个模块构建――SPCE06lA(微控制器)、稳压电源模块、音频输入模块(MIC)、音频输出模块、并行通信模块、LED显示模块及驱动控制模块。

系统模块之间的运作主要是以下过程:首先语音命令由MIC音频输入,经由SPCE061A(核心控制器),及时分析处理输入语音信号。在模版相互匹配之后,借助“驱动控制程序UO端口”输出高电平,让电流导入继电器线圈,由电吸合并启动换向阀运作,此时电磁阀夹具就会向前夹紧或者朝后松开;如果低电平由FO端口输出,那么继电器线圈上的电流就会失去,从而断开触点,夹具动作自动停止。

二、关于语音识别系统的软件设计。

语音控制电磁阀试验系统的主程序运行,首先是初始化IOB端口,并将此设置为输出口;然后再初始化RAM存储器,进而读取存储单元里0xe000类数据。接着具体判断经过语音训练的可能性,若结果为是则可以直接对语音模型进行装载,反之要对其进行训练。如果训练成功,系统进入语音识别阶段,并借以完成对语音输入转换MIC通道的确定[3]。同时,如果用户听到播放开始识别的提示声音,则表示用户有权支配系统工作了。

该系统的各个功能子程序可有训练、识别及驱动等构成。而具体的设计流程则通过以下方面进行分别阐述。

(一)训练子程序部分。“训练”功能:即训练函数,它属于语音命令,用来实现存储训练。训练函数是语音识别的前提,在系统环节中占有很重要的位置。

“训练”参数:CommandiD,即命令序号。它将从0xl00到0xl05定为标准范围,在每组训练语句上都做到了不可复制性。

TraindMode:即训练次数,它要求在应用之前使用者必须训练至少一遍;“BSR TRAIN ONCE”表示要求训练一次;“BSR TRAIN TWICE”表示要求训练两次。

“训练”返回值:如果返回0则表示训练成功;如果返回-1则表示没有声音;当返回-2时,表示训练需要更多的语音数据来训练;当环境太吵时,就会返回-3;当数据库满,返回-4;当返回-5时,则表示两次输入命令均没有反应;序号超出范围,返回值就会指向-6。

(二)识别子程序

1.void BSR lnitRecognizer(int Audiosource)

“识别”功能说明:初始化辨识器;“识别”参数定义:EIN电压模拟量的输入是语音输入来源借助MIC语音输入得以实现;

2.int BSR(GetResult)

“识别”功能说明:从辨识里获取相关数据。

“识别”返回值:返回0则表示无命令识别出来;返回-1则表示识别器停止未初始化或识别未激活;当识别不合格就会返回-2。

3.void BSR StopRecognizer(void)

“识别”功能说明:辨识停止;对于工作的正常与否进行辨识是通过实时监控来实现的。如果出现-16ms连续稳定的方波,则说明了辨识正常;否则如果CPU出现超载,则会有不稳定的波形产生。那么此时就需要对命令进行删除,或者对程序进行优化,以防止由于语音数据的丢失造成错误辨识的情况发生。

三、关于自动夹具的语音控制系统性能测试设计

语音控制电磁阀试验系统自动夹具的设计实验。

夹具,是指机械制造时,用以在正确位置固定加工对象的机床附加装置[4]。它接受相关设计加工并确保符合加工要求。自动夹具就是在这个基础上设计形成的。它主要应用于自动化生产中(如自动生产线、加工中心及柔性制造系统)。

设计自动夹具主要是对不规则外形,自动定位困难、夹紧及运送均有一定难度的工件。其设计应用流程为:以自动夹具底平面及两定位孔定位在机床上,并通过位于机床工作台的夹紧机构夹紧,借以保证工件与刀具位置不发生相对变化。如果要求高精度的工件加工,则可将其底平面分而用之――定位基面与运输基面。自动夹具在专用夹具分类中,其装夹工件部分需要依照工件的外形与工艺要求设定。

语音控制电磁阀系统自动夹具的试验首先是由AutoCAD来完成的,主要是零件图、组装图及夹具的三维图形设计。

其次,利用语音控制系统对自动夹具的设置与生产是否符合相关数据要求,进行比对识别,并进入相应的程序进行规范。如果生产数值符合,则系统自动供电,工作继续进行;反之,系统会自动断开工作连接,系统运作停止。

五、结束语

本文设计中,不仅兼顾了语音控制电磁阀的试验,更有在此基础上的自动夹具设计。试验数据真实,对分析论证有很大指导性。但是在外界环境不是很理想的条件下,试验效果存在很大误差。而与自动夹具的生产结合,设计也有些难以达到预设效果。不过,不论怎,该设计均会对今后同领域及临近领域试验研究有一定的帮助。

参考文献:

[1]李红.电磁阀试验系统的构建[J].通讯世界,2008(02).

第10篇

关键词:语音识别;特征提取;模式匹配;模型训练

中图分类号:TP312 文献标识码:A文章编号:1007-9599 (2010) 05-0000-01

Summarization on Speech-Identification Technology

Liu Yu1,2,Ma Yanli1,Dong Beibei1

(1.Hebei North University,Information Science and Engineering College,Zhangjiakou075000,China;2.Tianjin University,Electronics and Information Engineering College,Tianjin300072,China)

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献:

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安:电子科技大学出版社,1991

第11篇

[关键词]车联网;汽车语音识别;自然语音辨识;车辆人机交互

中图分类号:TM721 文献标识码:A 文章编号:1009-914X(2017)10-0297-01

1.引言

车联网技术就是互联网时代人们对汽车产业生态新需求下产生的新兴技术。国内车联网正在经由“屏幕+操作系统”的1.0版本向联网的2.0版本过渡,未来的方向主要是“账号系统+语音控制+云服务”的3.0版本。基于账号系统,可以实现围绕“人”在不同汽车硬件、消费电子硬件之间的服务延续性,实现基于“人”的个性化导航、娱乐和支付等服务。实现人与汽车之间无障碍的自然语言交互,减少驾驶人员通过手指触碰按钮或者对中控屏幕的触控来实现车辆功能的操作,保证汽车驾驶员能够将全部视觉集中在对车辆行驶外部环境的感知,避免因为操控按钮、中控触摸屏带来的视觉注意力的间断分散而导致意外情况的发生,保证了驾驶安全。车联网平台通过在车辆仪表台安装车载终端设备,实现对车辆所有工作情况和静、动态信息的采集、存储并发送。车联网系统一般具有实时实景功能,利用移动网络实现人车交互。其中传感器(包括摄像头、雷达、速度等传感器)所采集的信息是从不同机理和角度采集,比较片面孤立。当遇到复杂路况及突发工况时,自然语音辨识的信息采集交互介入,能够更加精准判别车辆行驶中的真实工况。同时采用旋律识别技术对旋律节奏及特征的识别,将音乐做旋律分析和归类,基于音乐旋律和人类起居生理特征提供音乐服务,以驾驶环境下的汽车驾驶员为例,可以提供符合人体工程学的人性化音乐服务,营造舒适的音乐氛围,降低汽车驾驶员的驾驶疲劳。语音识别技术对特定人的声纹提取,基于声纹的身份验证及语音指令验证,探索完整的声纹鉴定商用解决方案。

2.车联网平台下语音识别系统的研发

车联网平台下语音识别系统的研发的主要内容有:分析汉语自然语音的特点,提取自然语音识别目标的关键特征;建立相关特征识别算法;采集不同地区人员的自然语音数据,并使用特征识别算法,提取特征,并对特征数据进行相应分类,运用人工智能算法进行训练识别,确定特征值;对采集语音数据与特征值进行比对分析,矫正特征值;在特征值基础上进行语音谱分析,结合时域与频域特点从总体角度分析。针对车内不同工况,采集背景噪声并进行分析,得到语音及噪声频谱特征;在语音谱识别基础上,建立降噪模型;设计一套典型的车内操控指令集,对这些指令进行信号采集与分析;针对在汽车内采集到的语音指令,设计噪声抑制模块来滤除噪声;基于车联网平台,建立车辆自然语音识别介入判别规则;开发硬件系统和软件系统;在车联网平台,进行实车测试。由于语音信号是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,如何建立短时变换算法对语音信号的频谱进行分析,建立相应的频谱“短时谱”,语音辨识训练指的是按照一定的准则,从大量已知的语音样本中提取出能表示该模式特征的模型⑹,在语音识别的流程中,即为从大量的相似的语音信号中提取出它们共同的特征以得到一个声学模型(参考模板)。而模式匹配则指的是根据一定的准则,使测试信号与已知声学模型中的某一模型相匹配。当前的匹配算法没有考虑汽车行驶中噪声影响情况下,针对汽车内工况辨识效果不良的问题。针对此问题,建立语音谱特征分析方法,降低噪声对语音辨识产生的干扰。建立声纹识别技术,并对特定人的声纹进行提取,基于声纹的身份验证及语音指令验证,制定完整的声纹鉴定商用解决方案。

3.车载语音识别系统

车载语音识别的本质,就是一种模式识别理论。动态时间归正、隐性马尔科夫链模型等都是如此。总之,一个完整的车载语音识别系统包含以下三个部分:

1.前端处理和特征提取:通过对信号适当的放大和增益控制,对其滤波和消除干扰,再进行数字化,然后从中提取特征序列,用反映语音特点的一些参数来表征信号特性;

2.识别算法:对语音信号提取了特征参数,以此来表征信号的特性,并且生成参考模式库。在对待测信号进行识别时同样先对其进行特征参数提取,然后逐一与参考模式库中的各模板进行匹配求取失真度,据此判断最佳的识别结果;

3.语义理解:完成识别判断后,将识别结果以某种指令或者表现形式输出,让计算机据此执行相应的操作,这就是识别结果的输出,即语义理解。

车联网平台下语音识别系统的研发解决方案:系统研发旨在解决自然语言在汽车内噪音工况下的语音辨识。掌握语音辨识机理理论及算法;明确各算法优缺点及适用对象,针对汽车内噪声存在的特殊环境下,构建自然语音谱辨识方法;采集不同地区语音数据,利用自然语音谱辨识方法进行语音辨识训练;提取出表征信号的特性,并且生成语音辨识参考模式库;搭建语音辨识硬件平台;进行硬件平台测试并修正优化相应算法,具体流程详见图1。

参考文献

[1] 施卫东.浅谈车联网技术的应用[J].计算机光盘软件与应用,2015,(01):39-40

[2] 潘梁生.列车车载语音识别系统的设计与实现[D].北京:北京交通大学,2016.

[3] 刘筠,卢超.新型车载语音识别系统中的一种关键技术[J].微处理机,2008,(04):177-180

第12篇

早在70年代,美国国家安全局就已经掌握了移动电话声音识别术,如果当时的苏联领导人勃列日涅夫乘车行驶在莫斯科的某条大街上,他用移动电话跟其他人说话,国家安全局的声音识别系统就会立即确认出勃列日涅夫的身份,他的谈话内容就会立即被国家安全局工作人员记录下来。五角大楼一位情报官曾表示:“这套系统甚至能够分辨出是车内的勃列日涅夫还是其他人打的嗝儿。

语音识别技术主要有声纹识别、内容识别、语种识别、语音标准识别等几方面。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难。

90年代初,美国电报电话公司想用计算机技术促进通讯业的发展,于是组织人马研究出一种语音识别软件。1992年3月,世界上第一套语音识别系统在美国诞生。当时这套系统的主要任务是代表公司向用户询问采用何种付款方式:诸如用信用卡还是现金等。

1997年,IBM推出了第一套中文语音识别系统,让我们看到人和机器用自然语言交流成为现实,为汉字输入带来了一股新鲜的潮流。1999年底,IBM中国公司在北京举行了1999IBM中文语音技术大会,首次了其普通话版本的电话语音识别技术,让我们看到了语音识别技术在电话系统中的广泛应用前景。近些年,很多领域都已经成为语音识别技术的应用热点,例如电话通信服务领域(如电话转接中心或查询中心)、金融领域(如家庭银行或股票信息查询)、旅游服务领域(如飞机订票或旅馆预订)等。

进入2000年以后,语音识别技术的发展更是突飞猛进。在IBM公司新近推出的世纪版语音识别系统中,我们看到用户不仅可以利用该系统口述文档、口述电子邮件、使用语言进行文档格式编排,还能直接口述“网上冲浪”这样的命令来访问网页,还可以实现真正的网上“聊天”。同时,由于这个版本的语音识别系统具备“文章智能分析功能”,可以主动学习用户的语言模型、风格,从而可以实现完全“只动口,不动手”操作计算机、网络以及其他电子设备的梦想。

语音识别中的声纹识别技术;在军事保密中有着重要的应用价值。据美国《华盛顿时报》披露,美国国家安全局一直将声音识别技术当作研究重点。比如,利比亚领导人卡扎菲就是美国情报机构重点识别的对象,现在,只要卡扎菲利用利比亚的通信网络进行通话。声音识别系统就会立即提醒工作人员:“卡扎菲正在通话,请注意。”最近,美国前情报官詹姆士・巴姆福德在其新著《秘密》一书中透露的一些内幕消息也证实了这套声音识别系统的存在。书中说,美国情报部门开始声音识别技术的研究已经有很多年了,最近几年,这套系统的功能不断完善,可以准确地识别出具体的声音。巴姆福德指出:“监听员甚至可以说出被监听者是否感冒了。”他还透露,国家安全局拥有大量被监听者的资料,有时候,监听员在监听时,旁边就放着这些被监听者的照片。据报道,曾迫降在我国海南机场的美军EP-3侦察机中就安装了声纹识别侦听模块。这一声纹识别系统功能强人,只要被侦察者通过无线电进行对话,该系统便能查明通话者的身份,尤其是高层领导者的身份。美军正是靠着这套功能强大的系统,掌握了其他国家大量绝密情报。五角大楼曾专门邀请语言学家,对被侦察国家的语言进行了全面深入的研究,开发出了一套独特的电子监听系统,只要美军截获到对方的通话,这套系统能立即识别出通话者的身份,从而判断出从中掌握到的情报的价值到底有多大。当截获到对方通话后,监听系统能自动删除杂音,通过与声音数据库相对照,准确识别出通话者身份。

另一方面,装备指纹识别系统,配合语音识别技术来查找国内隐藏的。目前,美国为每个美国人设计一张装在计算机芯片的监视识别卡,用于记录居民的情况。当有人使用这种卡时,就会在机场安检系统计算机里留下记录。这些卡片可以与指纹或者在今后几年的时间里与面部的特征协调起来,并被编成程序允许或禁止某人进入机场。在机场,使用驾驶舱门和行李箱搜索新技术,对机场休息室进行扫描,并对照数据库中可疑的检查旅客的外表形象。此外,使用一种专门照相机,可测出人体面部60~120种不同的变化,即使有人刮掉胡子或轻微整形登机,也难逃其锐利的“法眼”。再者,使用通过查验旅客的指纹和视网膜技术,以便能揪出。由于人的视网膜具有同指纹一样的特性,每个人的视网膜绝不相同,因而任何在册的可疑分子都无法逃过检查。采取护照加指纹措施,把流窜于世界各国的经常改名换姓的逮住。在接受检查时,护照与指纹同时证明持有者身份才有效。这样,即使罪犯改头换面也可辨认出真假。

在军事计算机系统和核心要害部位的封闭管理中,应用声纹识别技术进行身份认证,具有很高的精确度,可进一步增加系统的安全性。一些应用了声纹识别技术的新型计算机安全产品,可以在普通的USB加密钥匙基础上,增加声纹认证功能,并对计算机系统进行加密,保护计算机系统中的重要文件不被非法窃取、浏览、篡改、删除或破坏。在一些军事要地的核心部位,应用语音识别技术实施门禁管理,可以有效辨识合法进出者。保密管理系统根据输入的自然语音信号,进行声纹身份认证,并自动开启或闭合门禁设施。

应用声纹识别技术,可以对发出命令者进行身份确认,避免出现敌方利用我方信道伪装我指挥员发出假命令,干扰我方军事行动的情况。由于在计算机信息处理中,录音的过程要经过模拟到数字的信号转换,放音的过程还要经过数字到模拟的信号转换,因此,即使窃密者使用录音设备录下合法用户的声音进行声纹身份认证,经过从模拟到数字、再从数字到模拟的两次信号转换,声音频谱会有明显衰减和失真,这种失真很容易被认证程序分辩出来。所以,依靠录音登录也不能通过声纹认证。适当调节声纹认证严格程度的阈值,声纹认证的“错误接受率”和“错误拒绝率”可以有所下降。