HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 语音识别技术

语音识别技术

时间:2022-03-30 13:23:18

语音识别技术

第1篇

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

abstract:this text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

keywords:speech identification;character pick-up;mode matching;model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(lp)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于lp技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

mel参数和基于感知线性预测(plp)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(dtw)、隐马尔可夫模型(hmm)和人工神经元 网络 (ann)。

dtw是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被hmm模型和ann替代。

hmm模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的markor链,另一个是与markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽markor链的转移概率描述。模型参数包括hmm拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,hmm模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称dhmm)和连续隐马尔可夫模型(采用连续概率密度函数,简称chmm)以及半连续隐马尔可夫模型(schmm,集dhmm和chmm特点)。一般来讲,在训练数据足够的,chmm优于dhmm和schmm。hmm模型的训练和识别都已研究出有效的算法,并不断被完善,以增强hmm模型的鲁棒性。

人工神经元 网络 在语音识别中的应用是现在研究的又一热点。ann本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是hmm模型不具备的,但ann又不个有hmm模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

第2篇

论文摘要 近20年来,随着信息技术的不断发展,语音识别技术也逐步的发展成熟。语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。本文就对语音技术的发展及趋势作了简单的阐述。  

 

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。 

1 语音技术的发展历史 

50年代,研究人员多数致力于声学和语音学的基本概念。1952年,在at& t bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956年,rca lab 开展了另外一项独立研究,试图识别单一发音的10个不同的音节,同样采用了度量共振峰的方法。1959年,英国university college的研究人员开始尝试另外一种思路,用谱分析和模板匹配方法构建音素识别器,用来识别4个元音和9个辅音。60年代,相继出现并发表了语音识别的几个重要的思想。1962年,东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分,并进行识别。1963年,日本nec lab对数字进行语音识别的尝试可以算得上最值得注意的工作,因为它不仅是nec研究语音识别的开端,还导致一个长期的和卓有成效的研究计划。在60年代中,3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在rca lab开始于60年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上,发展了一套时间归正的基本方法。 

2 语音识别技术的发展现状 

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以ibm via voice和dragon dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。 

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。 

目前,at&t和mit等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。 

3 语音识别技术发展趋势 

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面: 

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。 

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。 

 3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。 

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径,其推广程这取决于语音识别技术本身进步的程度,同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以大幅度降低产品成本和体积,产品必然受到消费者的青睐,语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。 

 21世纪是信息和网络的时代,internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。 

 

参考文献 

第3篇

语音识别技术的应用

与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别.我们最容易想到的还要数不会讲笑话的Siri。

作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice.各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了201 5CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。

在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景.诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。

随着互联网技术的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。

如今国内也有了相应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

从打字到语音的习惯改变

随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

腾讯、百度都建立了自己的语音团队,在移动搜索领域发力 随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”

今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。

第4篇

关键词:语音识别技术;内容监管;应用

中图分类号:TN912.34 文献标识码:A 文章编号:1671-2064(2017)08-0020-01

随着广播电视管理的不断完善,对电视节目内容的监管也越来越严格,对音频搜索等技术的需求也在逐渐增加。但是,音频搜索技术还有很多难题尚未解决,如中文分词瓶颈、第三方数据存储量限制、数据处理分析瓶颈和音频识别准确度等等,这样在应用时会出现很多问题,相关部门需加大研发力度,让音频识别技术更加完善和规范。

1 语音识别关键技术介绍

1.1 语音模型自适应技术

因为环境、人的性别和口音等因素的干扰,语音数据会产生较大变化,在特殊条件下的训练无法推广应用,而自适应就可以根据测试数据进行调整避免误判。在变换的自适应中,采用相同的变换更新参数,当自适应模型参数确定后,就可以用少量自适应数据变换方程,利用变换方程来重新估计模型参数[1]。一般来说,变换方程的数目小于目标模型参数,所以使用少量自适应数据就可以估计出变换方程。但是变换方程并不能探测出单个模型的特征,其渐进性较差,无法估计特征相近人模型。

1.2 说话人识别技术

说话人识别也被称为声纹识别,通过语音信号来识别说话人的身份。说话人识别主要分为两类,即开集识别和闭集识别,两者主要通过是否需要拒识来区别。开集识别更具普遍性,相比闭集识别技术更难。比如说,我们同时监听多个人说话,开集识别需要在多个说话人中找到指定的说话人。开集说话有两大缺陷:虚警错误和漏报错误,两者之间互相制约互相影响。在应用过程中,可调整识别模块更倾向于少虚警错误或漏报错误。研究中会通过等错误率去判断说话人识别系统的性能是否达标,如果虚警错误率和漏报错误率相等就是等错误率[2]。等错误率会受到测试语音长短、样本语音信道匹配度和说话人语音长短等因素的影响,如果说话人语音越长,测试语音也就越长,两者的差异也就越小,等错误率也会相应降低。

1.3 P键词识别技术

关键词识别技术分为单阶段系统和两阶段系统两大类,单阶段系统识别主要是在关键词系统中进行识别,当关键词出现变化,系统就要重新识别。两阶段系统是将一般意义的连续语音转换为文本,然后借助文本匹配途径找到关键词。这种系统比较灵活,可以随时变换关键词,是目前使用最多的关键词识别技术。通过语音关键词检测特定内容具有两个优势:首先是准确率更高,其次是关键词会多次出现。这样在内容监管中就可以允许出现漏检错误,不必每次都准确地识别关键词。

2 语音识别技术的具体应用

2.1 音频模板匹配技术

在已知节目片头曲的条件下,可以使用音频模板匹配技术进行自动打点和分割。因为受到音频压缩和信号传输的影响,导致模板之间存在差异,就可以通过提取多频带能量相对比率,利用各个频带能量分布趋势稳定的特点,就可以解决音频信号扭曲造成的不稳定问题。

2.2 音频切分和分类技术

在处理广播电视音频信息的时候,例如语音识别和检测关键词,需要先对广播电视的音频进行切分,一般都会采用静音检测法来切分,这样可以准确定位,为音频分类工作奠定了基础。对切分的音频片段进行分类,需要根据音频类型采取不同的处理方法。非静音主要分为语音和非语音两类,而语音又分为纯语音和非纯语音,非语音分为音乐和环境音。

2.3 自动发现技术

将广告识别作为案例,利用音频检测获取新广告:首先是针对未知节目和广告而设计,因此需要去除已知模板,这样可以减少计算量。接着是利用音频向量的快速搜索算法确定重复片段的预留位置,因为音频向量都是通过音频段的信息展开检索,就会出现音频字分布相同、但排列不同的音频片段,也会有一些错误片段,所以需要筛选过滤一遍。最后是利用音频指纹搜索找出音频向量模型的重复片段。因为音频指纹检索技术是利用音频帧的排列信息开展工作,所以准确度更高,可以检测出误报片段。完成上述步骤以后,就可以通过图像帧变化率来区分非广告的重复部分。因为广告的播出费用是按照播放时间来定的,所以广告商需要在有限的时间内向观众传递更多的信息,所以视频帧的变化率就比较大,而电视剧的变化率较小,这样就可以去除重播的非广告类节目[3]。

3 结语

随着科学技术的不断发展,语音识别技术的应用范围也越来越广,识别的准确度也在不断提高。广播电视对语音监管的要求也在提高,语音识别技术必须达到要求,这样不仅可以提高节目的搜索速度,对关键内容进行快速定位,还可以减轻工作人员的工作压力,提升监管水平。

参考文献

[1]陈彪,丁鹏.一种基于语音关键词识别的广播电视内容监测系统[J].广播与电视技术,2015,26(12):31-32.

第5篇

在信息化社会里,采用先进的技术与手段进行信息的采集、处理、传播是出版业发展的必然, 也是信息化社会对编辑工作者的要求[1]。随着现代科技的迅速发展,编辑出版工作的运行方式正在发生变化,表现为管理的现代化和手段的现代化。作为期刊编辑必须适应这个变化,将科学的方法和先进的技术手段有机地结合起来,紧跟时代潮流,促进期刊编辑工作现代化。

语音识别技术是机器通过对语音信号的识别和理解过程将语音信号转变为相应的文本或命令的技术,是信息技术领域十大重要的新技术之一,其应用已经成为一个具有竞争性的新兴高技术

产业[2]。

科技期刊的编辑出版对语音识别技术的运用,主要是指采用先进的语音识别应用设备、软件和操作平台,对期刊信息进行采集、处理、存储和传播,实现便捷、高效的期刊编辑出版。语音识别技术的应用可使编辑甩掉键盘,通过语音命令对机器进行操作,让编辑记者从事务性劳动中解放出来,将更多的时间精力用于创造性劳动中,更好地从事编辑活动,达到编辑工作的目标[3]。

一、语音识别技术在编辑检索中的应用

在网络时代,作为一个期刊编辑,需要随时了解行业动态,把关出版内容,审核信息真实性,根据编辑规范对文章进行加工制作,这一切都离不开对信息、资料、标准的查询检索。互联网搜索引擎,如百度、谷歌等,是目前人们最为常用的一种网络检索工具,编辑记者无时无刻不在使用。通过手写或键盘输入关键字的检索方式,虽然比传统的纸质书报刊查阅有了质的飞跃,但也非尽善尽美:一是不能满足国际上通行的“普遍服务”要求,例如文盲、肢体残障人和老年人无法使用。二是搜索服务精准率不高,搜索引擎提供的结果众多,包含大量广告和无用信息,要找出所需要的知识还需要一条一条打开链接再搜寻。三是音视频搜索存在许多盲点无法检索,例如在数字出版中要搜索电视剧某一片段仍很困难。

通过语音识别技术,可以有效解决这些问题。例如,期刊编辑需要查找某些内容,可以运用iphone4s智能手机搭载的“siri”的来完成。其先在设置里把siri打开,然后按home键唤出siri,再点一下界面上的话筒,siri开始聆听。语音输入完成,siri就开始识别并且作出回应。因为跳过了谷歌、百度的所有步骤,从而免去了打开链接再收寻的烦恼,而且回答以自然语言的形式呈现,准确度高,可帮助编辑大大提高搜索效率。

又如,编辑需要一段乒乓球比赛的视频,利用“中文电视广播新闻节目识别系统”,编辑只要说出“侧身抢拉”、“前三板”等词,系统就可以找到精确到秒的视频片段。同样,如果想找一部电影的片段,只需记得其中的经典台词,对着系统说出即可精准搜索。编辑需要查找某首歌曲,可以利用哼唱搜索引擎——midomi,对着麦克风哼唱某段旋律,便可轻松找到想要的歌曲,它甚至可以自动纠正哼唱者曲调的错误。

语音识别技术应用于搜索引擎中,可为期刊编辑工作提供精准、方便、快捷的技术手段,并为所有能发音说话的人提供互联网服务。对下一代搜索引擎来说,语音搜索是未来发展方向。

二、语音识别技术在采访中的应用

采访是编辑记者同采访对象进行语言交流的动态过程。目前,媒体的采访工作受到两大问题困扰:一是访谈采用笔录、摄影及录音、录像等形式,采访结束后,需要将上述素材整理成文字资料,这是一个费时费力的苦差事;二是许多采访活动会涉及与非母语的外国人士交谈,由于语言不通,不利于交流,影响采访的展开。为解除这两大困扰,科研人员经过长期的努力,提出了许多有效的解决方案,其研究成果也已应用于实际。

利用谷歌的在线文本翻译器,编辑记者在采访过程中,可以使用母语对设备讲话,设备随后将编辑记者的声音转化成被采访者所希望的语言,并以人造合成声音的方式输出;受访者也可以使用母语与编辑记者对话,该设备会将受访者的语言转化成编辑记者的母语,从而保证了编辑记者与外国人的畅通交流。iphone4s智能手机应用lingual后,会将用户的讲话显示在iphone屏幕上,可供选择的语言达30种。由bbn公司开发的翻译设备transtalk,也允许使用不同语言的人进行双向对话。

我们可以设想一下这一“语音控制时代 ”的采访和写作,一旦采访者与被采访者的灵思闪现,只需要拿出自己的智能设备,对其发出指令,随意念出所思所想,便将成为媒体选用的作品。

三、语音识别技术在文件输入中的应用

电脑的诞生给传统的纸笔书写带本文由收集整理来了新的技术革命,较之传统的手写方式,电脑书写拥有不可比拟的优势。但是,要掌握一种输入法并熟练操作不是一件容易的事,电脑打字也并非适合所有人群;而且长时间坐在电脑面前操作,容易造成对眼睛的伤害,电磁辐射时刻威胁着人们的健康;工作的繁忙与灵感的转瞬即逝,也对文字输入效率提出了更高要求。语言是人类最简单、最快捷、最方便、最自然的思想表达方式,也是人类思维的工具[4],人们一直都企盼着通过语音操控机器为人类服务的时代到来,事实上,这个时代已经来到了我们身边。

期刊编辑可以运用windows7的语音识别系统,对着计算机朗读文本,由计算机自动生成常用格式的文字用以编辑写作;可以创建文本文档,也可在文档中进行修改或更正错误。如果计算机识别有误,可以说“更正”,接着说出错误的字词,系统会及时作出修正。除了打字外,编辑还可以利用该语音识别程序中的16个常用命令、9项常用控件命令、31项文本处理命令、15项窗口命令、5个点击屏幕任意位置命令,以及另外的几组键盘命令,用语音对计算机进行操作。

转贴于

编辑更可以利用讯飞口讯这一基于“云计算”方式实现的手机听写软件,在实现语音文字输入的同时,将文字通过短信、邮件进行发送。这些信息甚至可以发送到新浪微博、腾讯微博和开心网供大家分享。该系统还能根据发音断句自动添加标点符号,极大提升了编辑的文字输入效率。如果编辑需要将某段广播电视节目中的语言变为文字加以利用,就可以使用“中文电视广播新闻节目识别系统”,让系统“收听”一段广播电视节目(如新闻联播节目),系统会自动将节目中的语音内容生成文字。还有一种翻译摘录笔也非常适合编辑记者要求,它采用图像识别技术,可快速将书刊中的内容扫入“笔”中,供编辑随时查阅、修改。它能存储300万汉字,并可以快速传输到电脑、手机、掌上电脑等设备中,比手写快几十倍。

利用语音识别和图像识别技术,能够高效快捷地输入输出文字,可以提高电脑的使用效率,把编辑的双手从鼠标键盘上解放出来,让编辑将更多的时间放在策划等有创造性的工作上,这是提高期刊编辑质量的一个有效方法。

四、语音识别技术在文字校对中的应用

校对是期刊编辑出版过程中的一个重要环节,其任务是根据原稿订正排印或缮写的错误。编辑加工除改错外还有补漏、删繁、润色、升华等,编辑质量的高低体现在原稿上留错的多少,而校对工作的质量则体现在出版物上留错的多少。编辑工作的疏漏,可由校对工作来弥补和完善,但校对工作的失检则无可挽回地成为出版物中的差错[5]。

文字的人工校对辛苦且枯燥,稍不注意就会出现漏校和错校,即使经过三校也难免遗漏。采用语音识别技术,可极大提高工作效率,减少错误率。例如,编辑可以使用即时语音校对软件instalk来开展校对工作。当编辑打开一个word文档输入汉字、数字和英文字母时,计算机附带的喇叭会跟随录入的字符即时发出相应的汉语普通话语音,通过语音的提示,编辑便可知道字符是否输错。这一功能对使用五笔或其他形码的编辑而言更显得意义重大,很多常犯的和稀奇古怪、莫名其妙的错误都可以在输入过程中避免。文档输入完后,编辑还可以让电脑朗读全文帮助校对文字。

需要编辑注意的是,虽然语音识别软件提供了快捷的校对手段,但其智能化程度目前还不是很高,对如语法、句子结构、词语搭配、专业术语、政治问题、领导人职务及排序、涉台问题以及目录、序号、科技计量、标点等错误,还不能有效检测校对,因此必须配合其他手段加以完善。黑马校对系统就是一个非常好的选择,黑马校对软件包含七十多个专业库,支持各种排版软件。目前国内已有95%以上的出版社、近万家的报刊、印刷企业、文化公司和机关办公等单位和个人正在使用黑马校对平台。将语音识别软件与黑马软件相配合,不仅可以大大提高工作效率,减少人工劳动强度,而且校对速度快、质量高。

五、语音识别技术在刊社管理中的应用

1. 过期期刊收藏检索。过期期刊记载着刊社发展历史,是刊社宝贵的内容资源,也是编辑经常查阅信息的“数据库”。使过期期刊的收藏与管理逐步向标准化、现代化方向发展,是过期期刊管理工作的基本要求和发展趋势。编辑运用微软的语音识别开发平台sapi,只需说出想检索的内容,系统就会自动识别语音,返回检索结果,显示馆藏书刊、借阅情况等信息[6]。

2. 语言培训。编辑如需进行语音方面的训练(如英语发音、普通话发音等),运用语音识别软件(如思必驰公司开发的口语在线学习平台——声动之芯),只需对着麦克风读出需要练习的字、词、句,系统就会自动打分并实时地把得分、发音纠正等评测信息反馈出来。整个学习过程摆脱了老师和课堂的限制,只要有电脑和网络,学习者就能随时进行口语练习评测。

3. 办公室管理。利用手机或其他手持电子终端,通过语音识别软件可以远程控制办公室的电器设备(如电脑、空调、电视机、vcd、电扇、窗帘)。通过语音识别设备还可以取代人工接线员,实现电话自动转接服务,如中科信利智能总机系统tids(即“电脑接线员”),用户只需说出所要找的人名, 该系统就会用语音识别技术识别出用户想要找的人,将电话转接到相应的电话分机,它特别适合于装有集团电话的期刊、图书出版社。运用语音识别技术还可以代替会议活动的速录,用于刊社车辆管理[7],单位的防火防盗,以及员工考勤等诸多方面。

语音识别技术发展到今天,其应用系统对中小词汇量以及非特定人语音识别精度已经大于98%,对特定人语音识别精度则更高。但是对连续、大词汇量和非特定人的语音识别要达到更高精度,还有较长的一段路要走;在任何环境下都能实现人机自由对话,其难度会更大,这不仅需要基础理论的突破,更需要大量真实用户数据积累后的系统自动学习和演进。

第6篇

关键词:语音识别;噪音监测;智能语音预警

中图分类号:TP18文献标识码:A文章编号:1009-3044(2011)23-5722-02

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。

监狱是关押、改造犯人的场所,是重要的国家机器之一。监狱的安全防范工作关系着社会的稳定、国家的安宁。特别是在“构建和谐社会”的大环境下,构建好监狱的安全防范体系就显得格外重要。近年来,国家司法部大力提倡科技强警和监狱信息化,监狱安防作为其中的核心部分,受到了高度重视,全国各大监狱都在积极筹建现代化安防系统,“向科技要警力”已经成为一种趋势。

目前国内监狱安防系统主要还是以视频监控为主,再附带一些安防报警装置,通过安防设备之间的联动处理使得监狱达到一个高效的安防等级。但是安防系统很多业务大多时候只能用于事后处理和取证,无法起到预防、预警的作用。不过,随着语音识别技术研究的突破,以语音识别技术开发出的产品应用非常广泛,在安防系统中加入依靠语音技术开发出的智能语音预警功能将使安防系统的满足更多的要求,而且该技术国外一些监狱已经成功采用。

1 语音识别技术简介

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

2 语音识别技术的实现方法

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。其中模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。

一个完整的基于统计的语音识别系统一般由语音信号预处理与特征提取,声学模型与模式识别,语言模型与语音处理3部分组成. 4 总体上说,语音识别就是一个模式识别和匹配的过程,首先计算机必须根据人的语音特点来建立语音特征模型或字典库;然后对获取的语音输入信号经过噪声去除和端点检测等预处理后进行特征分析和提取,建立所需识别的语音信号模板;再采用模式识别理论和技术,将计算机中已经存在的语音模板特征与输入的语音信号特征进行比较,并根据一定的搜索和模式匹配的策略从语音特征库中找出最优的语音模版与输入语音进行匹配处理;最后通过查表或判别算法来给出识别结果.目前语音识别主要集中在特定人和非特定人语音识别、孤立词和连续语音识别、小词汇量和大词汇量的语音识别方面.其语音识别系统结构如图1所示。

常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

3 语音识别在监狱安防中的应用

在监狱安防系统中使用好语言识别技术能够在预警方面发挥作用。而且,笔者参与过的监狱安防项目中也采用了这一技术来实现噪音预警功能。噪音预警功能能够识别采集到的声音对群殴、哄监等异常事件做到事先预警的作用。

噪音预警是语音识别应用中相对容易实现的部分,技术难度不大,目前我们在监狱安防中应用的噪音预警功能是通过硬件支持和软件分析两部分来实现。硬件支持指的是拾音器设备,也就是音量采集设备,它将采集到的声源不间断的发给软件进行分析;软件分析指的是将硬件设备采集到的声源进行音量、音色、音调三个方面的分析。具体实现的思想如下:

1)通过识别音量的大小,我们可以对监舍以及一些公共场所进行噪音监测,当音量大小超过正常秩序下设定的音量值,就发出预警报警信息,相关摄像头也会自动切换到该区域,可以有效预防犯人大声吵架而可能引起的打架斗殴事件。

2)通过对玻璃破碎声、物品撞击声、洗漱器具与地面撞击声、餐饮器具与地面撞击声等的音色和音调进行分析,提取可识别的特征,当语音识别系统识别出与该特征相似的声音时,就发出预警报警信息,相关摄像头也会自动切换到该区域,可以有效预防犯人自杀、斗殴等事件的发生。

3)通过音调的快速变化可以识别(突然变高、突然变快),可以预测干警或者犯人遇到紧急情况。

4)通过敏感词汇(如逃跑、越狱、翻墙、挖地道等)音调的特征提取可以识别某一区域的人在讨论敏感信息发掘罪犯密谋信息,还可以加入多种方言音调特征,避免一些用方言密谋犯罪行为的遗漏。

5)通过声音特征和位置的特性,设计专门针对某一特殊点的的语音识别方式,在声音预警报警中往往能够发出意想不到的作用。如:禁闭室里采集到低频率的“砰砰”声,可能是犯人在撞墙;值班室里采集到闷哼声,可能是值班干警被不法分子捆绑并堵住嘴巴;监舍里采集到呼喊声,可能是发生斗殴事件;房间里采集到砸碎玻璃的声音,可能是犯人拿碎玻璃片自杀或者行凶等。

针对上述识别思想设计专门的音色模型库,通过拾音器设备采集到语音信号,再进行处理,然后提取该声音的特征与音色模型库里的声音进行比较,如果特征和音色模型库里的一种或多种音色模型相符,则发生预警信号;否则,拾音器将会继续采集。噪音预警分析流程如图2所示。

4 语音识别在监狱安防领域的发展方向

通过语音/噪音识别技术的介绍,可以发现语音识别技术在监狱安防中可以有更大的作为。如语音验证、智能语音识别预警等方面的实现与应用都会给监狱安防带来新的突破。

门禁语音识别验证:在门禁系统中加入语音验证模块,配合目前安防领域内的视网膜门禁、指纹识别门禁等一并使用,增加门禁的验证环节,大大提高了门禁系统的安防等级。

智能语音识别预警:只要建立强大的语音模型库,对一些紧急情况下的语音进行研究,收集大量的求救、呼喊类语音模型,尤其是对说话内容进行分析,只要采集到的声音文件经过分析后与语言模型库中的声音相符合就会立即发出预警信号提示值班干警通过视频查看现场状况。

5 结束语

语音识别技术发展到今天,语音识别系统的识别精度在不断提高,这些技术已经能够满足通常应用的要求。随着噪音环境下的语音识别技术、语言模型和声学模型的建立的进一步突破,使得语音识别技术的应用范围更广、识别精度更高,使得音色模型库更加丰富全面,从而为监狱安防中的语音预警功能提供了强有力的支持,相信不久的将来智能语音识别预警功能的定会被广泛使用,成为监狱安防系统“技防”中不可或缺的重要组成部分。

参考文献:

[1] 胡光锐.语音处理与识别[M].上海:上海科学技术文献出版社,1994.

[2] 赵立.语音信号处理[M].北京:机械工业出版社,2003.

[3] 拉宾纳 L,Rabiner Lawrence,阮平望,等.语音识别基本原理[M].北京:清华大学出版社,1999.

[4] 詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008.

第7篇

【关键词】语音识别 模式识别 过程 统功能

1、语音识别技术原理简介

1.1语音识别技术的概念

语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

1.2语音识别的系统组成

语音识别系统构建过程整体上包括两大部分:训练和识别。

1.2.1训练

训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。

1.2.2识别

识别过程通常是在线完成的,对用户实时的语音进行自动识别,可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代,世界各国就开始了对这项技术孜孜不倦的研究,特别是最近二十年,国内外非常多的研究机构和企业都加入到语音识别技术的研究领域,投入了极大的努力,也取得了丰硕的成果,但是直到今天,距离该技术得到完美解决还存在着巨大的差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。

如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。

2、语音识别系统技术实现

语音识别系统选择识别基元的要求是:有准确的定义,能得到足够数据进行训练,具有一般性。系统所需的训练数据大小与模型复杂度有关,模型设计得过于复杂以至于超出了所提供的训练数据的能力,会造成系统性能的急剧下降。

2.1听写机

2.1.1概念

大词汇量、非特定人、连续语音识别系统通常称为听写机。

2.1.2基本架构

听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个基元用前向后向算法获得模型参数,识别时将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。

2.1.3对话系统

用于实现人机口语对话的系统称为对话系统。目前,受技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。基于目前的系统往往词汇量有限的情况,也可以用提取关键词的方法来获取语义信息。

3、语音识别系统特性

语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类:针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。

4、语音识别的应用

语音识别专用芯片的应用领域,主要包括以下几个方面:

4.1电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

4.2汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。

4.3工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

4.4个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。

4.5智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。

4.6家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。

参考文献:

第8篇

如同人与人之间的相互对话那样,用语音对设备、机械等发出控制命令和信息,这不仅对于从事计算机的工作者,而且对于普通的人们,也曾是一个令人神往的梦想。近些年来,由于集成电路技术、数字信号处理技术和图形识别等技术的不断取得进展,语音识别技术也在长足地向前发展。如今,以声音为输入信号的自动控制系统已在不少场合开始得到应用。

【关键词】特点 方法 现状 应用

1 语音识别的优点和方法

直接用语音作为输入控制信号方法具有许多优点:对人来说,作为最自然的输入控制信号的手段,不必进行特殊的训练;信息的产生速度较快,一般为键盘输入方法的2~4倍;操作者在用眼和手共同进行其它作业的同时能输入信息;操作者能边走动边输入信息;能远距离用电话输入;可以省略键盘、发光字母读出器等中间输入设备;即使在某些紧急的场合,也能在转瞬之间投入使用。

说明语音识别的方法,应首先从语音的分析谈起。语音大体上包含着两种信息:即具有一定含义的信息和发音者固有的信息。前者的识别处理称为:“狭义声音识别”,而后者的识别处理则叫作“发言人辨认”。

在声音频谱中,能量集中的频带称为共振峰。共振峰频率随着发音者性别及其他条件的不同而变化。分析输入的语音,找出其特征是语音识别的第一步。

识别输入的语言是语音识别的下一步。对此在“单词识别”和“单音识别”两种方式。前者是在识别装置内设有以单词为单位的模拟型词汇标准,进而选出与输入语音最类似模式的方式。后者的方式是在识别装置内设有以此单词低次的单音、音节为单位的模拟型标准,将输入的语音按单音的不同进行变换,再进行单词的识别。

单词(单间)与单词(单音)之间是否有间隔,这是语音识别技术要考虑的一个重要问题。“离散话音”指的是在单词间有200毫秒左右时间间隔的输入方法。还有所谓“连续会话”方式,其作为识别对象的是多个单词连续一气讲出的语句,相应的识别处理将较复杂一些。

另外,讲话人是否受到限制的问题,对语音识别装置来说,在技术上和造价方面都是必须考虑的。所谓“特别指定说话人”识别,就是将识别对象的全部单词,经数次练习预先进行话音输入,使之在装置中存储发音人个人所特有的单词模式,使用时将输入的语音与比单词模式进行比较而加以识别的方式。这种方式以比较简单的识别处理就能得到较高的识别率。还有“可更换发音人”的识别方式,它是预先用多人的语音信号瞬时值作成标准模式,这样在更换了发音人、口音有所差异的情况下,识别装置也能进行正确的识别。

语音识别的最高发展阶段是识别人们以普通速度讲的会话语言。众所周知,一般人的会话中包含着无意义用语(口头语),因此要一字一句地准确识别人的普通会话语言是极难的。作为解决方法,产生了被称之为“语音理解”的新概念:就是将输入的语音中所包含的冗余信息(方言、单调等)进行引用,作为理解输入信息内容的近似方法,而不要求一定将输入语音逐一正确地加以识别,这是与其它的语音识别方式根本不同的。采用此种识别方式的语音识别装置作文章理解系统,它在声音打字机和口语自动翻译等方面可得广泛的应用。

2 语音识别技术的现状

按功能分类,语音识别装置有数据输入型、自然口语输入型和发音人辨认三种。

2.1 数据输入型

语音识别装置首先在美国开始实用并最早出现商用产品的,现在实用的语音识别主要采用的还是对专人的并基于以单词为单位的离散信息的识别方式,识别率达99%以上,适用于识别语句较少而且在较肃静的室内场合使用。作为一般用户为对象的(例如:旅客问询)系统,则要求使用“可更换发音人”方式的语音识别装置。

2.2 自然口语输入型

对于自然口语输入型的语音识别,美国国防部作为ARPA计划,进行了大量的研究工作。在日本也以电子技术综合研究所为中心,作为图形识别研究大型计划的一环进行了研究。目前已有声音打字机那样的应用。

2.3 发音人辨认

“发音人辨认”是语音识别最完善的方式。由于不同的发音人在发同一语音时,可以产生有显著差别的声学图案,这种差别便体现了个人的特征。人的听觉区别个人特征的能力是很强的。目前用电子设备辨认发音人常用的简便方法是:检出语音基频随时间变化的图形作为辨认的依据。它的应用前景是相当广泛的,比如用存储某人的语音代替签字(有人称之为“声纹”)进而利用电话等实现远距离的身分确认将成可能。

3 语音识别在铁路系统的应用

语音识别装置按应用分类:有控制、指令型,利用电话(包括无线电话)型,OA(事务自动化)应用型和“发音人辨认”型等。

3.1 有控制、指令型

在控制、指令型的应用方面,采用“专人”语音识别装置可以进行选排调车进路、调车机车的无人驾驶、行包自动分拣等;采用“可更换发音人”的语音识别装置可以实现自动售票、行包受理和列车紧急停车等。

3.2 利用电话(包括无线电话)型

在利用电话型的应用方面,采用“专人”语音识别装置可以进行在危险处所工作的机械操作(高空作业等)、火车司机的模拟训练和列车到发时刻通知等;采用“可更换发音人”的语音识别装置可应用于指定票(指定乘车日期和车次的车票)发售情况的问询和预约及列车运行情况问询。

3.3 OA(事务自动化)应用型和“发音人辨认”型

在OA型应用方面,适用于编制口述程序、语音打字机、图书及文献的检索等。

例如在车站上的调车作业中,以往是按照作为高度作业指挥者的调车员的指示,由扳道员(电气集中车站是由信号楼的信号员)扳道岔来办理进路的。若将站内联络用的无线通信设备附加选路用的语音装置,则可由调车员在站内任意地点直接指挥进行调车作业。

再比如利用主意控制的电磁客票预售自动化系统,在国外也已使用。这样在一些预定将来也不设置“绿色窗口”(售票窗口)的沿线小站上,可通过联机的形式向旅客发售指定票。站务员按旅客的要求,只要用电话以语音输入的方式向售票中心站申请发售指定票,当得到由中心站发出的确有该指定票座席的话音应答之后,站务员即可向旅客发售指定票。

语音识别技术作为一门成熟的技术,已进入实用化阶段,应用范围也越来越来广泛,随着电子技术的飞速发展,它的技术将越来越成熟,应用领域也将不断地扩大,从而更好的服务于各行各业。

参考文献

[1]高新涛.语音识别技术的发展现状及应用前景[J].甘肃科技纵横,2007.

[2]马志欣.语音识别技术综述[J].昌吉学院学报,2006.

第9篇

从几年前苹果Siri将语音迅速升温推至消费者面前,到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配,从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎,智能语音产业似乎已经迎来生机盎然的春天。语音一时间成为舆论的焦点:“语音将彻底替代鼠标、键盘”,“语音将成为移动互联网主流信息入口”,“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。

但一个技术从萌芽期开始不断发展,要酝酿多久会到爆发期?智能语音产业是真的到爆发期了还是被提前过度炒作了?智能语音产业现状和未来发展方向如何?中国智能语音企业又该如何选择适合自己的成长路径?带着这些疑问,本报记者先后采访多位智能语音专家,力求探知一二。

莫错失赶超良机

智能语音是新一代的人机交互技术手段之一。就像人与人之间对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节,完成让机器听懂人说话,再让机器说人话的过程。这种交互需要基于海量的语料库,通过模型实现语音识别和语义理解,包括对语法、分词、情景、甚至是情绪等的理解,再通过知识库系统找到答案,然后通过语音合成技术说出答案,来回交互。”在接受记者采访时,中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。

人机智能语音交互,说着容易做起来难。从20世纪50年代,AT&T开发出第一个语音识别系统Audry;到20世纪80年代,智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路;再到21世纪初,智能语音从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;一直到近期以苹果SiRi为重要引爆点,智能语音应用才开始向移动互联网等新兴领域延伸,智能语音产业进而不断积累、发展。

智能语音技术是人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科,研究周期长。投入成本大,技术壁垒高。全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。

在国际市场,既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头,也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。在国内市场,李德升告诉记者,目前我国语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞(中国科技大学)、捷通华声(清华大学、中科院声学所、北京大学)、中科模识(中科院自动化所)、中科信利(中科院声学所)等;第二类是互联网厂商,包括百度、腾讯、搜狗等,他们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,他们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。

近几年来,移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术的有力推进,智能家电、汽车电子、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。

这一两年来,我国智能语音市场也是风起云涌:2012年8月中国移动以13.6亿元战略投资科大讯飞,科大讯飞受二级市场机构投资者追捧市值超过200亿元;云知声创立仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年5月,捷通华声宣布来自百度、清华大学战略投资;2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK);同样在这个月腾讯在微信5.0中增加语音输入功能,一出来便风靡大众,微信APP已经成为消费者每天必刷的强大APP之一;直到最近,2014年4月12日,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月29日,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日晚,锤子科技首款智能手机Smartisan T1,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。

“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。产业变革是以技术为先导的。在PC/互联网时代,我国技术企业在计算机技术尤其是操作系统等方面,因为起步晚,所以赶超微软、谷歌等国际技术公司可能比较难,但在智能交互这个技术领域,相对而言,目前中西方起步差不多,如果我们能把握好现在的机会,好好练内功,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”北京捷通华声语音技术有点公司(简称捷通华声)董事长张连毅这样告诉记者。

与张连毅持相同观点的还有科大讯飞信息科技股份有限公司(简称科大讯飞)副总裁江涛和北京云知声信息技术有限公司(简称云知声)CEO黄伟。在他们看来,智能语音是难得的一次产业良机,错过语音,中国技术企业很难再有机会赶超国际了。

磨一根针破一片天

“做语音是需要慢慢熬的。”这话记者不止在一个被采访人口中听到。

1989年从清华大学毕业任职紫光推进OCR(图像扫描识别),中间赴美,2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。在他看来,从“入口说”、“门槛说”到“血统说”再到“技术说”,这两年来的语音热其实更多是一种炒作,而这种炒作对行业本身未必有多大好处。“我只认可‘技术说’。因为语音只是交互的方式之一,智能语音就是一门技术,它与应用结合,这项技术就能发挥出巨大价值。而这门技术的特点是厚积薄发,需要慢慢积累,所以这就决定智能语音产业是要用一根针顶破天的专业领域,而不是用一个铁锤砸出一片声势的产业,必须专注、专业,精耕细作,深耕久酿。”

而所谓的积累,在云知声CEO黄伟看来,就是算法、数据和团队经验的积累。他告诉记者,作为创业型公司,“在数据的积累方面,云知声不占优势,我们的优势在于算法。从云知声成立第一天起,我们就用了比对手少一个数量级的数据来训练算法模型,最终达到甚至超越对手产品性能,这个过程我们也积累了丰富而宝贵的团队经验。而现在开放的语音云平台已经让我们有了很多用户数据,我们的数据短板已经得到了弥补。”

黄伟毕业于中国科学技术大学,后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。金融危机期间,摩托将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,2013年年底正式出任公司CEO。黄伟告诉记者,在技术方面云知声先后四次升级语音识别内核,目前识别准确率达96.26%,技术领先,并且可提供中、英、粤多语言识别;在商业化方面,云知声单月签约额突破千万元,合作伙伴超过3200家,云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。

无独有偶,科大讯飞副总裁江涛也同样是语音界的老人。毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老,作为科大讯飞创业团队成员,一直在从事语音技术在通信和互联网方向的应用推广。在江涛看来,语音技术和其他技术一样,都在沿技术成熟曲线不断发展。几年前苹果Siri带动语音走进向上发展阶段,那时整个产业被看好,很多资本投入进来至一个小高潮,而现在是小高潮过后走入技术成熟曲线下行阶段,很多人开始悲观,资本撤离,只有坚持下来的公司能做成。而他判断,带语音走入下一波上行曲线的动力很可能是穿戴设备、智能家居、智能汽车等。

江涛向记者回忆,在上世纪90年代,当时公认语音做得最好是南北二“王”,南“王”就是中国科技大学的王仁华老师,他也是科大讯飞第一任董事长,也是他支持科大讯飞现任董事长刘庆峰创业的;北“王”指的就是清华大学的王作英老师,语音识别和语音合成做得都很不错。

在江涛看来,语音成为人机交互的主要信息入口这是大势所趋,毋庸置疑,只是语音真正价值的实现还有赖于技术的成熟和应用的普及。应用的普及需要慢慢来,引导、教育市场,培养人们的使用习惯在一点点形成,但要推广、普及还是需要过程的。“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪,不知道这人干嘛呢,但现在因为微信的普及,这种行为习惯已经被接受认可。”

而对于技术的成熟,江涛同样认为是需要专注投入、不断积累的。江涛向记者介绍目前的语音识别技术现状,他以环境从嘈杂到安静的程度为横轴,以人说话的配合清晰程度为纵轴,划分四个象限。在第一象限,也就是环境也安静、人说话也清楚的情况下,目前各家语音厂商技术实力差距不大,语音识别率都很高。在第二象限,也就是环境嘈杂、网络不好的情况下,目前科大讯飞做得很不错。噪音大、网络信号时断时续非常影响语音识别效果。“车载语音识别最大的对手就是噪音。2013年8月,奔驰在全球对云技术提供商进行选型的报告中分别按不同时速按照几种情况(包括60、100、140公里/小时)测噪,科大讯飞是唯一在100公里/小时时速上识别率超过90%的厂商。”江涛自豪地介绍。

在第三象限,也就是环境不错、人发音不太配合(最典型的各种口音)的情况下,看的就是对语言种类,尤其是方言的支持程度。云知声实现对粤语、英语的识别支持。科大讯飞除了实现对粤语、英语的识别支持,2014年以来陆续了对河南话、四川话、东北话等方言的识别。江涛透漏今年还会陆续湖南话、山东话、武汉话、合肥话、闽南话的方言识别。除了口音之外,语速、讲话模式等也会对语音识别带来不同挑战,比如演讲与开会的语音识别的识别算法和模型都不一样。“今年年底科大讯飞将推出一个产品实现普通话开会过程中,将语音转变为文字,识别率很高。”江涛透露。而在第四象限,即环境又不好、发音又不好的情况是世界性的难题,很难有谁能攻克。

各展所长开放竞合

随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本土化不断加强,国内语音企业将面临越来越大的竞争压力。相较于Nuance等国际巨头,国内语音企业在研发力量、创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。

对于国内语音企业的发展,作为行业专家李德升在接受记者采访时给出了他的见解和建议。他认为,在传统语音技术厂商中,科大讯飞的实力有目共睹,而捷通华声的语音合成在铁路交通、金融电信等领域也有较高的市场占有率,很多高铁、公交站等的报站语音是捷通华声做的。对于这类厂商,李德升给出的建议是得专注于语音,引入互联网思维,真正做大做强。对于百度、腾讯、搜狗等互联网厂商做语音,李德升认为他们具有最丰富的互联网语音资源,更重要的是他们有技术实力、有用户、有互联网思维,这些厂商最有可能可以和国外竞争者一较高下。而对于第三类语音创业企业,李德升的建议是让他们尽量采取合作方式,与互联网厂商合作,专注于特定行业领域积累实力,既不能小富即安,更不能贪高大上,只要积极进取,踏实经营,还是有非常大的成长空间的。

已于2013年向开发者开放语音生态系统的百度语音在语音领域也备受关注,但百度以采访审批比较难为由拒绝了记者的面访邀约,只文字回复:在深度学习技术的驱动下,百度在各方面都取得了长足的进步,可谓影响深远。语音技术方面,相对错误率降低了25%以上,移动搜索中文语音识别率突破了90%;图像技术方面,人脸识别技术世界领先,同时快速推出了世界上首个全网人脸搜索引擎;在相似图像搜索方面,效果远远超过了国际上搜索引擎同类产品。

“其实,以苹果为代表的软硬件一体化厂商做语音是为了卖硬件产品,互联网厂商大多是从帮助用户搜索的角度做语音,相对于创业型的语音企业,科大讯飞的优势就在于语音的宽度和厚度积累,优势就在于多年来对语音识别、语音合成、语音评测与语义理解各方面立体的投入和研究,目前拥有全方位立体的语音技术产品。”江涛说,在语音推广方面,科大讯飞坚持两条腿走路:一是坚持移动互联网能力开发,一是通信、教育和安全等重点行业推进。移动互联网能力未来会逐步拓展的三驾马车:手机、汽车和智能电视。目前科大讯飞手机语音已经有四亿的用户,每天活跃用户达四千多万。在教育领域,科大讯飞的语音合成、语音评测在广东高考英语口语考试,西部中小学的英语教具和日常教学中已经发挥很大价值;而在安全领域,公安部第一个跟企业合办的部级重点实验室――公安部声纹实验室就设在科大讯飞。

但江涛也坦言,相较于百度等互联网巨头做语音,传统语音技术厂商确实存在一些劣势,“在整个大的开发平台、云存储、位置服务和构建整个生态系统方面,互联网公司确实值得我们多学习。对于讯飞来说,还是要专心做好自己专长,聚焦在语音和语义方面,真正把对开发者的服务做好,基于语音和语义构建生态系统,尝试推广人机交互广告等。”

“互联网巨头要拥有语音这个技术,不被别人卡住喉咙,但他们有自己的主业,不会放太多精力在语音。”张连毅如此判断,“语音技术厂商只要做好自己的技术和产品,以开放合作的心态就能获得良好的发展。”除了夯实智能语音市场,捷通华声更要做的实现是包括智能语音、图像识别(OCR)、生物特征识别在内的全方位的人机智能交互。

第10篇

关键词:声纹识别;生物特征;移动设备

1前言

当今,随着移动设备以及移动互联网的发展,各种生物特征技术逐渐从国防安全领域走入移动互联网领域,比尔・盖茨说:“以人类生物特征(指纹、语音、脸相等)进行身份验证的生物识别技术,在今后数年内将成为IT产业最为重要的技术革命。”

声纹识别技术是身份验证技术-生物特征识别技术的一种,与其他身份验证技术相比,声纹识别更加方便、自然,且具有比较低的用户侵犯性,这是声纹识别技术在应用上的显著优势。另外,语音的采集设备比较简单,获取语音的识别成本低廉,使用简单。现在无处不在的语音通信网络,如固定电话、移动通信和互联网等,语音的获取非常方便,这为声纹识别技术的应用提供了良好的条件。而且声纹识别技术的算法复杂度较低,这也是其他身份验证技术所不可比拟的。

2 声纹识别研究

2.1声纹识别定义

声纹识别,简单来说就是根据语音来自动识别说话人身份的技术。根据实际应用,声纹识别通常可以被划分为两种具体任务,分别为:声纹辨识(Speaker Identification)和声纹确认(Speaker Verification)[4]。

声纹辨识任务的目的是将输入的未标记的语音样本确定为一组已知的说话人中的某一个,是一对多的问题。

声纹确认的目标是确定输入的测试语音中是否存在某一声明的说话人,这是一个一对一的问题,可以被看成是一个判决结果为“True”和“False”的两类判决问题。

声纹识别按照是否受语音内容(文本)的限制又可以分为文本相关声纹识别和文本无关声纹识别。文本相关说话人识别要求说话人提供指定语音的语义内容,可以用在使用者比较配合的场合,例如关键部门的出入控制,并且语义内容(如密码)可以通过语音识别后作为说话人身份认证的补充信息来增加系统的安全系数,另外文本内容的固定,可以一定程度上提高声纹识别系统的性能;而文本无关声纹识别不关心语音的具体语义内容,这与实际应用中的大多数情况相符,但正是由于其与文本无关的特点,决定了其识别判决的难度加大,因此训练和测试时都需要较长的语音。

2.2影响声纹识别性能的因素

对于人的个体来说,随着时间的变化、年龄的增长或者健康状况的变化等,不同时间所产生的语音都会随之发生或多或少的变化,这些都是影响声纹识别的因素。我们很容易就能感受到早晨刚起床时的声音和白天工作时的声音有着些许差异,人年轻时的声音和年老时的声音差异更加明显,另外由于说话人的声音是由个人的声道决定的,当人处于生病、紧张、高兴、愤怒等不同的健康状况和心理状态时,语音也会出现与平时明显的不同,从而影响声纹识别的性能。

但是,目前的大多数的研究工作中针对的主要是另外两个影响声纹识别性能的重要因素:信道影响(譬如不同的手机麦克风的影响)和噪声影响。

2.3声纹识别系统基本框架

和大多数模式识别问题类似,声纹识别也包括两部分:注册和测试。在注册部分,需要为系统提供注册语音样本,系统从这些语音样本里提取与说话人相关的信息(特征参数),通过模型训练算法为目标人建立语音模型。在测试部分,需要待测试的说话人提供测试语音样本,系统提取测试语音的与说话人相关的特征参数,来与声明的目标人模型进行模式匹配,从而做出判决。

2.4声纹识别技术的应用

近些年来声纹识别获得了非常多的关注和广泛的应用,其重要应用主要有以下几个方面:

(1)信息安全。在通信语音数据中,对恐怖不法分子进行检索、追踪及监控,帮助安全部门快速发现有价值的迹象和情报,在危机来临之前,能够做出迅速反映,及时阻止恐怖或者非法事件的发生,维护国家安全及稳定。美国在追踪本拉登等的过程中就广泛的使用声纹识别技术。

(2)电话银行及网上用户登录等领域说话人身份核对。鉴于密码的安全性不高,为了提高安全性,还可以采取一些其他措施,如密码和声纹识别双保险,目前很多应用场景是密码+短信验证,如果使用声纹验证代替短信验证,可以节省一定的运营成本。

(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件,声纹识别技术可以在一段录音中查找出嫌疑人或缩小侦察范围;声纹确认技术还可以在法庭上提供身份确认的旁证。

(4)军事和国防上的应用。国际军事战略通信情报收集,对国际特定的(军事单位(如美国中央情报局,联邦调查局,国家安全局等重要情报中心)和军事行政机构(各国大使馆,国家政府),重要军事研究机构,军事基地的语音通讯进行自动监控;对政府首脑等特定人进行监控;在通过电话发出军事指令时,可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用。

(5)保安和证件防伪。如机密场所的门禁系统。又如声纹确认技术可集成到信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、以及特殊通道口的身份卡上,使之成为具备自动鉴别能力的智能卡。持卡人将自己的语音信息记录在卡上,使用时持卡人只要将卡插入专用机的插口上,并读出指定密码,只有在身份确认通过后,持卡人才能进行其它操作。同样可以把含有某人语音特征的芯片嵌入到证件之中,通过上面所述的过程完成证件防伪。

(6)多媒体信息检索。随着网络和各种媒体娱乐技术的发展,人们想对对特定人的音视频内容进行快速检索,从而能够快速定位到我们感兴趣的人的节目内容。基于声纹识别技术的说话人分割、聚类技术对于在大型数据语音库和电视广播新闻中的信息查询和检索是非常有用的,使得根据说话人的身份在海量存储的多媒体数据中来检索特定的音视频片段成为可行的方法。

3总结

声纹识别作为人类生物特征识别的一个重要方向,属于人工智能的重要分支,相信在未来,随着人工智能技术的发展,会有更多的畅想空间,更多的产品服务于人类。

参考文献

[1] G. Doddington, “Speaker recognitionDIdentifying people by their voices,”Proceedings of the IEEE, vol. 73, no. 11, pp. 1651C1664, 1985.

第11篇

关键词:语音识别;动态时间规整算法;人工神经元 网络  

1 背景介绍

语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最 自然 、最有效、最方便的手段。语言和语音与人类社会 科学 文化发展紧密相连。

语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、 计算 机、信号处理等一系列学科。

2 发展 历史 

1952年贝尔实验室的davis等人研制成功了能识别十个 英文 数字发音的audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(dynamic programming)和线性预测分析技术(liner predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和dtw技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(artificial neural network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。

3 具体应用

随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与 电子 系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既 经济 又方便。如:语音邮件、ip电话和ip传真、电子商务、自动语音应答系统、自动语音信箱、基于ip的语音、数据、视频的cti系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如 工业 控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。

4 语音识别系统原理

语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍:

(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

(2)数字化一般包括预滤波、采样和a/d变换。该过程将模拟信号转变成计算机能处理的数字信号。

(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。

(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

(6)应用程序根据识别结果产程预定动作。

(7)该过程是语音模型的学习过程。

5 现有算法介绍

语音识别常用的方法有:模板匹配法、人工神经 网络 法。

(1)模板匹配法是语音识别中常用的一种相似度 计算 方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(vq)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(dtw)很好的解决了这一问题。dtw算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。dtw算法示意图如图所示。

设测试的语音参数共有m帧矢量,而 参考 模板有n帧矢量,且m≠n,则dtw 就是寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上,并使该函数满足第k帧(k=1,2,…m)测试矢量i和第f(k)帧(f(k)=1,2…n)模板矢量j之间的距离测度之和最小:



另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。dtw 算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(m,n)点,称为固定终点;也可以选择在(n一1,m)、(n,m一1)等点,称为松弛终点。松弛的dtw 算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(m,n)、(m,n-1)、(m-1,n)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛dtw可以克服由于端点检测不精确引起的误差,但运算量加大。

(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播(back propagation)学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。

6 尚未解决的问题及值得研究的方向

(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。

(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向 发展 。

参考 文献 

[1]杨尚国,杨金龙.语音识别技术概述[j].福建电脑,2006,(8).

[2]孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究[j]. 计算机与数字工程,2006.

第12篇

早在70年代,美国国家安全局就已经掌握了移动电话声音识别术,如果当时的苏联领导人勃列日涅夫乘车行驶在莫斯科的某条大街上,他用移动电话跟其他人说话,国家安全局的声音识别系统就会立即确认出勃列日涅夫的身份,他的谈话内容就会立即被国家安全局工作人员记录下来。五角大楼一位情报官曾表示:“这套系统甚至能够分辨出是车内的勃列日涅夫还是其他人打的嗝儿。

语音识别技术主要有声纹识别、内容识别、语种识别、语音标准识别等几方面。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难。

90年代初,美国电报电话公司想用计算机技术促进通讯业的发展,于是组织人马研究出一种语音识别软件。1992年3月,世界上第一套语音识别系统在美国诞生。当时这套系统的主要任务是代表公司向用户询问采用何种付款方式:诸如用信用卡还是现金等。

1997年,IBM推出了第一套中文语音识别系统,让我们看到人和机器用自然语言交流成为现实,为汉字输入带来了一股新鲜的潮流。1999年底,IBM中国公司在北京举行了1999IBM中文语音技术大会,首次了其普通话版本的电话语音识别技术,让我们看到了语音识别技术在电话系统中的广泛应用前景。近些年,很多领域都已经成为语音识别技术的应用热点,例如电话通信服务领域(如电话转接中心或查询中心)、金融领域(如家庭银行或股票信息查询)、旅游服务领域(如飞机订票或旅馆预订)等。

进入2000年以后,语音识别技术的发展更是突飞猛进。在IBM公司新近推出的世纪版语音识别系统中,我们看到用户不仅可以利用该系统口述文档、口述电子邮件、使用语言进行文档格式编排,还能直接口述“网上冲浪”这样的命令来访问网页,还可以实现真正的网上“聊天”。同时,由于这个版本的语音识别系统具备“文章智能分析功能”,可以主动学习用户的语言模型、风格,从而可以实现完全“只动口,不动手”操作计算机、网络以及其他电子设备的梦想。

语音识别中的声纹识别技术;在军事保密中有着重要的应用价值。据美国《华盛顿时报》披露,美国国家安全局一直将声音识别技术当作研究重点。比如,利比亚领导人卡扎菲就是美国情报机构重点识别的对象,现在,只要卡扎菲利用利比亚的通信网络进行通话。声音识别系统就会立即提醒工作人员:“卡扎菲正在通话,请注意。”最近,美国前情报官詹姆士・巴姆福德在其新著《秘密》一书中透露的一些内幕消息也证实了这套声音识别系统的存在。书中说,美国情报部门开始声音识别技术的研究已经有很多年了,最近几年,这套系统的功能不断完善,可以准确地识别出具体的声音。巴姆福德指出:“监听员甚至可以说出被监听者是否感冒了。”他还透露,国家安全局拥有大量被监听者的资料,有时候,监听员在监听时,旁边就放着这些被监听者的照片。据报道,曾迫降在我国海南机场的美军EP-3侦察机中就安装了声纹识别侦听模块。这一声纹识别系统功能强人,只要被侦察者通过无线电进行对话,该系统便能查明通话者的身份,尤其是高层领导者的身份。美军正是靠着这套功能强大的系统,掌握了其他国家大量绝密情报。五角大楼曾专门邀请语言学家,对被侦察国家的语言进行了全面深入的研究,开发出了一套独特的电子监听系统,只要美军截获到对方的通话,这套系统能立即识别出通话者的身份,从而判断出从中掌握到的情报的价值到底有多大。当截获到对方通话后,监听系统能自动删除杂音,通过与声音数据库相对照,准确识别出通话者身份。

另一方面,装备指纹识别系统,配合语音识别技术来查找国内隐藏的。目前,美国为每个美国人设计一张装在计算机芯片的监视识别卡,用于记录居民的情况。当有人使用这种卡时,就会在机场安检系统计算机里留下记录。这些卡片可以与指纹或者在今后几年的时间里与面部的特征协调起来,并被编成程序允许或禁止某人进入机场。在机场,使用驾驶舱门和行李箱搜索新技术,对机场休息室进行扫描,并对照数据库中可疑的检查旅客的外表形象。此外,使用一种专门照相机,可测出人体面部60~120种不同的变化,即使有人刮掉胡子或轻微整形登机,也难逃其锐利的“法眼”。再者,使用通过查验旅客的指纹和视网膜技术,以便能揪出。由于人的视网膜具有同指纹一样的特性,每个人的视网膜绝不相同,因而任何在册的可疑分子都无法逃过检查。采取护照加指纹措施,把流窜于世界各国的经常改名换姓的逮住。在接受检查时,护照与指纹同时证明持有者身份才有效。这样,即使罪犯改头换面也可辨认出真假。

在军事计算机系统和核心要害部位的封闭管理中,应用声纹识别技术进行身份认证,具有很高的精确度,可进一步增加系统的安全性。一些应用了声纹识别技术的新型计算机安全产品,可以在普通的USB加密钥匙基础上,增加声纹认证功能,并对计算机系统进行加密,保护计算机系统中的重要文件不被非法窃取、浏览、篡改、删除或破坏。在一些军事要地的核心部位,应用语音识别技术实施门禁管理,可以有效辨识合法进出者。保密管理系统根据输入的自然语音信号,进行声纹身份认证,并自动开启或闭合门禁设施。

应用声纹识别技术,可以对发出命令者进行身份确认,避免出现敌方利用我方信道伪装我指挥员发出假命令,干扰我方军事行动的情况。由于在计算机信息处理中,录音的过程要经过模拟到数字的信号转换,放音的过程还要经过数字到模拟的信号转换,因此,即使窃密者使用录音设备录下合法用户的声音进行声纹身份认证,经过从模拟到数字、再从数字到模拟的两次信号转换,声音频谱会有明显衰减和失真,这种失真很容易被认证程序分辩出来。所以,依靠录音登录也不能通过声纹认证。适当调节声纹认证严格程度的阈值,声纹认证的“错误接受率”和“错误拒绝率”可以有所下降。