语音识别

时间：2022-05-29 10:25:06

语音识别

第1篇

关键词：语音识别；动态时间规整算法；人工神经元网络

中图分类号：H017文献标识码：A文章编号：1672-3198（2008）02-0199-02

1 背景介绍

语言是人类特有的功能,是人们思维最重要的寄托体，是人类交流最主要的途径。语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。

语音识别技术是让机器接收，识别和理解语音信号，并将其转换成相应的数字信号的技术。它是一门交叉学科，涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。

2 发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统，标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术（Liner Predictive）等重要成果。20世纪70年代，语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代，近年来发展迅速，并取得了一系列的成果。

3 具体应用

随着计算机技术、模式识别等技术的发展，适应不同场合的语音识别系统相继被开发出来，语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来，语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构，语音识别技术的应用，可免除大量操作人员的重复劳动，既经济又方便。如：语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统，112、114、119等信息查询系统)等。许多特定环境下，如工业控制方面，在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方，均可通过语音发出相应的控制命令，让设备完成各种工作。

当今，语音识别产品不仅在人机交互中，占到的市场比例越来越大，而且在许多领域都有了广阔的应用前景，在人们的社会生活中起着举足轻重的作用。

4 语音识别系统原理

语音识别一般分为两个步骤：学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较，得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍：

（1）语音采集设备如话筒、电话等将语音转换成模拟信号。

（2）数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。

（3）预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

（4）参数分析是对短时信号进行分析，提取语音特征参数的过程，如时域、频域分析，矢量量化等。

（5）语音识别是目标语音根据特征参数与模型库中的参数进行匹配，产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

（6）应用程序根据识别结果产程预定动作。

（7）该过程是语音模型的学习过程。

5 现有算法介绍

语音识别常用的方法有：模板匹配法、人工神经网络法。

（1）模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元，一般适用于词汇表较小的场合。在训练阶段，对用户语音进行特征提取和特征维数的压缩，这个过程常用的方法是采用矢量量化（VQ）技术。然后采用聚类方法或其他方法，针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算，将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性，所以识别时必须对语音时间进行伸缩处理。研究表明，简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法（DTW）很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。

设测试的语音参数共有M帧矢量，而参考模板有N帧矢量，且M≠N，则DTW 就是寻找一个时间归整函数tn=f(tm)，它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上，并使该函数满足第k帧（k=1，2，…M）测试矢量I和第f(k)帧（f(k)=1,2…N）模板矢量J之间的距离测度之和最小:

Distance=min∑Mk=1d［I(k)-J(f(k))］

另外，在实际识别系统中，语音的起点或终点由摩擦音构成，环境噪声也比较大，语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1，1)，称为固定起点；也可以选择在(1，2)、(2，1)等点，称为松驰起点。同样，中止点可以选择在(M,N)点，称为固定终点；也可以选择在(N一1,M)、(N，M一1)等点，称为松弛终点。松弛的DTW 算法的起始点从(1，1)、(1，2)、(2，1)等点中选择一最小值，终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值，两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差，但运算量加大。

（2）人工神经网络法。现实世界的语音信号会随着许多特征如：说话人语速、语调以及环境的变化而动态变化的，想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统，以便可以适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型（前馈型）。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播（Back Propagation）学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外，还有许多其它的识别方法以及改进算法。

6 尚未解决的问题及值得研究的方向

（1）就算法模型方面而言，需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型，还没有用到以语言学为基础的文法模型，而要使计算机确实理解人类的语言，就必须在这一点上取得进展。

（2）语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

（3）语音识别技术还需要能排除各种环境因素的影响。目前，对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行，这对多数用户来说是不现实的。在公共场合中，如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统，但在未来几年内，语音识别系统的应用将更加广泛，各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步，一步步朝着更加智能化的方向发展。

参考文献

［1］杨尚国，杨金龙.语音识别技术概述［J］.福建电脑，2006，（8）.

［2］孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究［J］. 计算机与数字工程，2006.

［3］Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).

第2篇

【关键词】语音识别模式识别过程统功能

1、语音识别技术原理简介

1.1语音识别技术的概念

语音识别技术（Auto Speech Recognize，简称ASR）所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色，相当于给计算机系统安装上“耳朵”，使其具备“能听”的功能，进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

1.2语音识别的系统组成

语音识别系统构建过程整体上包括两大部分：训练和识别。

1.2.1训练

训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”。

1.2.2识别

识别过程通常是在线完成的，对用户实时的语音进行自动识别，可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代，世界各国就开始了对这项技术孜孜不倦的研究，特别是最近二十年，国内外非常多的研究机构和企业都加入到语音识别技术的研究领域，投入了极大的努力，也取得了丰硕的成果，但是直到今天，距离该技术得到完美解决还存在着巨大的差距，不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。

如今，语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用，不同任务条件下所采用的技术又会有所不同。

2、语音识别系统技术实现

语音识别系统选择识别基元的要求是：有准确的定义，能得到足够数据进行训练，具有一般性。系统所需的训练数据大小与模型复杂度有关，模型设计得过于复杂以至于超出了所提供的训练数据的能力，会造成系统性能的急剧下降。

2.1听写机

2.1.1概念

大词汇量、非特定人、连续语音识别系统通常称为听写机。

2.1.2基本架构

听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构，训练时对每个基元用前向后向算法获得模型参数，识别时将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。

2.1.3对话系统

用于实现人机口语对话的系统称为对话系统。目前，受技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。基于目前的系统往往词汇量有限的情况，也可以用提取关键词的方法来获取语义信息。

3、语音识别系统特性

语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类：针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。

4、语音识别的应用

语音识别专用芯片的应用领域，主要包括以下几个方面：

4.1电话通信的语音拨号。特别是在中、高档移动电话上，现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。

4.2汽车的语音控制。由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。此外，对汽车的卫星导航定位系统（GPS）的操作，汽车空调、照明以及音响等设备的操作，同样也可以由语音来方便的控制。

4.3工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。

4.4个人数字助理（Personal Digital Assistant，PDA）的语音交互界面。PDA的体积很小，人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便，因此，现多采用手写体识别的方法输入和查询信息。但是，这种方法仍然让用户感到很不方便。现在业界一致认为，PDA的最佳人机交互界面是以语音作为传输介质的交互方法，并且已有少量应用。随着语音识别技术的提高，可以预见，在不久的将来，语音将成为PDA主要的人机交互界面。

4.5智能玩具。通过语音识别技术，我们可以与智能娃娃对话，可以用语音对玩具发出命令，让其完成一些简单的任务，甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力，而其关键在于降低语音芯片的价格。

4.6家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作，而且一个遥控器就可以把家中的电器皆用语音控起来，这样，可以让令人头疼的各种电器的操作变得简单易行。

参考文献：

第3篇

下午5点20分，车音网首席科学家王力劭上台，畅谈平板电脑在未来的车载应用。没有多少人知道，就在20分钟以前，他辞去原公司高管职位且离开公司的离职声明正式生效。以非常职业的方式告别效力八年的老东家，王力劭再次回到了一个叫沈康麒的人身边，回归了一十年前他曾经战斗过的团队。

十年原班人马再聚首

那是一支在梦想的甘甜和现实的苦涩中历练过的队伍，精神领袖沈康麒早年靠IT产品贸易生意起了家，2000年开始一根筋地投资语音识别产业，第一家公司起名为北京金耳麦科技有限公司(下称“淦耳麦”)。

王力劭就是那年应聘金耳麦实习时，第一次见到了沈康麒。

10年荏苒，语音识别产业发展小高潮偶有，但总体偏冷。期间，沈康麒完胜过，也大败过。此后的东山再起做“车音网”，全因聚集了一帮精于此道、乐于此遭的弟兄。

在王力劭看来，他们这几个核心成员就好像组成了一支足球队一样，在不同的位置上各负其职、默契配合。

商人沈康麒作为团队的引领者和精神领袖，扮演了球队老板、经理和教练的多重角色。沈老板决定公司做什么，然后提供公司所需资源。他显然属于思维超前的类型，熟悉他的人一方面会佩服他，另一方面也知道，他做事的风格很爱“飞”。

后卫“许大师”，负责基础的算法编写。“许大师”是一个典型的研究型人才，早年在某国内大学读博士的时候，他主攻模式识别，研究的课题就是语音识别和信号处理。

后腰的位置则交给了“庞大师”。他负责把许大师制造出来的算法封装成软件的基本模块。车音网作为专攻车载语音识别的公司，前期需要大量“苦力式”劳动，如语料采集、分析、机器训练等。“庞大师”拥有信号处理专业的出身，正是这些工作的不二人选。

接下来，球传到了中场这里。模块做好之后，就需要构建出平台。王力劭就处于这个承前启后的位置。能否在扩充支撑业务的同时，保证商业模式，成为了他要重点考虑的事情。有时候他更喜欢称自己为工程师，而有的时候他做的事情却像一个军师。在做某一项投资时，质量、成本、时间作为相互制约的三边，构成了一个三角形，王力劭很擅长做这样三角形的平衡，并建议“球队老板”之后的商务活动如何推进。

首席运营官曾辉是一位全能型的前腰，他不仅能贯彻战术、把握球队的内控，还负责与外部的客户群、整车企业、电信运营商的洽谈等等。

球队的前锋，所做的便是平台之上的应用了。应用是移动互联网时代最千变万化的，也是最接近用户的产品。商业模式的选择对于应用的影响也很大。对于应用的发展，车音网有着更深层次的考量。

沈康麒、曾辉、王力劭三个人的谈话经常这样进行。沈说：“这个应用，必须有。”曾问王：“他说这个必须有，那这个到底有，还是没有?”王告诉曾：“这个，可以有。”沈康麒和王力劭更是高兴起来就勾肩搭背，有分歧的时候就拍着桌子互喊。

这五个人总是互相告诫：不能自我膨胀。3月31日，王力劭一结束完会议就立刻飞到深圳见沈康麒。他问沈康麒：“我出来跟你干，最大的使命是什么?”沈康麒思考了一下：“你把我们的理念整理一下，把整个平台的规划做一下，把很多和外面的沟通建立起来。”王力劭说：“错。第一件事我是拉着你，你太能飞了。资金到了，你又可以往上飞了，我得把你下来。”按照沈康麒的性子，用一个月可以创造的奇迹，他绝不愿等到第32天。而王力劭则会告诉他，用三个月创造出来的奇迹会更稳。

如今的车音网所走的路以及这个核心团队在心态上的一些调整，和他们多年来摸爬滚打得到的经验教训是分不开的。

“金耳麦”的沉浮聚散

王力劭在2000年进入沈康麒的金耳麦公司实习。那年，金耳麦公司开始专注语音识别，主攻的方向定位在手机语音识别上。早在1999年“许大师”用“586”电脑跑通了他们的第一套语音识别算法。只不过，在那个互联网刚刚起步的年代，硬件设备并不支持复杂的网格计算，仅凭借自身力量难以短时间内有所突破。在2001年，他们的语音识别技术已经具备了较好的素质。这时，金耳麦被一家颇具实力的境外同行公司看中了。当对方提出收购案时，沈康麒并未太多犹豫，他仿佛看到了强强联合之后，兼具两家之长的搜索引擎能开拓出广袤的市场。

国内的语音识别市场仍未成形的时候，这家境外公司把另一家很早进入中国市场的美国Nuance通讯公司视为唯一竞争对手。当时，一家当今非常有名但尚未崛起的研发型企业――安徽中科大讯飞信息科技有限公司(2007年更名为安徽科大讯飞信息科技股份有限公司，下称“科大讯飞”)进入了沈康麒的视线。他当时非常看好自己公司与科大讯飞的互补性，曾与科大讯飞掌舵人刘庆峰先生多次交谈后，向公司建议收购科大讯飞。然而，这家境外公司因为理念与文化的差异，拒绝了他的建议。今天看来，这个拒绝收购科大讯飞的境外公司与一个千载难逢的黄金机会失之交臂，而这次错过却成全了科大讯飞和时任科大讯飞董事长刘庆峰的一番伟业。

造化弄人，如果科大讯飞被并购，将同“余耳麦”一样，按照收购者的意愿发展。自称“竞争队友”的王力劭都为科大讯飞感到庆幸，他并不认为科大讯飞与车音网是竞争对手，而是“竞争队友”。“这个世界本身就靠竞争这点规律才能做起来的。所以从行业的角度来看，我们很庆幸，讯飞也扛过来了。这个行业里没有多少旅伴，多些人一起往前跑实际上更踏实。”

沈康麒的“金耳麦”面临的境况却和科大讯飞不同。在他看来，他当时所拥有的中文语音识别技术已经是国内领先，但是，通过寻找强大的合作者来快速实现扩张以期早日形成语音识别应用市场规模化的思路却并不尽如人意。这次并入国外大公司的抉择并未能够帮助沈康麒实现愿望。

此后的“蜜月磨合期”，两种理念、两种文化慢慢产生了不可调和的冲突。沈康麒的团队希望让研发更多考虑实用性，贴近用户的需求和行业的应用。然而，这家境外公司当时手握巨额风投，却执意把语音识别的技术和引擎开发全部转向境外研发，且对于研发内容未来的商业应用价值并未考虑清楚，对于国内市场的语音应用趋势也没有深入关注，因此也就并未理会沈康麒的多次呼吁。而在市场发展方向上，由于文化差异难以融合，这家境外公司把持着当时水平最高的语音识别技术却开始出现了水土不服的现象。

由于赶2ET“CTI(计算机电话集成)时代”，许、庞两位大师同在一个涉及核心部分的团队，一个在做IVR(互动式语音问答)，一个在做语音识别，都是偏CTI的方向。而王力劭所在的团队，则因公司研发策略的变化，被分化到去做重复性的工作，如应用软件封装等等，原本很强的团队战斗力越来越弱，沈的话语权也越来越

小。2002年。王力劭向当时已然被架空权力的沈康麒告别，开始了八年的独自闯荡。

沈康麒决定再等等，到了2006年，他终于发现，在这家公司，他的很多理念不但没有加速实现，反而向着反方向渐行渐远。眼看科大讯飞稳步发展，沈康麒坚信自己曾经的判断是正确的，他不愿认输，毅然决定放弃一份很高的薪水，从那家公司辞去中国公司CFO的职位，坚定地破釜沉舟，重头再来。

一口气争出车音网

车务服务对现在的中国人来说仍是一个新东西，喜欢追逐新潮事物的沈康麒发现车载环境非常适合做语音识别，掂量一下下自己的资本――多年的原始语料积累和几名核心骨干的追随，沈康麒从这家合资公司撤出了。

跟着沈康麒一起出来的是曾辉、“庞大师”以及几个“金耳麦”的老人。筹划新公司之前的一年多，他们过得异常艰苦。沈康麒给所有跟他出来的人定了薪金，但是长达一年的时间里，他没有付给他们钱，全部约定欠薪。即便如此，他的资金仍然断了好几次。扎根在多媒体及通信研发领域的王力劭和远赴海外的“许大师”也在工作之余，经常隔山跨海地帮沈康麒改写原有引擎、提供架构方案。“当时没觉得他能成功，就是觉得他不容易。”王力劭眼中的沈老板颇具传奇色彩，“他就有这样一种魅力。有人说纯爷们儿是终生追逐财富，但视财富如粪土的人。他有点儿像。”

2007年开始，沈康麒看时机成熟，四处筹集资金，包括借钱、寻求朋友帮助。凭着“沈老板仗义”这句口碑，很多朋友对他伸出援助之手。同时他破釜沉舟地变卖了自己所有的股份、别墅、两部高档轿车，在2008年的时候筹集到了1000万元的启动资金，车音网诞生了。经济和精神压力极度紧张之时，沈康麒的妻子在还有一星期到预产期的时候，手头只剩百十来块钱。

2010年6月底，车音网与中国联合网络通信集团有限公司及中央人民广播电台签订合约，在汽车语音服务中进行主要基于3G网络的合作。在北京、上海、广州、深圳等城市和地方，车音网已经拥有4万用户。而多家国际顶级车厂纷纷向车音网抛出橄榄枝，预计在6月份前后，车音网将让中国的技术历史性地出现在进口高档轿车上。

车音网在电信运营商如中国联通的3G通信网络内再单独组网，用户可以在使用车音网拨打电话时而免交话费。用户的手机通过蓝牙与方向盘后一个按钮连接，按下按钮自动拨号。基于每一处租赁的数据中心的云平台，用户通过车音网的智能辅助驾驶系统实现语音呼叫、点播音乐等功能。

尽管很多人对于车务服务，即音译过来的“特马服务”(Telematics)比较陌生，但是从目前中国汽车市场的增长速度和移动互联网的普及趋势来看，车载语音识别的市场将非常广阔。正因如此，国内、国际的顶尖风司都对这个行业趋之若鹜。车音网因此也处于一个自身发展的非常敏感、脆弱的时期。如何分配投资结构和保持正确的发展方向将是沈康麒等人面临的一大难题。同时，站在车音网的立场，王力劭希望有更多的企业参与到行业中。“没有水，鱼再大活不了。”

选择在具体的某一条细分行业中，比如汽车行业中发展规模商用，或将成为车音网的一次正确决策。从金耳麦时代起，以“庞大师”为首的“后腰”苦力们，在全国各地不同的环境里用不同的录音方式，收集不同口音的语料。每位帮助他们录音并达到要求的路人被支付10元钱作为回报，这项工作持续到车音网的车载语音识别系统运营。此时，每天已有大量的语料汇入系统。“大师们”要做的是完善现有系统以及在此基础上进一步研发语义分析等更高端的领域。

“后金耳麦时代”，Nuance的发展模式一直是沈康麒所在团队分析和学习的，时至今日，沈康麒凭借一口气做出了车音网，多少受到了Nuance的影响。而在国内市场未成形的今天，远未达到饱和、竞争程度的语音应用市场还有很大空间，需要更多同行走进来，把蛋糕做大。

让语音世界“开源”

苹果创始人乔布斯所赋予几千万iPhone粉丝的是什么?是一个平台。当足够多的用户欣赏它的结构时，在乔老爷子提供的商业模式下，大量的开发者让iPhone的应用数不胜数。正所谓一流的企业做标准，二流的企业做服务，三流的企业才卖产品。乔布斯就是这样引领了产业的标准，智能手机的市场做得越大，这样的标准就越值钱，处在最上层的乔布斯实际上拿到的钱更多。

乔布斯不会选择一个荒芜的产业去制定他的标准，这个机会留给了刘庆峰，也留给了沈康麒。国内外顶级风投对语音识别的看好，多少是这个荒芜的产业向肥沃转变的前兆。沈康麒作为站在产业前端的一份子，在车载语音识别这块地上，已经收获不小。最实在的当属他对用户需求的把握。对车音网4万用户的统计表明，约70％的用户是女性，年龄普遍在20-35岁之间，所拥有轿车的价位主要集中在10万～30万元。有了这些经验，沈康麒手中的资源，从研发到产业模式，将会更加有的放矢。这也是支撑他在2010年12月的特马高峰论坛上所说“明年会有30万用户接入我们的平台”的后盾。

但是5年之后又会怎样呢?市场再大也会有饱和的一天，当这个模式被认可时，一夜之间便可以有无数同类企业加入竞争，2004年、2005年的sP乱象就是一个前例。不止一次地被证明，从最流行的电子产品iPhone。到名牌球鞋，从高精尖的科学技术，到顶级的经营理念，用超常的模仿能力弥补匮乏的创造力，乃众多中国商人所长。在此之前的一句话换一个说法就是，低级的模仿者模仿产品，中级的模仿者模仿产业模式，而高级的模仿者模仿乔布斯。“我们很希望在语音这个层面上，做中国乔布斯。这是个梦想，也是个大话，但是我的路子要这么走。”王力劭的话掷地有声。

对于这样的“大话”，车音网最基础的依仗来自于对商用级的语音平台的积累。目前车音网在运营的车载语音平台，不论是和联通还是和移动合作的，只是在车联网领域的范例。毫无疑问，车音网将在车联网领域持续深耕，而他们很多正在和将要进行的各种高端的研发，很可能和一个用于语音产业的普适云平台有关。这个云平台将在银行、金融、教育等各行各业中适用，并将租赁给行业下端，由不同的行业发展出适合自身的商业模式及应用。王力劭说起这个新构想，显得神采奕奕：“我将用一个极低的成本，让门槛很高的语音技术平民化，然后用规模效应，用云计算本身有的模式，去获取我在上端那一块。盈利对一个公司是必须的，但繁荣语音市场也是我们的使命。”他甚至设想今后在车联网领域引进诸多类似的合作商，这些合作商选择的运营商和平台可能不同，但是他们手中的武器则都是他这个语音云平台。通过语音平台加上诸多参与者的无限创造力，百花齐放地构建更多的应用模式。

第4篇

在很多人看来，让计算机识别人类的语音并不是很困难，其实不然，因为每个人的发音都有自己的特点，即使是同一个人，在不同的环境，不同的心境下发音也是不同的。近些年来，随着科学技术的快速发展，电子信息产业发展更为全面，其中计算机系统的各方面功能不断强大，“语音识别”技术也取得了突破性进展，其应用范围也融入到各个领域。语音识别技术是以语音为研究对象，通过语音信号处理让机器自动识别和理解人类的语言，语音识别技术是一门涉及面很广的学科，与声学、语音学、语言学等都有着密切的联系。本文通过对我国语音识别技术的发展阶段及分类的介绍，并对电子信息产业中语音识别的应用进行了详细阐述，对于现代电子信息产业中语音识别应用存在的问题予以分析，力图为该领域研究人员抛砖引玉，推动行业发展。

关键词：语音识别；计算机应用；科技创新；信息产业

1. 我国语音识别技术的发展

语音识别最早是在1952年由贝尔研究所工作人员提出，他们研究了世界上第一个能够识别10个英文数字发音的试验系统，正式大规模的研究语音识别是在进入70年代后，在一些词汇上取得了实质性的进展，到了九十年代以后，语音识别技术在应用及产品化方面有的很大的进展。

如今在国际上语音识别已经从研究室走向生活应用，注重在实际环境下的语音识别建模，如语音增强和去噪等，现在语音识别更注重对语音信号中所蕴含信息的理解，语音识别从一个语言到多种语言甚至是混合语言的方向发展，语音识别应用产品方面也注意多种技术的组合，更贴近生活。

我国语音识别的研究较晚，起步于20世纪50年代，但是由于科技的不断创新以及国家对科学技术的重视，近些年来我国语音识别技术发展的相对较快，研究水平也从实验走向人们的生活。我国在1973年开始进行计算机语音识别，但由于环境所限制，当时的发展仍然很缓慢，进入80年代后，随着计算机等技术的普及，我国一些单位具备了研究语音技术的基本条件，恰好此时国际上对语音识别技术的研究重视并迅速发展，使得我国很多企业纷纷投入到语音识别的这项工作中去。1987年我国启动863计划，暨高科技发展计划，语音识别也因此作为智能计算机研究的重要组成部分。随着863计划的进行，我国开始有规划的对语音识别技术进行研究，并每两年召开一次语音识别的专题会议，从此我国语音识别技术进入一个新的发展阶段。中科院、清华大学、北京大学、上海交通大学等都对语音识别进行研究，其中最具代表性的为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

2. 语音识别技术的分类

语音识别系统通常根据说话者与识别系统的关联性、人的说话方式以及系统词汇量的大小进行区分。

从说话者与系统相关性考虑可以把系统分为三类：对专人语音进行识别也就是特定语音识别系统；识别与人无关的语音，但在这样通常需要有强大的数据库的支撑；语音识别系统可以识别一组人的声音，但是这种识别方式需要对所识别对象进行专业的训练。

根据识别对象不同或人的说话方式不同也可以把语音识别系统分成3类：孤立词语音识别，就是对识别已经知道的词语，每个词后都需要停顿，如“上车”等；连接词语音系统识别就是接连词输入，这样要求每个词语发音要清楚；连续语音识别，就是对连续语音进行输入，这样就是要识别一句话或者是一段话。

词汇量越大，识别难度越高，因此，如果需要进行识别的系统词汇量较为庞大，那么就需要尽可能提升计算机识别系统的精度，保证语音识别技术的准确率。

3. 电子信息产业中语音识别的应用

语音识别在信息领域的应用主要表现为人机交换形式，主要有以下几个方面：

（1）语音识别技术在计算机系统指令发送方面的应用。

Windows系统界面是大家再也熟悉不过的，虽然现在对电脑的操作并不陌生，但是一些隐藏的命令仍然有人不清楚，语音识别技术的应用使电脑逐渐的成为与人交流的伙伴，只要简单的几句话或者几个字就可以对Windows系统进行操作。。目前在国际上IBM公司对此已经有很成熟的产品，语音识别将慢慢的取代键盘和鼠标成为人与计算机交流的新的一种形式。

（2）语音识别技术与数据检索查询技术的科学融合。

语音识别技术与大量数据库检索和查询技术的结合让信息查询更为简单。例如图书馆的资料信息对来自用户的语音进行识别然后转化为响应的指令并得出结果。公司领导人也可以通过语音识别来表达自己的意思得到所需材料，这样更加便利。

（3）语音识别技术打破空间、地点限制，形成网上语音聊天。

网上交谈对于上网的人们应该已经不陌生了，刚开始的技术不是很成熟的时候，人们通过在语音聊天室进行聊天，但是对方看到的仅仅是文字，用户用话筒对计算机说话，然后计算机把你的语言转化为文字让对方看见，现在语音识别技术在网上聊天中已经算是成熟，大家可以登录一些聊天软件跟对方聊天，不仅仅限于文字的形式。

相对来说语音识别技术在商务和教育领域中用的比较广泛也较有前景。

3.1电子商务广泛应用语音识别技术。

随着计算机的普及以及科技的发展，电子商务已经融入人们的生活中，人们可以在家中就可以买到自己想要买的东西，电子商务与语音识别技术结合更是一种全新的交易方式。电话语音识别技术也是语音识别技术的一个创新，人们可以根据电话语音识别实现电话查询，自动接线以及一些日常业务等。

在商业领域中，语音识别技术可以改变整个商业的运作模式，使之创造出更大的利益和便利。

3.2幼儿教育、语言教育等领域广泛应用语音识别技术。

语音识别技术在教育领域中主要是帮助用户更好更方便的练习语言。以前人们只是通过简单的系统进行学习，无法正确的对比自己的发音，随着人们对语音识别技术的不断深入，现在学习语言的人可以通过跟计算机对话来比较自己的发音是否正确，当用户跟计算机对话后，计算机会显示标准发音和用户发音之间的差异，使用户及时改正，使其更好的学习。现在语音识别技术也应用到幼儿教育产品中，帮助孩子学习语言并且激发孩子的学习兴趣。

一般的家电产品也被植入语音识别系统,用户只要发出一个命令，机器就能够理解，然后按照这个命令去执行，例如，当你在家想做饭的时候，也许仅仅几句话就可以让厨房里的烹饪工具自动的开始烹调美食；当你感到困乏的时候，房间里会想起音乐让你感到轻松，简单的说语音识别系统渐渐融入你的生活，让你的生活更加轻松，舒适。

4. 电子信息产业中语音识别所面临的问题

如今虽然对语音识别系统的研究走向成熟，但是语音识别系统还是存在一些问题。如对环境的挑剔，语音识别对环境的依赖性很强，现在的大多语音识别系统只能在安静的情况下进行，一旦环境不能满足语音识别系统则会导致发音失音等状况出现；还有由于汉语本身的特点，使得语音系统对识别汉语比西方语言更为困难和复杂，主要表现在汉语的同音字等。

在今后的科研中，语音识别系统将被更加广泛的应用，各种具有语音识别的产品也将渐渐在市场上出现，要出现与人想比拟的语音识别系统对现在来说是一个巨大的挑战，但是人们对语音识别系统的研究正在一步一步的前进。如今语音识别技术渐渐深入人们的生活，给人们带来更多的便利，语音识别技术也被很多专家认为是二十一世纪初信息技术领域重要科技发展技术之一。

参考文献：

[1] 刘幺和，宋庭新．语音识别与控制应用技术[M]．科学出版社，2008．

[2] 张雪英．数字语音处理及MATLAB仿真[M]．电子工业出版社，2010．

[3] 张雄伟．现代语音处理技术及应用[M]．机械工业出版社，2003．

第5篇

论文摘要近20年来，随着信息技术的不断发展，语音识别技术也逐步的发展成熟。语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。本文就对语音技术的发展及趋势作了简单的阐述。

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程，经过50多年的积累研究，获得了巨大的进展。特别是近20年来，语音识别技术取得了显着的进步，并逐步的走向市场。在未来的日子里，语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。

1 语音技术的发展历史

50年代，研究人员多数致力于声学和语音学的基本概念。1952年，在AT& T Bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统，方法主要是度量每个数字的元音音段的共振峰。1956年，RCA Lab 开展了另外一项独立研究，试图识别单一发音的10个不同的音节，同样采用了度量共振峰的方法。1959年，英国University College的研究人员开始尝试另外一种思路，用谱分析和模板匹配方法构建音素识别器，用来识别4个元音和9个辅音。60年代，相继出现并发表了语音识别的几个重要的思想。1962年，东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分，并进行识别。1963年，日本NEC Lab对数字进行语音识别的尝试可以算得上最值得注意的工作，因为它不仅是NEC研究语音识别的开端，还导致一个长期的和卓有成效的研究计划。在60年代中，3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在RCA Lab开始于60年代后期，目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上，发展了一套时间归正的基本方法。

2 语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力，经历半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后，语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现，使“语音识别”逐步进入大众视线，引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间，这样便降低语音识别的优势。同时，由于使用的环境或讲话口音习惯等因素的影响，语音识别的内容大大降低，识别的内容不能达到100%的正确，所以很多人认为目前的语音识别系统还无法满足实用要求。

目前，AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上，如电话自动转接、电话查询、数字串识别的任务中，当讲话的内容是系统所存储的内容存在的，且使用环境的声学特性与训练数据的声学特性相差不太大时，语音识别的正确识别率可以接近100%。但是，在实际使用中如果这些条件被破坏，则会对识别系统造成一定的影响。

3 语音识别技术发展趋势

虽然语音识别在过去的20年里有了很大的发展，但是，仍然存在很多的不足，有待于进一步的探索，具体可分为以下几个方面:

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中，人的意识会有意识的排除非需要的声学环境因素，这对语音识别系统而言，是很难做到的。另外，在日常生活中，人类的语言常常具有较大的不确定性，比较随意，并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前，在提高语音系统在不同环境中的可靠性，同时要应用现代技术让语音识别系统更加智能化，掌握人们语言随意性的部分规律，以达到最佳的识别效果。

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限，当用户所讲的词汇超出系统已知的范围时，则语音识别系统不能准确的识别出相应的内容，比如，当突然从中文转为英文、法文、俄文时，计算机就会常常输出混乱奇怪的结果。但是，随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展，未来的语音识别系统可能会做到词汇量无限制和多种语言混合，这样用户在使用的时候可以不必在语种之间来回切换，这样就能大大减少词汇量的对语音识别系统的限制。

3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事，比如，当人们出现手忙、手不能及以及分身无术的场景时，通过语音识别系统的模型构造，则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面，语音识别技术可能带动一系列崭新或更便捷功能的设备出现，更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活，更重要的会带来生产方式的革命，是下一代智能化控制的基础。

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径，其推广程这取决于语音识别技术本身进步的程度，同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上，可以大幅度降低产品成本和体积，产品必然受到消费者的青睐，语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代，Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现，会让人更加自由的沟通，让人在任何地方，任何时间，对任何事都能够通过语音交互的方式，方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

参考文献

第6篇

关键词：语音识别人工智能机器学习

1.语音识别概述

语言是人类思想最重要的载体，是人们交流最有效、最方便、最自然的方式。语音识别技术就是让机器接收，识别和理解语音信号，并将其转换成相应数字信号的技术[1]。语音识别是涉及很多学科的一门交叉学科，涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机器来处理，节约了人力，提高了效益。例如：专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下，例如地下、深水、辐射或高温等地方，就可以通过语音识别系统指令，让机器完成各种工作。

现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。其中最主要的，大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法，这些方法的出现极大地推动了语音识别从实验室走向实际应用。

2. 语音识别的现状

近三十年来，语音识别技术发展迅速，逐渐从实验室走向市场，形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统，已经逐渐显露出其强大的技术优势和生命力。现在实际中应用比较广泛的语音识别软件有：Nuance、IBM公司的Viavoice、Android系统下的Voice Actions、苹果手机上的Siri以及国内科大讯飞的语音识别产品等。我们国家对语音识别研究一直比较重视，中科院自动化所、清华大学、科大讯飞等很多科研院所和企业都投入了大量的人员和资金进行语音识别的研究开发。

前面所介绍的产品，它们的共同点是在文本转语音功能方面表现比较出色，但在语音转文本功能方面就有些差强人意。例如Voice Actions提供了令人惊奇的语音识别引擎，它的识别率非常之高。但是与微软和IBM等公司的语音识别引擎一样，它对我们说的话有严格的要求，必须按照固定的格式和语法结构，不然无法识别。苹果手机上的Siri是迄今为止最优秀的语音识别系统之一，我们可以不用注意语法结构，即使思维模式有些混乱，系统也会结合上下文去理解，它还会利用人工智能来分析，并且能在多数情况下理解我们的意思。

语音识别发展到现在，在中小词汇量非特定人语音识别系统和特定人语音识别系统中的识别精度已经接近100%，这些技术已经能够满足一般应用的需求。同时随着大规模集成电路技术的进步，我们已经完全可以把语音识别系统集成到芯片中，如一些电话机、手机、电话交换机等产品就带有这样的芯片，具备了语音拨号，语音应答等功能。甚至有的语言查询系统可以让人们通过电话网络查询到订房信息、车票、股票信息等。调查统计显示，大部分人都能够满意这种信息查询服务的性能。

3.机器学习的发展前景

现在，越来越多的语音识别技术被带入到人们的工作生活中，影响着每一个人。在某些领域如信息处理、教育与商务、工业控制等方面，语音识别已经显露出巨大的优势。可以预测，它的应用将越来越广泛，更多先进的语音识别产品将陆续出现在市场上，继续影响每个人的生活。

语音识别技术的一个重要应用就是在电话语音识别上，电话语音识别系统将能够代替人工的繁重操作，如自动转接、语音号码查询以及旅游信息查询等。酒店应用了语音查询系统后，将可以不间断地为客户提供二十四小时的客房预定服务。在证券市场上如果安装电话语音识别系统的话，客户就可以用语音方便地查询相关股票，及时地了解最新价格及波动情况，从而进行高效的股票操作，节约了人力成本的同时，方便了用户。

在邮局的邮件分拣中，语音识别技术所起的作用也越来越明显，发展诱人。分拣员单纯依靠记忆力分拣，同时还需要大量的时间，而依靠语音识别可以弥补这方面的不足，同时节约人员成本，提高邮件处理的效率和效益。

随着硬件技术和软件技术的快速发展，语音识别为我们提供了一种崭新的远景。很明显，语音识别正在改变着我们这个世界，因为一旦机器被赋予人类语音之后，任何会说话的人都将能和机器自然的交流。或许很多行业并未清晰地意识到语音技术所带来的改革力量，但是，就现在的发展形式及技术进展来看，人类生活的每一领域必将因它而变得异常精彩。

4.语音识别的未来研究方向

现在语音识别在许多行业产生了大量的应用，但是要实现真正的人机自然交流还需要很多的工作要做。它还要在下述几个方面取得突破性进展：

（1）识别系统的强健性方面，有待进一步增强。现在，环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别，否则识别率很低，效果很差。目前针对中文的语音识别方面还存在着明显的不足，语言模型方面需要进一步完善。由于声学模型和语言模型在语音识别技术中起到基础性作用，所以必须在这方面有所突破，否则其它的都不可能实现。现在所使用的语言模型都是概率模型，文法模型没能得到运用，只有这一方面取得突破，计算机才能真正理解人类语言，这是一个难度非常大的工作。另外，随着硬件技术的不断发展，搜索算法、特征提取和自适应算法等这些核心算法将会得到不断改进。我们相信，半导体和软件技术的共同进步必将给语音识别技术打下坚实的基础。

（2）多语言混合识别方面和无限词汇识别方面需改善。现在使用的语音模型和声学模型有很多的局限性，如果突然从英语转为法语、俄语或者汉语，计算机就不会处理了，得到的东西完全不是我们想要的结果；如果人们偶尔使用了某些不太常见的专业术语，如"信息熵"等，计算机可能也会得到奇怪的结果。这不仅仅是因为模型具有局限性，同时也有硬件跟不上的原因。将来伴随这两方面技术的进步，声学模型和语音模型可能会理解各语言之间自然的切换。另外，因为声学模型的逐步改善，以及以语义学为基础的语言模型的改进，或许将能够帮助人们尽量少或完全不受词汇的影响，从而可实现无限词汇识别。

（3）在自适应方面需要更大的改进，达到不受口音、方言和特定人影响的要求。现实中的语音类型是各种各样的，从声音特征来说可以分为男音、女音和童音，另外，很多人的发音同标准发音有很大的差距，这就需要进行口音和方言的处理。即使同一个人，如果处在不同的环境中，或者在不一样的语境中，意思也可能不同。这些同样需要改进语音模型，让语音识别能适应大多数人的声音特征。

（4）语音识别系统在从实验室转化为商品的过程中，同样需要解决很多具体问题。比如，系统的识别速度、识别效率以及连续语音识别中剔除无意义语气词等问题。

总之，语音是人们工作生活中最自然的交流媒介，所以语音识别技术在人机交互中成为非常重要的方式。伴随计算机技术和语音识别技术的进步，语音识别系统的智能性和实用性将得到大幅提高。这将表明语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。

参考文献：

第7篇

[摘要]各个部门和领域对语音识别系统的需求不同，使得语音识别系统的特性和指标表现出的差异性非常大，所以语音识别系统要依据特定的指标和需求进行相关的设计。本文就语音识别系统相关的技术进行了分析，供大家借鉴与参考。

[关键词]语音识别系统；差异性；指标需求

一、引言

语音作为语言的声学体现，也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通，让机器可以明白人类在说什么，并理解这是人类长期的梦想。语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二、语音信号分析与特征提取

1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩，并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡，从而形成准周期性的空气脉冲，空气脉冲激励声道便会产生一些浊音；声道的某处面积比较小，气流冲过时便会产生湍流，会得到一种相似噪声的激励，对应的则是摩擦音；声道完全闭合并建立起相应的气压，突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术，很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数，求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法，所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络，对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的，而又被称为LPC倒谱系数(LPCC)。

2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系，它对不同声音频率信号的敏感度是不一样的，也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群，对频率群进行划分会出现许多的很小的部分，每一个部分都会对应一个频率群，掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时，频率刻度一般取非线性刻度。语音识别方面，主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用，其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性，在频域将频率轴变换为Mcl频率刻度，再变换到倒谱域得到倒谱系数。MFCC参数的计算过程：

一是对语音信号进行相应的预加重，从而确定了每一帧的语音采样的长度，语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方，得到能量谱，并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel，带宽为300Mel)，其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等，频率响应之和为l。滤波器的个数一般和临界带数比较相近，设滤波器数是M，滤波后得到的输出为：X(k)，k=1，2，…，M。

3.语音的端点检测。语音的端点检测就是对语音的起点和终点的确认，由于汉语语音的声母是清声母，有着送气和不送气的塞音，和环境噪声接近比较进行分辨。语音信号有短时稳定性的特性，可选用平稳过程的分析方法进行相应的处理，对语音端点检测进行分帧的处理，再依次对每一帧是否正确进行处理。每一帧的帧长如果比较大，计算量比较小的，可进行端点检测就比较快，但其误差会相应的增加。

语音识别技术发展到今天，对特定人语音识别系统的识别精度就更高。调查统计表明多达85％以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍是人类面临的一个大的挑战。

第8篇

家用电器发展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。本文以语音控制遥控器为例,说明语音识别技术如何应用在家电器领域。

适合家用电器应用的语音识别嵌入式系统结构如图1所示,它由四个部分组成。第一部分为模/数转换部分,其输入端接收输入的语音信号,并将其转化成数字芯片可处理的数字采集信号;在输出端将解码后的语音数字信号转换为音频模拟信号,通过扬声器放声。第二部分为语音识别部分,它的作用是对输入的数字语音词条信号进行分析,识别出词条信号所代表的命令,一般由DSP完成。第三部分语音提示和语音回放部分,它一般也是在DSP中完成的,其核心是对语音信号进行数字压缩编码和解码,目的是提示用户操作并对识别语音的响应,完成人机的语音交互。第四部分是系统控制部分,它将语音识别结果转换成相应的控制信号,并将其输出转换成物理层操作,完成具体功能。语音识别与系统控制的有机结合是完成声控交互的关键,下面将对语音识别算法及遥控系统控制部分作详细的讨论。

1 语音识别算法

目前,常以单片机(MCU)或DSP作炎硬件平台的实现消费类电子产品中的语音识别。这类语音识别主要为孤立词识别,它有两种实现方案:一种是基于隐含马尔科夫统计模型(HMM)框架的非特定人识别;另一种是基于动态规划(DP)原理的特定人识别。它们在应用上各有优缺点。HMM非特定人员的优点是用户无需经过训练,可以直接使用;并且具良好的稳定性(即对使用者而言,语音识别性能不会随着时间的延长而降低)。但非特定人语音识别也有其很难克服的缺陷。首先,使用该方法需要预先采集大量的语料库,以便训练出相应的识别模型,这就大大提高了应用此技术的前期成本;其次,非特定人语音识别很难解决汉语中不同方言的问题,限制了它的使用区域;另外还有一个因素也应予以考虑,家电中用于控制的具体命令词语最好不要完全固定,应当根据的用户的习惯而改变,这一点在非特定人识别中几乎不可能实现。因此大多数家电遥控器不适合采用此方案。DP特定人识别的优点是方法简单,对硬件资源要求较低;此外,这一方法中的训练过程也很简单,不需预先采集过多的样本,不仅降低了前期成本,而且可以根据用户习惯,由用户任意定义控制项目的具体命令语句,因而适合大多数家电遥控器的应用。DP特定识别的严重缺点是它的稳健性不理想,对有些人的语音识别率高,有的人识别率却不高;刚训练完时识别率较高,但随着时间的推迟而识别率降低。些缺点往往给用户带来不便。为克服这些缺陷,对传统方法作为改进,使识别性能和稳健性都有显着的提高,取得令人满意的结果。

1.1 端点检测方法

影响孤立词识别性能的一个重要因素是端点检测准确性[4]。在10个英语数字的识别测试中,60毫秒的端点误差就使识别率下降3%。对于面向消费类应用的语音识别芯片系统,各种干扰因素更加复杂,使精确检测端点问题更加困难。为此,提出了称为FRED(Frame-based Readl_time Endpoint Detection)算法[3]的两级端点检测方案,提高端点检测的精度。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。FRED端点检测算法根据语音的本质特征进行端点检测,可以更好地适应环境的干扰和变化,提高端点检测的精度。

在特定人识别中,比较了常用的FED(Fast Endpoint Detection)[5]和FRED两种端点检测算法的性能。两种算法测试使用相同的数据库,包括7个人的录音,每个人说100个人名,每个人名读3遍。测试中的DP模板训练和识别算法为传统的固定端点动态时间伸缩(DTW)模板匹配算法[4]。两种端点检测算法的识别率测试结果列在表1中。

表1 比较FED和FRED端点检测算法对DTW模板匹配识别率的影响

端点检测算法第1人第2人第3人第4人第5人第6人第7人平均FED92.5%87%92.6%95.6%96.2%96.8%100%94.4%FRED94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%

测试结果说明:使用FRED端点检测算法,所有说话人的识别率都有了不同程度的提高。因此,本系统采用这种两级端点检测方案。

1.2 模拟匹配算法

DTW是典型的DP特定人算法,为了克服自然语速的差异,用动态时间规整方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。

假设存储的一个词条模板包括M帧倒谱特征R={r(m);m=1,2,∧,M};识别特征序列包括N帧倒谱特征T={t(n);n=1,2, ∧,N}。在r(i)和t(i)之间定义帧局部失真D(i,j),D(i,j)=|r(i)-t(i)| 2,通过动态规划过程,在搜索路径中找到累积失真最小的路径,即最优的匹配结果。采用对称形式DTW:

其中S(i,j)是累积失真,D(i,j)是局部失真。

第9篇

相信不少朋友都听说过Office XP的语音输入功能，它可以通过麦克风来输入文字。现在Vista则将语音识别整合到系统中，不仅可以输入文字，还能语音控制电脑。笔者对这种脱离键盘、鼠标的操作方式向往已久，但语音控制是否真如想像中这么好用呢？下面，就随笔者一起来一窥Vista神奇的语音识别功能。

调试不可少

连接好麦克风，然后打开“控制面板轻松访问语音识别”，打开“语音识别设置”（如图1）。在正式使用语音识别功能前，我们需要对相关设备进行调试。

1.单击“设置麦克风”启动麦克风设置向导，按向导提示完成麦克风的设置，这里主要配置麦克风的音量和灵敏度。

2.单击“学习语音教程”启动学习向导。现在按照屏幕的提示一步步使用语音操作电脑即可。比如屏幕提示“说出‘下一步’以继续”，我们只要对着麦克风说出“下一步”，向导的操作就会自动进入下一步。这里可以对“听写”、“命令”和“操作Windows”进行全方位的训练，整个教程也设计得十分漂亮（如图2）。

系统操作，“听”我的

完成上述设置后，返回图1所示的窗口，单击“启动语音识别”。语音识别启动后会在屏幕上方出现语音识别状态栏。现在对着麦克风说出“开始聆听”，语音识别显示框会出现“正在听”的字样。接下来，我们就能用嘴给计算机下达命令了。

例如我们要启动Vista的侧边栏，就需要依次说出“开始”“所有程序”“附件”“Windows边栏”。不过很多时候，语音识别在初次使用时并不能准确识别所有命令，比如在说出“Windows边栏”时，语音识别会将类似的识别项目全部标注出来，只要按提示说出正确项目的序号并确定即可（说“4”，然后再说“确定”，如图3）。

经过一段时间试用，笔者发现无论是用普通话还是用笔者的本地方言（重庆话），系统都能做出比较准确的判断。但操作的效率还是不高，而且一些特定的指令也需要慢慢熟悉。

文本字符说出来

文本输入也是我们常见的操作，Vista的语音识别可以让我们完全脱离双手输入文本，对一些残障人士特别有用。只需在文本编辑软件中，说出需要输入的文字，就能进行输入了。由于汉字的复杂性，Vista并不能很准确地识，我们还可以用语音更正识别错误的字符。比如，在说出“计算机应用文摘”时，计算机可能会识别为“计算机应用文在”，这时可以说出“更正‘在’”，然后说“1”、“确定”即可（如图4）。

第10篇

关键词关键词：智能书架；语音识别；步进电机；书籍定位

DOIDOI：10.11907/rjdk.162740

中图分类号：TP319

文献标识码：A文章编号文章编号：16727800（2017）005005703

0引言

随着智能自动化技术的迅速发展[14]，智能化研究越来越受到人们关注，在日常生活中的应用需求也日益增多[56]。在书房、办公室等场所中，书籍一般是由人工查找并取出的，在一定程度上影响了人们查阅书籍的时效性。如果能设计一种识别语音查找并推出书籍的书架，将解决人们在书房中对书籍定位难、查找耗时长等问题。

在图书查阅过程中，书籍定位是较为常见的问题之一。针对这类问题，张郁松等[7]以物联网图书馆智能书架的结构化、通用化设计为目标，利用超高频（UHF）射频识别（RFID）技术，设计了一种具有实时检测与定位功能的智能书架，较好地提高了书架工作效率；舒远仲等[8]基于改进的RFID室内定位技术设计了一款应用于图书馆中的智能书架系统，将书架定位到每一层，精确到书架的最小单元格，并且降低了系统的复杂度和成本，较为有效地提高了读者借阅效率和馆员工作效率。

随着射频技术的不断发展，图书馆等场所中对图书的定位方式有很大改善，但是由于条件限制，语音识别定位书架在图书馆等禁止喧哗场所禁止使用。在可喧哗环境下，如家庭、办公室等场所中，语音识别可作为简单易用、无需接触、无需携带外部设备的定位方法，具有较好的应用前景。本系统首先将书籍信息存储到可扩展标记语言（XML）中，然后通过语音识别将语音信息与文本信息进行匹配，最后将定位结果发送至控制中心，通过电机执行动作完成推出书籍功能。

1硬件平台架构

本系统采用UPAtom510平台作为系统的语音识别终端，同时采用STC89C52单片机[9]作为系统的控制中心。由于系统功能需求，开发平台需要扩展外部设备。因此，除选用UPAtom510平台和STC89C52单片机外，还需外接话筒、TB6600步进电机驱动模块与42BYGH47401A步进电机，作为整个系统的硬件平台架构。

系统采用UPAtom510平台作为识别终端，该平台是北京博创科技有限公司针对嵌入式系统和微机原理课程研发的教学与实验平台。目前在UPAtom510上已经成功移植了Ubuntu、WinCE和Windows XP等操作系统。根据系统功能需求，在该平台上搭建了Ubuntu操作系统，并使用QT开发工具完成了人机交互界面的开发。UPAtom510平台底板如图1所示。

电机选用42BYGH47401A步进电机[1011]，该电机为两项四线步进电机，电流1.5A，输出力矩0.55Nm。此模块有两种用途：书籍定位以及将书籍从书架中推出，方便用户取书。

本系统采用TB6600步进电机驱动器，它具有如下特性：输入电压为DC9～42V，可以驱动42BYGH47401A步进电机正常转动；含有拨码开关，针对不同电流要求，具有不同选择；模块上集成大面积散热片，具有较好的散热效果，可满足实际应用需求。

智能书架的硬件连接仿真结果如图2所示，智能书架的模拟三视效果如图3所示。

2系统框架设计

本系统的框架设计主要利用话筒采集语音信息，并将语音传递给UPAtom510平台，UPAtom510平台经过语音识别后，将书籍位置信息发送给STC89C52单片机，单片机根据书籍位置信息给电机驱动器发送控制命令，电机驱动器控制电机转动，带动整个智能书架运行。书架在书籍定位后将书籍推出，使得该书架具有智能化、人性化的特点。系统框架如图4所示。

3语音识别方法设计

目前，常见的电子产品中的语音识别均由单片机（MCU）或数字信号处理（DSP）作为硬件平台来实现。这一类语音识别[1217]产品主要采用孤立词识别，一般有如下两种方案：一种是使用隐马尔科夫统计模型（HMM）框架设计的非特定人群识别，另一种是基于动态规划（DP）原理的特定人群识别。这两种方法在应用上各有优缺点。

采用HMM框架完成语音识别的优点是使用时不需采集用户语音信息和训练特征，可直接识别语音指令，具有较好的稳定性。但该方法在前期需对大量语料库进行采集，成本较高；DP方法的优点是训练过程简单，无需提前采集大量样本，成本较低，应用较为广泛。但该方法稳定性不佳，给客户带来不便。本文针对这些问题进行了相应改进，较为有效地提高了稳定性和识别准确率。

第11篇

关键词：拟人机器人；双CPU；语音识别系统；硬件设计

中图分类号：TP319 文献标志码：A 文章编号：1006-8228（2013）01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping， Hou Ruizhen， Fang Yinglan， Han Xianfeng

（North China of Technology， Beijing 100144， China）

Abstract： In order to improve the reliability and efficiency of the speech recognition， a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor （DSP） as the hardware platform. DSP operation is assisted by Micro control unit（MCU）， which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words： humanoid robot； double CPU； speech recognition system； hardware design

0 引言

随着超大规模集成电路和数字信号处理器（DSP）的快速发展，DSP的应用越来越广泛，涉及到各个领域如语音处理，图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来，已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确，满足了对信号快速、实时、精确处理的要求，所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础，只有分析出可表示语音信号本质特征的参数，才可能利用这些参数进行高效的语音通信，才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性，虽然语音信号具有时变特性，但在一个短时间范围内其特性相对稳定，因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上，一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示，采集到的语音信号输入后，首先对语音信号进行预处理，预处理主要包括：语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节；然后是信号特征量的提取（本文对信号的特征量进行Mel频率倒谱系数[2]（Mel-Frequency Cestrum Coefficients）处理）；最后对建立好的参数模板进行对比，测试的依据是失真度最小准则，如本文用到的动态时间规整DTW[3]（Dynamic Time Warping）。

2 系统硬件设计

通过针对拟人机器人的特点，对系统进行分析和方案设计，最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP（TMS320VC5416）为主处理器的硬件平台，硬件平台主要包括：语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出；主处理器DSP模块（TMS320VC5416）主要完成语音识别所需的计算，其性能能够达到实时处理的要求；存储器模块包括一片FLASH和两片SRAM，用FLASH作为DSP的可编程存储器，SRAM分别作为DSP的数据和程序存储器；单片机MCU模块完成对拟人机器人的运动控制；485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416（简称VC5416）是TI公司的C54X家族的成员之一，它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点，高性能低功耗，具有高达160MHz的主频，核心电压1.5V，运行于此频率时功耗仅为90mW；拥有一条程序总线和三条数据总线，片内集成有高度并行性的算术逻辑单元（ALU）、专有硬件逻辑、片内存储器和片内外设等。

片内可屏蔽ROM中固化有启动装载程序（BOOTLOADER）和中断向量表等。系统上电时，BOOTLOADER自动把用户代码从外部存储器搬移到程序空间。复位以后，中断向量表可被重新映射到程序空间的任何（128Word）的开始处。为了与慢速的外设通信，VC5416提供了等待状态发生器，通过软件设置等待周期的个数，不仅降低了系统硬件设计的复杂性，而且为系统带来了很大的灵活性。VC5416片内集成了软件可编程的锁相环时钟电路，它只需要一个参考时钟输入就可以得到31种不同频率的输出时钟，最大的乘率因子（在寄存器CLKMD中设置）为15，最小的为0.25。这样，一方面可利用较低频率的外部时钟源产生较高频率的CPU时钟，另一方面在不工作时可降低CPU时钟频率至外部频率的四分之一，从而降低了CPU的功耗。

2.2 语音输入输出模块介绍

语音输入输出模块采用TI公司推出的一款高性能立体声音频Codec芯片TLV320AIC23B，内置耳机输出放大器，支持MIC和LINE IN两种输入方式，且对输入和输出都具有可编程增益调节。其最主要的优点是和TI公司的DSP芯片的McBSP接口完全兼容，与本设计中使用的DSP芯片能够实现无缝接口。

AIC23的模数转换（（ADCs）和数模转换（DACs）部件高度集成在芯片内部，采用了先进的Sigma-delta过采样技术，可以在8K到96K的频率范围内提供16bit，20bit，24bit和32bit的采样，ADC和DAC的输出信噪比分别可以达到90dB和100dB。与此同时，AIC23还具有很低的能耗，回放模式下功率仅为23mW，省电模式下更是小于15uW。由于具有这些优点，使得AIC23是一款非常理想的音频模拟I/0器件，可以很好地适用于随声听（如CD，MP3），录音机等数字音频领域。由TLV320AIC23组成的语音输入与输出模块不仅采样率高（最高可达96KHz），而且电路简单，性价比高。最方便之处是能与McBSP无缝接口（它是TI原厂制造）。

2.3 存储器模块介绍

VC5416 DSP片内提供了16K×16bit的ROM和128K×16bit的SRAM。其中ROM内部包含的Boot loader程序在系统上电时能把外部存储器中的源程序调到内部存储器中，允许源程序存放在速度较慢的外部存储器中，降低了硬件资源的成本，片内ROM由厂家定制，位于程序空间OxF000-OxFFFFo。On-Chip RAM分为两个大小都为64K的块，其中DARAM和SARAM各有8块，每块容量为8K×16bit。在DARAM中，有4块定位在数据空间0x0080-Ox7FFF（当OVLY=1时，可以被映射到程序/数据空间），剩下的4块DARAM被定位到程序空间0x18000-Ox1FFFF。通过设置DROM=1可使定位在程序空间的0x18000-Ox1FFFF的RAM映射到数据空间。在一个周期内它支持两次读操作，或者一次读操作和一次写操作。SARAM被定位到程序空间0x28000-Ox2FFFF和0x38000-Ox3FFFF。

除了内部16K的ROM和128K的SRAM之外，系统还可以扩展外部存储器。本系统扩展了两块64K×16bit的SRAM（IS61LV12816）和一块256K×16bit的FLASH（AM29LV800B）来增加系统存储空间。

2.4 MCU模块介绍

单片机是一种集成电路芯片，采用超大规模集成电路技术把具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O和终端系统、定时器、计时器等（有些还包括显示驱动电路、脉宽调制电路、模拟多路转换器、A/D转换器等电路）集成到一块硅片上，构成一个小而完善的计算机系统。

本文采用89C52单片机完成机器人的运动控制。89C52是INTEL公司MCS-51系列单片机中基本的产品，它结合了CMOS的高速和高密度技术及CMOS的低功耗特征，基于标准的MCS-51单片机体系结构和指令系统，集成了时钟输出和向上或向下计数器等更多的功能。89C52内置8位中央处理单元、256字节内部数据存储器RAM、8K片内程序存储器（ROM）、32个双向输入/输出（I/O）口、3个16位定时/计数器和5个两级中断结构，一个全双工串行通信口，片内时钟振荡电路。此外，89C52还可工作于低功耗模式，可通过两种软件选择空闲和掉电模式。在空闲模式下冻结CPU和RAM定时器，而串行口和中断系统维持其功能。掉电模式下，保存RAM数据，时钟振荡停止，同时停止芯片内其他功能。该单片机最大的优势就是可以跟TI公司提供的这款DSP兼容，达到最佳的效果。

2.5 RS-485串口通信模块介绍

RS-485是RS-422的改进，它增加了设备的个数，从10个增加到32个，同时定义了在最大设备个数情况下的电气特性，以保证足够的信号电压。RS-485模块具有出色抗噪和多设备能力，在拟人机器人上可以建立连向PC机的分布式设备网络、其他数据收集控制器、HMI等，RS-485可以用超过4000英尺的线进行串行通信，实时性能高，更加便于我们操作控制机器人。

3 结束语

通过采用双CPU对语音识别系统进行控制，有效地提高了语音识别的可靠性和实时性，特别适合应用于语音识别的场合。语音识别算法采用的是隐马尔科夫模型，对识别算法进行测试，在正常发音情况下（“短时”时看作平稳过程），系统的实时性和识别率都可以得到很好的结果，但是如果说话人有明显的停顿时，系统比较容易出现错误识别，这也是接下来需要改进的地方。

参考文献：

[1] 周霖.DSP信号处理技术应用[M].国防工业出版社，2004.

[2] 蔡莲红，黄德智，蔡锐.现代语音技术基础与应用[M].清华大学出版社，2003.

[3] 程启明.语音信号端点检测的实验研究[J].声学与电子工程，1997.34（3）：33-36

[4] 刘玄和，宋庭新.语音识别与控制应用技术[M].科技出版社，2008.

第12篇

【关键词】信息技术英语口语语音识别教学模式

一、网络环境下的中职英语口语教学模式

当前，中职英语口语教学模式存在的突出问题是：学生口语练习时间过少，发音不标准无法及时纠正指导，学生课后练习不易检查，考核评价采用口语测评难度较大。

针对口语教学的问题，我们尝试基于语音识别技术的网络环境下的中职英语口语教学，它是以互联网为英语口语教学的平台和环境基础，利用语音合成和语音识别技术，结合网上丰富的口语资源进行学习，实现人机对话口语练习、网上交流、作业评改和口语测试。在网络环境下，充分发挥其资源优势，通过协作和交流实现英语口语自主学习的建构，让学生真正成为教学的主体和中心，教师成为教学活动的组织者、指导者、帮助者和促进者。网络平台为学生的英语口语学习活动提供了教、学、评一体化的学习环境，通过对网络技术在英语口语教学中的优势分析，建构了如图1的网络英语口语教学模式。

图1 网络环境下英语口语教学模式

（一）创设情境、明确任务

教师根据中职学生的特点，结合学生的就业岗位和职业生涯中涉外工作的要求，利用丰富的网络视频，例如优酷、土豆网等，创设一个涉外角色的工作情境，从而激发学生的学习兴趣，让学生发自内心认同英语口语学习的重要性。然后，再结合各章节的教学目标和教学内容分别创建单元教学情境，让学生能迅速进入角色，调动学生的求知欲。

学生明确课程学习的任务，例如外宾来访的接待工作，将迎送、安排日程和活动、安排住宿、宴请与迎送会、陪同购物、游览、就诊等任务贯穿于整体教学之中，让学生在说中完成任务，从而实现教学目标。

（二）示范讲解、完成任务

教师利用网络化音视频广播监控技术对课堂教学进行管理，防止网络环境下学生分心。在统一示范环节，采用屏幕广播手段，控制学生计算机画面集中播放视频对话或由教师现场领读。教师通过音视频讲解本节课的生词、关键句型以及任务对话。

学生利用网络工具，例如爱词霸、讯飞语音网站，学习词汇、句型的正确朗读，然后进行人机跟读，再到人机对话。教师根据学生的实际情况确定人机对话相似度过关标准，学生可以自行控制学习的进度。

（三）帮助指导、讨论交流

教师可以根据学生的英语基础将学生分组，每个组内包含不同层次的学生。学生可以通过人机协作进行自主探索，也可以通过网络进行各种形式的协作交流。例如，通过QQ群进行语音讨论，教师可以抽查个别学生进行一对一的语音对话，了解学习的状况，及时纠正出现的问题。为避免人机交流形式单一产生疲劳，可通过网络语音交流软件让学生配对进行相互交流，最大限度地让所有学生参与，解决了传统课堂教学同时对话互相影响的问题。

网络环境中的小组合作学习，改变了传统教学模式下以个人成绩为标准奖励学生个人的做法，从而改变了班级成员间以竞争为主的交往方式，促进了组内成员的互助与合作。每一个成员不仅自己要掌握知识，而且还要关心和帮助组内其他成员获得成功，这种互助精神有效促进了整体口语练习水平。

（四）巩固复习、集中讲解

虽然学生在课堂上已经初步完成了学习任务，但是从会读、读准到脱稿会说还需要一个过程，这就需要课后进行大量的练习巩固。学生在课后利用网络完成拓展练习，采用不提供文字和读音提示的人机对话形式，最终将完成的口语练习录制成音频文件，然后上传至网络平台个人作业资料中。

教师抽取一定比例的学生录音文件，播放检查学生完成的情况，对个别问题通过网络单独答疑，对普遍存在的问题统一进行点评讲解。

（五）评价测试、归纳总结

改进考核方式也是教学整合中重要的环节，为了解决人工组织口语测试评价主观性以及工作量较大的问题，利用人机互动的口语测试平台，学生一人一机，进行口语考核，现场自动判分。

教师对考核结果进行分析、归纳、总结，调整课堂任务，完善课后练习。

二、以“语音识别”为主的网络教学平台

中职英语口语教学网站要根据教材的特点、学生的学情和口语教学的现状来设计，它与其他英语学习网站有许多共同点，如具有英文文章、音频及视频播放等功能。但也有许多不同点，主要表现为以下几方面：按照中职课程教学要求进行组织编排，符合教师教学和学生学习的习惯；以“任务法”贯穿教学过程，把课程目标分解为一个个口语任务；以语音合成和语音识别技术为核心，实现人机跟读、人机对话、口语测评。

网站的结构主要包括前台和后台两大部分。前台包括：课程及章节显示、音频视频播放、任务列表、句型词汇、人机跟读对话、在线交流、口语测评等模块。

后台包括：课程及章节管理、音频视频管理、任务管理、句型词汇管理、人机交互管理、用户管理等模块，其结构设计如图所示：

图2 中职英语口语教学网站前后台模块

在学生口语练习、任务展示、作业提交、口语测试等多个重要环节，设计网站教学平台涉及的关键技术主要有四个方面，如图3所示：

图3网络教学平台-关键技术

（一）动态网站建设技术

在网络教学平台中，各种文字、音频、视频等资源的整合及综合管理需要一个动态网站平台作为基础支撑，网站的作用是一个内容的载体，根据英语口语教学的内容需要进行添加、修改、删除，并对学生、教师等用户的空间进行权限管理。

（二）屏幕语音广播及监控技术

本文设计的网络教学平台贯穿于课堂教学和课外教学之中。学生始终是学习的主体，教师起着设计、实施、指导的作用。因考虑到中职学生的层次性和自觉性及实际教学情况的复杂性，在计算机机房环境下的课堂教学中要控制好课堂秩序，教师需要一个辅助的控制工具，即目前计算机机房普遍应用的屏幕语音广播及监控软件。教师需要统一示范和讲解时，就锁定学生的计算机屏幕，以便学生能集中注意力；教师需要一对一语音对话时，可以利用语音对讲功能进行英语口语对话指导；发起讨论时，可进行小组语音通话对讲。

（三）语音合成、语音识别技术

学生在进行英语口语任务训练时，出现单词或一段英文读音不准确时，可以将单词或成段内容录入语音合成系统中，播放出正确的读音。较之金山词霸只能读单个词汇，语音合成软件优势在于可以处理成段英文的自然朗读。

当学生借助人机跟读、人机对话系统进行训练时，采用语音识别技术由计算机播放出标准读音，学生先模仿跟读，然后进行对话练习，从读逐步过渡到说。语音识别技术的另一个优势是可以在学生读完后立即评判读音的正确程度并给出分值。利用该技术还可以实现单元测试和期末考试的自动化考核。

（四）音视频处理技术

学生在课后完成拓展任务训练时，需要将自己的作业内容录制保存为音频文件，然后上传到自己的网站空间中，供其他学生参考及教师检查。教师需要将音频的录制、播放、上传、下载整合至网站中，以便随时随地进行教学，突破时空限制，打通课内、课外教学环节。

教学情境导入、任务演示也需要在网站中整合视频处理技术。例如第一口语网就收集和整合了优酷、土豆等大型视频网站的英语口语教学视频，分门别类地进行了二次整理，包括了几百个大类成千上万个口语视频，题材丰富、种类繁多。教师可以根据每节课的任务目标选择适合的视频添加到课件中。此外，采用视频链接的方式嵌入视频，而不是把视频上传至网站服务器中，可以解决自建网站空间容量有限的问题。■

【参考文献】

[1]英语课程标准研制组.英语课程标准（实验）解读[M].北京：人民教育出版社，2004

[2]束定芳.外语教学改革[M].上海：上海外语教育出版社，2007

[3]高新涛，陈乖丽.语音识别技术的发展现状及应用前景[J].信息技术，2007（4）

[4]刘翠.浅谈小组合作学习在教学中的运用[J].课程教材教学研究（小教研究），2008（12）

[5]谢桂英.网络辅助大学英语口语教学的优势及模式[J].科技情报开发与经济，2009（2）

（作者单位：南京江宁中等专业学校）

文摘

提升职业院校教师创新能力的研究

一、教师创新能力发挥的有效性影响

1.教师创新能力在教学实践中的有效作用。具有创新能力的教师，对学生怀有公平、同情和关爱之心，在教学中善于打破学生被动学习的状态，启发学生思考和回答问题，善于创设民主和谐的教学氛围，与学生间平等相处，也愿意在课外和学生交往。

2.教师创新能力有助于其科研水平的提升。创造性教师是教法的研究者，必须研究终身学习和创新学习的方法、原则等。同时又是学法的研究者，主要是对学生掌握知识、运用知识、创新知识等方法的指导和研究，特别是要加强培养学生对知识的学习能力、选择能力和创新能力的研究。

二、教师创新能力提升的途径

1.教师自身对教学创新的积极追求。教师敬业，就会善于学习、研究和思考教学问题，有意识地进行知识更新，逐渐形成获取、处理、使用各种信息的能力，不断增强自我发展能力。富有创新性的教师在教学中注重理论联系实际，教学问题不仅富有启发性，而且有幽默感，体现对学生的热爱、关注、尊重和信任。

语音识别

第1篇

第2篇

第3篇

第4篇

第5篇

第6篇

第7篇

第8篇

第9篇

第10篇

第11篇

第12篇

中国语音学报

音乐教育与创作

出版与印刷

按摩与导引