HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 语音视频

语音视频

时间:2023-05-30 09:27:26

语音视频

语音视频范文1

【关键词】语音 视频 编码 遥测

1 引言

在飞行试验中,为了掌握试验机的人机工作状态,飞行员与地面指挥员通过无线电台进行语音交流传递信息,这种半双工的“问、答”式工作方式易分散飞行员注意力,不利于试验任务的执行。如果将飞行员“全部语音”传输到地面,结合“问、答”方式,试飞工程师和地面指挥员就更容易全面的掌握试验机的工作状态。

同样机载测试的模拟视频遥测是将摄像头输出的视频信号直接调制发射传输到地面,一路视频信号占用一套遥测设备,非常占用资源。

为了解决上述问题,首次将语音视频信号同时采集,采用基于ADPCM和MPEG-4的数字编码方式[1],通过IRIG-106标准的PCM数据帧将数据流实时遥测到地面站,地面站接收信号后通过软件解码实时还原出语音视频信号。

2 语音编码方案

2.1语音编码的概述

语音编码的方法有三种:波形编码、参数编码和混合编码。

波形编码能使重建语音波形保持原语音信号的波形形状,它具有适应能力强、语音质量好的优点,但所需的编码速率高,如脉冲编码(PCM)、自适应差分脉冲编码调制(ADPCM)等;参数编码通过对语音信号特征参数的提取及编码,保持了语音的语意,所需的编码速率比较低,但合成语音质量较差,如LPC-10、MPE-LPC;混合编码采用了合成-分析的方法,克服了参数编码的缺点,在中低速率上获得了高质量的语音编码,大大节省了传输信道容量及存储量,为不断拥挤的通信频带提供了一种解决方法,混合编码有CELP、LD-CELP、ASCELP 等编码方式。

另外,语音算法的选择除了压缩率外, 更应该侧重低延时、低复杂度和语音的传输质量。

2.2基于ADPCM原理的语音编码原理

之所以要对语音进行压缩,因为语音信号本身的A/D转换会导致存储容量需求的增加及传送信道带宽的增加。如一段44.1KHz,量化精度为16bit的立体声语音信号,其一分钟占约10M的存储容量。如果直接用PCM码对之进行编码并存储和传输则存在非常大的冗余度,可对其进行4:1或16:1的压缩。

脉冲编码调制(简称:PCM)是使用最为广泛的调制方法。在PCM的调制过程中,将输入的模拟信号进行取样,量化和编码。这种方法通过用脉冲编码来代表取样后的模拟信号的幅度。语音信号通过PCM编码后得到的信号,最能够保持其真实度,但是其需要的存储空间及传输带宽也很大,所以就有了ADPCM语音编码技术,要了解ADPCM语音编码下面先介绍其他几种语音编码原理。(1)差分PCM编码原理。差分PCM(即DPCM)记录的不是信号的绝对大小而是相对大小,因为信号的相对大小变化比信号本身要小,码位用的也比较少。差分系统就是利用这种信息的冗余,不记录信号的绝对大小,而是记录相邻之间差值的大小。差分编码采用预测编码技术,从输入中减去预测值,然后对预测误差进行量化,最终的编码就是预测值与实际值之间的差值。解码器用以前的数据对当前样值进行预测。这种方法使用的比特数较少,但它的性能决定于预测编码方法以及它对信号的变化的适应能力。(2)增量调制(DM)编码原理。增量调制(DM)是一种特殊简化的DPCM,其只用1bit量化器,因为只用一个量化级来代表样值的变化,为了跟踪信号的变化,必须使用高的采样频率。在DM中,存在两类误差,一种是斜率过载误差,其产生原因是语音波形幅度发生急剧变化时,译码波形不能充分跟踪这种急剧的变化而产生的失真;另一种是颗粒噪声,因为在无声状态或信号幅值固定式,量化输出都呈0,1交替序列而产生的。(3)自适应增量调制(ADM)编码原理。一般情况下,颗粒噪声对音质的影响比较大,所以要对增量调制的的幅值取得足够小,但是取得足够小斜率过载失真就会比较大,为了减少失真就需要提高采样率,这样就会影响信息压缩的效果。所以为了解决上述问题,就出现了自适应增量调制(ADM),其原理为:在语音信号的幅值变化不太大的区间内,取小的值来抑制颗粒噪音;在幅值变化大的地方,取大的值来减小过载噪音。其具体实现方法为:在颗粒噪音不产生大的影响的前提下,确定最小的幅值。在同样的符号持续产生的情况下,将幅值增加到原来的2倍。即当+ 、+ 这样持续增加时,如果下一个残差信号还是相同的符号,那么再将幅值增加一倍,如此下去,并且确定好某一个最大的幅值上限,只要在这个最大的幅值以内同样的符号持续产生,就将幅值继续增加下去。如果相反,残差信号值为异号时,就将前面的幅值设为原来的1/2,重新以/2为幅值。

2.3 基于ADPCM原理的语音编码原理

自适应差分脉冲编码调制(简称为:ADPCM)用预测编码来压缩数据量。它结合了ADM 的差分信号与PCM的二进制码的方法,是一种性能比较好的波形编码。其根据语音信号具有短时平稳性的非平稳随机过程及相邻样点间有着很强相关性的特点,采用自适应量化和自适应预测技术对语音信号进行编码。它的一个重要特点就是可以在较低的数据率的情况下,获得较高质量的重构语音。

其核心思想为:(1)利用自适应的思想改变量化阶的大小,即使用小的量化阶去编码大的差值;(2)使用过去的样本值去估算下一个输入样本的预测值, 使实际样本值和预测值之间的差值总是最小。编码器和译码器都是根据前面出现的PCM 抽样值对下一个PCM抽样进行预测,然后在接受端再恢复成先前的PCM信号。所以,发送端只需要向接受端发送预测值与实际值的误差。由于正常情况下,这些误差的幅度要比原始信号的幅度小很多,所以,对此误差进行编码所需代码的位数要比对原始信号系统编码所需要的位数少很多,从而达到压缩的目的。

ADPCM编码方法之所以是一种比较好的编码,因为其虽然有着较好压缩率,但其音质也比较好(MOS值达到4.1,最好标准为5)。另外其算法延迟较小,实现简单,成本较低。

3 视频编码方案

视频编码技术是基于MPEG标准,MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码以减小信息表示方面的统计冗余度。这几种技术的综合运用,大大增强了压缩性能。

MPEG标准主要有以下五个:MPEG-1, MPEG-2, MPEG-4, MPEG-7和MPEG-21等。这些编码技术都是很成熟的技术,在我们的方案中,对具体原理部分我们就不加以叙述,我们会比较下各种编码的优缺点,然后选择一种编码方案作为我们系统的编码方案。

3.1 基于MPEG-4视频压缩

在本系统中,我们选择MPEG-4编码技术作为我们的视频编码方案,因为在之前的MPEG-1,MPEG-2等都是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:(1)将图像固定地分成相同大小的块,在高压缩比情况下会出现严重块效应,即马赛克效应;(2)不能对图像内容进行访问,编辑和回放等操作;(3)未充分利用人类视觉系统特性。

MPEG-4采用了新一代视频编码技术,它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变,其核心编码技术是基于AV对象(AVO,Audio visual object)的编码、存储、传输和组合。

3.2 MPEG-4视频压缩关键技术

MPEG-4除采用第一代视频编码的核心技术外,还提出了一些新的有创建性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的完善和改进,其关键技术有:(1)视频对象提取技术:MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩,因此视频对象提取即视频对象分割,是MPEG-4视频编码关键技术,也是新一代视频编码的研究热点和难点。(2)VOP视频编码技术:VOP(视频对象平面)是MPEG-4编码的核心概念,其在编码过程中,针对不同VO采用不同的编码策略,即对前景VO的压缩尽可能保留细节和平滑,对背景VO采用高压缩率的策略。这种方法不但克服第一代视频压缩中的方块效应,也提高了压缩比。(3)运动估计与运动补偿技术:MPEG-4采用I-VOP,P-VOP,B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索技术和重叠运动补偿技术,同时又引入重复填充技术和修改块(多边形)匹配技术以支持任意形状的VOP区域。

4 语音视频实时遥测系统的实现

通过上面的叙述,我们知道原始语音信号和视频信号的实时遥测非常占用资源,所以我们需要对其进行编码并压缩。在本方案中,视频压缩支持三路复合视频中的一路或者一路S-端子视频输入信号进行采样编码成数字信号,然后利用MPEG-4编码模块进行视频信号的压缩。同时可以接受另外一路通过ADPCM编码原理进行压缩的语音信号,以实现语音视频编码的混合。

MPEG-4视频信号和ADPCM语音信号同时进入到MPEG-2模块形成一个MPEG-2传输流,一个MPEG-2传输流是某些固定长度(188字节)的数据包。将这些数据包按照数据采集单元的底板接口通信协议分解成16位字,以参数形式插入到标准的IRIG-106 PCM数据帧中并进行遥测。

地面接收站接收到遥测信号后,通过地面解调设备和软件将语音信号和视频信号从PCM流中实时解调还原出来供地面人员监控。其系统框图如图1所示。

5 结语

通过对语音视频信号进行数字编码,经机载测试系统的遥测发射机进行遥测发射,这样既减小了带宽,又能使多路视频信号通过一条PCM流遥测下来;且语音信号的ADPCM码可以加入到视频信号的MPEG-2流中,进行混合编码,这样大大提高了效率,也节省了硬件资源。

按现有飞机的实施方案,1路语音加视频信号进过PCM编码后的位速率1.5Mb/s左右,而现有的机载测试系统PCM遥测发射机的遥测带宽有10Mb/s,这样1路遥测系统可以遥测6路视频加语音信号,如果用传统模拟视频发射机就需要6路遥测系统,且飞行员语音还要单独外通过无线电台方式与地面交流。

该方案经过系统调试和飞行试验,能够实现语音和视频信号的同步。采用该方案,使用一套PCM遥测系统可以遥测多路语音视频,大大节约了硬件资源和成本。

参考文献:

[1]廖广锐,刘萍.基于ADPCM语音压缩算法研究[J].计算机与数字工程,2007,第7期.

[2]林志锋,黄华灿,李学等.ADPCM语音压缩编解码器的FPGA实现[J].数字信号处理,2009,第33卷第5期.

语音视频范文2

运用

【中图分类号】 G633.3

【文献标识码】 A

【文章编号】 1004―0463(2016)

11―0095―01

目前,音视频资源的影响范围非常广泛,因为它包含丰富的文化信息,具有极强的艺术感染力。因此,在中职语文教学课堂中引入音视频资源已是非常普遍的现象。音视频资源的引入,改变了传统的语文教学方式,激发起学生学习的兴趣,进一步提高了语文课堂的教学效率。 然而,近年来这一原本有效的手段似乎失去了魅力。播放音视频资料时,“师热生冷”,学生的反应与教师的期望有较大的出入。对此,笔者陷入了深深的思考。

一、音视频资源运用过程中产生问题的原因分析

1. 运用音视频资源的方法比较单纯。许多老师对音视频资源的认识普遍存在误区,如题材选择的范围比较狭窄,很多老师往往把目光在电影、电视剧上;运用的方法也很单纯,不少教师不懂截取或剪辑,而是下载后直接播放,观影占据了整个教学的大部分时间,观看时又缺少必要的引导、评论和点拨,仅局限于“放电影”和“看电影”。于是,语文课变成了影视观看课,课堂上学生自由散漫,完全不在状态。

2.频繁使用音视频资料。音视频资源被引入课堂已有多年,不少中职教师都认为音视频资源在课堂教学中可以改变传统的教学方式,能调动学生的学习积极性。所以许多语文老师在上课时都运用了音视频资料教学。然而现在学生获取信息的途径较多,尤其是利用手机、网络获得的音视频资源比较丰富。频繁运用后,学生也就很容易产生听觉视觉疲劳。

3. 学生欣赏水平较低。中职学校的学生文化基础、知识水平普遍偏低,大都知识面狭窄,对传统文学接触较少,欣赏水平有限,许多应该了解的文化常识都不清楚。因此那些根据名著改编的影视资料,由于与我们所处时代差距较大,大部分学生都不感兴趣。

二、音视频资源融入中职语文课堂教学的方法和策略

笔者经过调查分析认为,想要提高影视资源的使用效率,关键在于作为引导者的教师在日常教学中要了解学生,认真备课,做好PPT,适当插入音视频资源,并选择较好的切入点。

(一)围绕教学目标,以学生为主体,精心选择音视频资源。

1.围绕教学目标选择音视频资源。教师要有明确的教学目标,对音视频教学资源要有足够的了解和认识,根据教学目标来决定音视频教学资源在课堂中的地位和作用。教师要了解学生的知识背景和上课欲求合理确定教学目标。所选择的音视频素材要能够帮助学生理解文本,帮助教师达到本节课的教学目标。

2. 以学生为主体选择音视频资源。要解决课堂中“师热生冷”的局面,就得始终把学生的需要放在第一位。教师在备课时要深入了解学生对于相关课文涉及到的背景知识的掌握程度,充分估计学生对音视频资源的理解和鉴赏能力,然后合理选材。比如:在《林教头风雪山神庙》的教学中,笔者一开始选择了电视剧《水浒》中的一集,效果不佳。后来,经过考虑选取了更通俗的香港电影《英雄本色》,学生就很感兴趣,对比学习,课堂氛围活跃了,教学效率也提高了,

3.以课文内容为基础选择音视频资源。根据课文内容选择一些历史文化、科普宣传音视频资源。例如,在讲授李白的诗歌《将进酒》时,不可避免地要介绍诗歌的创作背景和诗人的经历。笔者选取了纪录片《千秋诗圣》中《将进酒》一节,视频声图并茂,短短10分钟,诗歌背景、诗人经历、诗歌内容,学生们就全清楚了。

(二)设计教学步骤,以有效为目标,合理剪辑音视频资料。

1.研读文本,精心设计教学步骤。比如在什么时候插入音频,插入多长时间,都要认真计算,合理安排。在播放过程中,教师给学生怎样做辅的讲解,这些都需要认真考虑,预先设计,不能因为播放音视频资源而冲淡教学主题。

2.制作课件,合理剪辑音视频资源。在教学上,怎样剪辑并播放音视频资源,要根据具体内容、教学目标、具体学情采取适合的策略。通过研究,笔者认为最行之有效的方法是在课堂教学的关键点上合理使用影视素材,一般而言,每次播放在2-3分钟左右,最多不超过7分钟。

语音视频范文3

不久前,微博第一案开审,奇虎360董事长周鸿t因在微博某些关于金山的个人观点被金山告上法庭;著名科普作家方舟子因其妻子被某记者报道,在微博上点名批评不少媒体人士,还连带把他们所从业的媒体也视为“谣言小报”;同时微博也成为电子商务大佬刘强东和李国庆斗法的舞台……

微博已经成为人们之间沟通的主要方式。三五好友通过微博得知彼此的近况,也通过微博了解新闻媒体的各类报道,甚至微博成为互联网公司的营销利器。

微博的发展远远超出了我们的想象,新浪、腾讯、搜狐等网站都在倾力发展微博事业,并将此业务作为公司的重点来抓,而微博的盈利方式究竟是什么也是各大网站一直在探索的。

2010年11月,新浪携手红杉资本、IDG资本、创新工场、云锋基金、德丰杰五大顶级投资机构,正式启动国内首个针对微博应用开发的基金――中国微博开发者创新基金。

以此来培养和支持新浪微博开放平台上的优秀应用产品,投资方向涵盖了手机应用、工具、内容和游戏等。其中,手机应用包括手机客户端、地理(LBS)、娱乐游戏应用等;工具类包括电脑客户端、插件和数据挖掘统计等;内容类包括招聘求职、婚恋交友、视频、音乐、美食和股票投资等;游戏类主要包括基于社交关系的游戏应用。

无论是从成本支出还是从模式创新来说,新浪的计划无疑都已迈出了成功第一步,开放平台,借力第三方最终实现双方共赢。同时,从第三方的发展来看,中国的第三方开发者总量已经超过十万,但绝大多数是几人或十几人的小团队,甚至是个人开发者。在资金支持等方面存在一定的局限性。

易观商业解决方案公司的最新调查显示,国内第三方开发者群体或个人在商业上的共性主要表现在三个方面:首先,由于人员和资源有限,希望更多专注于产品研发本身,而由平台商提供营销、推广、计费等渠道;其次,更愿意跟随成熟的商业模式;再次,对平台商忠诚度较低,更关注平台商带来的价值而不是某家平台商本身。

这些软肋的存在,使得众多第三方开发者更需要一个强有力的支持者。我想,除新浪外,看到第三方的优势和弱点的大公司不在少数,其中还包括以通信类技术起家的Dialogic公司,该公司一直专注于在融合通信领域的创新发展,尤其是对多媒体业务的技术支持。像新浪这样平台共享,支持第三方开发,Dialogic在很早之前就有类似的平台WMS(Web Media Server),只是更倾向于具体技术类。WMS为传统互联网的开发者和通信网的开发者提供了一个较低门槛的开发平台,且同样适用于更丰富体验的微博应用的开发。

相信在不久的将来,借助Dialogic的Web Media Server,微博与多种通信方式相结合,将可以展现更多的语音及视频体验,改变当前微博以文字为主的现状,为微博呈现更多样化的未来。在微博中引入更多的通信方式,与电信计费相结合,对于微博服务商及运营商将会带来新的盈利模式。在今年的微博应用开发者大会上,新浪透露正在开发“语音微博系统”。显然,这样的创新应用将成为微博的盈利模式之一,微博已曙光乍现。

(作者系著名互联网专家,资深分析师)

语音视频范文4

关键词:多媒体语料库;建库;标注;检索;定位播放

中图分类号:TP319 文献标识码:A 文章编号文章编号:16727800(2014)001008003

基金项目基金项目:上海市民办高校重点科研项目(2013)

作者简介作者简介:韩朝阳(1970-),男,硕士,上海杉达学院讲师,研究方向为软件开发、计算机辅助外语教学。

0 引言

多媒体语料库是指由文本、音频、视频等多种媒体形式共同构成的语料库,其在外语教学中的优势已被一些专家学者所认可(Ackerle,2007;Braun,2007;高琳琳,2008;)。然而,多媒体语料库的构建技术却并不是大部分语言研究者所能掌握的,且相关检索应用工具也极其少见,致使多媒体语料库在外语教学和研究中不能得到充分应用(吴进善,2010;杨林伟,2012)。

为此,我们研制了一个集多媒体语料库构建、标注、检索与定位播放的多媒体语料库管理系统(Multimedia Corpus Management System,简称MCMS)。本文将主要介绍MCMS的总体框架、设计方法及其技术实现。

1 总体框架

MCMS主要包括建库、标注、检索、定位播放4个功能模块(图1)。

在建库过程中,当用户向MCMS提交一个音频或视

频文件及其对应的字幕文件后,建库模块会分别自动将音视频文件和字幕文件进行分析并保存在相应的文件夹和数据表中,实现从字幕到音视频文件的对应关联。语料入库后,用户可以通过标注模块对语料进行场景标注、人物标注等多维立体化标注,并将标注结果自动存储在数据表中。用户利用检索模块可以通过音视频的元信息、标注信息、字幕文本信息实现对多媒体语料库中音视频语料的检索。检索完成后,定位播放模块能够根据检索信息,自动将当前检索信息对应的音频或视频调入播放器,并直接将播放器的开始播放点设置到该检索信息对应的时间位置点。

图1 功能模块

2 MCMS主要术语及说明

(1)音频文件:主要包括歌曲、说话者的录音等计算机可识别的文件,这类文件常用的扩展名为:.mp3、.wav等。

(2) 视频文件:主要包括电影、电视剧、说话者的录像等计算机可识别的文件,这类文件常用的扩展名为:.mp4、.avi、.rmvb等。

(3) 字幕文件:用来保存字幕的文件。用来保存音频字幕文件的扩展名为“.lrc”,用来保存视频字幕文件的扩展名为“.srt”。

(4) 字幕开始时间:指音、视频文件中播放每句字幕开始的时间。

(5) 字幕结束时间:指视频文件中每句字幕播放结束的时间。

(6) 场景及场景标注:场景是在视频文件中描述一个相对独立事件的视频片段。场景标注是指用MCMS的场景标注模块对某个场景在视频播放中的开始时间和结束时间进行确定并保存到数据库中。

(7) 元信息:即关于数据的信息,是指用来描述音频文件或视频文件特征属性的信息,如文件类型(音频或视频)、内容名称(电影名称、歌曲名称等)、语言类型、出版商、出版日期等。

(8) 单语多媒体语料库:字幕只有一种语言文字构成的多媒体语料库。

(9) 双语多媒体语料库:字幕由两种语言(一般指原语和目的语)构成的多媒体语料库。

3 多媒体语料存储方法

MCMS采用MS Access数据库和磁盘存储相结合的方法对多媒体语料中的音视频文件进行管理。在向语料库添加语料时,MCMS首先为每个音视频文件分配一个唯一的文件编号(FileID),然后把要添加的音视频文件在保证扩展名不变的情况下重命名为该FileID并保存到MCMS系统的Resource文件夹中。同时,将当前音视频文件的FileID、元信息内容作为一条记录添加到数据表tbFileInfo中,从而将磁盘Resource文件夹中的音视频文件、数据库中音视频文件的元信息通过FileID建立关联。

图2 多媒体语料入库界面

图3 多媒体语料存储方法

4 字幕信息数据库管理方法

为有效管理字幕信息,MCMS会在多媒体语料入库时自动解析字幕文件并将字幕信息逐行保存到一个关系型数据库的tbScriptInfo数据表中,表1所示即是该数据表的全部字段数据结构及说明。

MCMS是分别依次逐行对源语言和目的语的字幕文件进行解析的。以解析源语言字幕文件为例,MCMS对

字幕文件处理的步骤包括:①把标记每行字幕开始时间的

字符串和结束时间的字符串换算为以毫秒为单位的整数;②提取字幕文件中每行字幕的内容;③计算每行字幕内容的长度。若字幕为英文则计算单词个数,若字幕为中文则计算汉字个数;④把解析和计算结果按照一定序列格式存放在一个数组中。

最后,MUCPPS的字幕分析模块将整合解析结果,把表示每行字幕信息的内容和对应音视频文件的FileID作为tbScriptInfo的一条记录,依次循环添加到数据表tbScriptInfo中。

为确保磁盘和数据库管理的同步,MUCPPS采用了“事务交易(Transaction)”技术。这样,就又利用FileID将同一个多媒体语料的元信息、字幕信息、文件信息建立了关联。

5 检索与定位播放技术

根据多媒体文件的线性播放特点,MCMS采用“时间标记”方法,实现由字幕信息索引音视频文件内容的多媒体语料库检索与定位实时播放技术。MCMS为用户提供了元信息、标注信息、词语文本等3种模式的检索。以词语文本检索模式为例:①当用户设定检索条件后,检索模块就会对字幕信息数据表tbScriptInfo的OriginalScript或TargetScript字段进行检索,以获得符合条件的记录行;②根据记录行提供的FileID、开始时间等信息,MCSC向播放器中自动加载相应的音视频文件并从给定的时间点开始自动播放。这种以文本为焦点、时间点为标记的检索技术,可绕过当前计算机对多媒体内容识别检索的难题,能够为多媒体语料库在外语教学研究中的应用提供有效途径,其部分代码如图4所示。

图4 部分代码

6 结语

MCMS不仅可以使用户快捷方便地构建个人多媒体语料库,还可以通过其提供的检索和自动播放技术实现对

多媒体语料库的检索,为多媒体语料库在外语视听、仿说、词汇以及影视翻译等教学与研究方面提供有效的平台。未来,我们可以将MCMS与网络语言实验室、网络课件、自主学习等系统资源进行整合,构建全方位外语学习平台,实现平台与课程内容对接,动态提取课文短语并进行定位播放,实现多媒体文件背景知识的动态挖掘。

图5 检索并自动定位播放包含单词“go”的字幕行

参考文献参考文献:

[1] ACKERLEY K,F COCCETTA.Enriching language learning through a multimedia corpus[J].ReCALL, 2007(6).

[2] BRAUN,SABINE.Designing and exploiting small multimedia corpora for autonomous learning and teaching[J].Language & Computers,2007(5).

[3] 高琳琳. 大学英语多媒体语料库的建设与开发[J].沈阳工程学院学报,2008(4).

语音视频范文5

关键词:语音识别技术;内容监管;应用

中图分类号:TN912.34 文献标识码:A 文章编号:1671-2064(2017)08-0020-01

随着广播电视管理的不断完善,对电视节目内容的监管也越来越严格,对音频搜索等技术的需求也在逐渐增加。但是,音频搜索技术还有很多难题尚未解决,如中文分词瓶颈、第三方数据存储量限制、数据处理分析瓶颈和音频识别准确度等等,这样在应用时会出现很多问题,相关部门需加大研发力度,让音频识别技术更加完善和规范。

1 语音识别关键技术介绍

1.1 语音模型自适应技术

因为环境、人的性别和口音等因素的干扰,语音数据会产生较大变化,在特殊条件下的训练无法推广应用,而自适应就可以根据测试数据进行调整避免误判。在变换的自适应中,采用相同的变换更新参数,当自适应模型参数确定后,就可以用少量自适应数据变换方程,利用变换方程来重新估计模型参数[1]。一般来说,变换方程的数目小于目标模型参数,所以使用少量自适应数据就可以估计出变换方程。但是变换方程并不能探测出单个模型的特征,其渐进性较差,无法估计特征相近人模型。

1.2 说话人识别技术

说话人识别也被称为声纹识别,通过语音信号来识别说话人的身份。说话人识别主要分为两类,即开集识别和闭集识别,两者主要通过是否需要拒识来区别。开集识别更具普遍性,相比闭集识别技术更难。比如说,我们同时监听多个人说话,开集识别需要在多个说话人中找到指定的说话人。开集说话有两大缺陷:虚警错误和漏报错误,两者之间互相制约互相影响。在应用过程中,可调整识别模块更倾向于少虚警错误或漏报错误。研究中会通过等错误率去判断说话人识别系统的性能是否达标,如果虚警错误率和漏报错误率相等就是等错误率[2]。等错误率会受到测试语音长短、样本语音信道匹配度和说话人语音长短等因素的影响,如果说话人语音越长,测试语音也就越长,两者的差异也就越小,等错误率也会相应降低。

1.3 P键词识别技术

关键词识别技术分为单阶段系统和两阶段系统两大类,单阶段系统识别主要是在关键词系统中进行识别,当关键词出现变化,系统就要重新识别。两阶段系统是将一般意义的连续语音转换为文本,然后借助文本匹配途径找到关键词。这种系统比较灵活,可以随时变换关键词,是目前使用最多的关键词识别技术。通过语音关键词检测特定内容具有两个优势:首先是准确率更高,其次是关键词会多次出现。这样在内容监管中就可以允许出现漏检错误,不必每次都准确地识别关键词。

2 语音识别技术的具体应用

2.1 音频模板匹配技术

在已知节目片头曲的条件下,可以使用音频模板匹配技术进行自动打点和分割。因为受到音频压缩和信号传输的影响,导致模板之间存在差异,就可以通过提取多频带能量相对比率,利用各个频带能量分布趋势稳定的特点,就可以解决音频信号扭曲造成的不稳定问题。

2.2 音频切分和分类技术

在处理广播电视音频信息的时候,例如语音识别和检测关键词,需要先对广播电视的音频进行切分,一般都会采用静音检测法来切分,这样可以准确定位,为音频分类工作奠定了基础。对切分的音频片段进行分类,需要根据音频类型采取不同的处理方法。非静音主要分为语音和非语音两类,而语音又分为纯语音和非纯语音,非语音分为音乐和环境音。

2.3 自动发现技术

将广告识别作为案例,利用音频检测获取新广告:首先是针对未知节目和广告而设计,因此需要去除已知模板,这样可以减少计算量。接着是利用音频向量的快速搜索算法确定重复片段的预留位置,因为音频向量都是通过音频段的信息展开检索,就会出现音频字分布相同、但排列不同的音频片段,也会有一些错误片段,所以需要筛选过滤一遍。最后是利用音频指纹搜索找出音频向量模型的重复片段。因为音频指纹检索技术是利用音频帧的排列信息开展工作,所以准确度更高,可以检测出误报片段。完成上述步骤以后,就可以通过图像帧变化率来区分非广告的重复部分。因为广告的播出费用是按照播放时间来定的,所以广告商需要在有限的时间内向观众传递更多的信息,所以视频帧的变化率就比较大,而电视剧的变化率较小,这样就可以去除重播的非广告类节目[3]。

3 结语

随着科学技术的不断发展,语音识别技术的应用范围也越来越广,识别的准确度也在不断提高。广播电视对语音监管的要求也在提高,语音识别技术必须达到要求,这样不仅可以提高节目的搜索速度,对关键内容进行快速定位,还可以减轻工作人员的工作压力,提升监管水平。

参考文献

[1]陈彪,丁鹏.一种基于语音关键词识别的广播电视内容监测系统[J].广播与电视技术,2015,26(12):31-32.

语音视频范文6

从声卡中提取视频声音

本文的方案,主要是把视频中的声音转换成文本,这样不再需要听力,借助翻译软件就可以了解英文大意了。所以,首先我们要将视频中的音频提取出来。

通过麦克风录制声音会产生许多杂音,不利于后面的语音识别,我们可直接从声卡录制,尽可能保持原有的音质。这需要进行一些设置。在控制面板的“声音”中点击打开“管理音频设备”,切换到“录制”选项卡,然后在窗口空白处右击,选择“显示禁用的设备”,将会多出“立体声混音”项,右击它,选择“启用”(图1),并将它设置为默认设备。为防止混入麦克风的杂音,可暂时右击“麦克风”禁用它,等录制完毕再解禁。

设置完毕,打开相应的视频播放,并使用任意一款带录音功能的软件,比如系统自带的“录音机”程序录制就可以。录制的声音可以在第三方软件中编辑处理,比如在免费的音频编辑软件Free Audio Editor(http://)中打开上述录制的音频,选中前面的杂音部分,然后点击Delete删除等等。处理完毕保存即可。有些语音识别软件只支持WAV格式,此时可选择SaveSave file as将音频转存为WAV。

安装Free Audio Editor时如果选择安装了它的浏览器工具栏,它所带的Free Online Radio,不用进行设置可以直接在线录制网页中的声音,也很方便(图2)。

小提示

如果在声音中没有找到“立体声混音”项,可能因为你采用的是系统自带的声卡驱动。去所用声卡的官方网站下载升级到最新的声卡驱动,问题应能解决。

如果是已经下载好的视频文件,可以在Free Audio Editor中点击Import from Video,直接从视频中提取出音频。如果是英语光盘,可以选择Load CD,从光盘视频中提取音频。

将声音转成文本

语音转文本的软件不太好找,我们可以试试一些在线工具。打开网站http:///,点击右上角的Sign Up(注册),然后按提示填写简单的资料注册,选择FREE版(有多种限制),点击Get Free Account(获取免费账户)。打开注册时所用的邮箱,点击Voicebase发来邮件中的链接进入激活账户页面,点击Start Now(立即开始)按钮。

点击Upload Audio(上传声音),然后将上一步中录制的MP3音频文件(网站支持MP3、MP4、FLV、WMV等十多种流行的音视频格式)拖放到页面的Select files(选择文件)框中,点击Start Upload(开始上传)。上传完毕自动弹出对话框,选择FREE Machine Transcription(免费机器转录)项,语言为English(还支持德语、法语、意大利语、西班牙语等),最后点击Save(保存)就可以了,转录完成后网站会即时通知(登录网站查看Upload History,或通过邮件通知)。

绝对挑战

语音视频范文7

关于通过音频内容文字来搜索音频的概念,我们很快会联想到如小琦一样的搜索经验,似乎将音频与文字挂钩的技术早已不算是什么新鲜玩意,那么为什么日本产业技术综合研究所日前的一个音频搜索网站会得到业界如此广泛的关注呢?

不仅仅是歌曲

同样是小琦,这次当他想通过在节目里听到的字句来搜索一段相声的时候却出了问题,搜索答案五花八门,却找不到他想要的。

通常,我们使用最多的音频搜索都是针对于某一首歌曲的搜索,而它的歌词与歌曲的往往是同步的,整合这些数据并不需要多大的技术支持,因为这些内容都已经是现成的。然而除了歌曲,官方的一些朗诵、彩铃、评书、对白等作品,以及随着web2.0时代的到来,网络上涌现的大量草根族作品,如一段用录音笔随手录下的讲话、自我娱乐的博客音频等等,各种以声音为载体的信息也都通过网络这种渠道传播开来。如何在这样浩繁的数据库里查找所需的片断,成为困扰互联网搜索的难题。我们会通过其他的渠道如电视、广播等获得相关的信息,当我们被某一个信息吸引的时候,我们就有了获得它本身甚至更多边缘信息的需要。如果我们手里只掌握这个音频本身内容中的若干字句,没有它的名字、作者,乃至更多的信息,怎么搜到我们想要的?于是我们发现,寻常意义上的简单音频搜索已很难满足我们的需求了。

除了那些本身已有歌词文字可考的歌曲文件,更多的声音文件需要有一个后台将他们的内容转化为文字,方便用户的搜索操作。于是日本的这个名为Podcastle的网站经过多年探索,终于在6月上线,真正实现了通过内容文字进行音频搜索。这项服务采用声音识别技术,将声音数据全部自动转换成文字,收集到数据库中,使人们方便地进行音频检索。比如在网站搜索栏中输入日文“桉”,就能搜索到出现“桉”这个字的音频资料。

前人的脚印

其实早在一年前,波士顿初创公司EveryZing便推出了一款与前者设计原理异曲同工的视频和音频搜索引擎一一PodZinger,这是一款播客搜索引擎,它采用了BBN技术公司开发的一种语言系统,可将音频内容转换成文本,而且准确率在80%以上,足以体现音频的主要内容,能指导用户迅速在文件中找到某个搜索目标词出现的地方,并总结出音频内容的核心意思。

之前《互联网视频革命的第一枪》这篇文章曾对PodZinger的强大功能作过阐述,Podzinger可以在网络上抓取视频、音频文件,利用语音识别技术深入分析其文件内容,根据用户搜索需求提交相应结果。它有一种软件能够“听”视频文件中的语音,并转换成可供搜索引擎使用的文本。搜索结果中的每个词语都可以点开并载入音频剪辑,在指定的词汇点上开始播放。这无疑是一种革命性的突破。Podzinger的文本记录对于搜索者而言远比传统搜索引擎根据“元数据(Metadata)”搜索结果所显示的音频和视频剪辑更具有相关性。

EveryZing公司首席执行官Tom Wilde当年也曾如此骄傲地介绍这款产品:这么高的准确度可以带来许多新搜索功能,比如提供视频和音频的完整文本,以及直接跳到话语中某个词或者词组被说出的位置。这项技术还可以让公司提供与特定内容有关的有针对性广告,就好像Google推出的基于网页中文本的广告一样。

语音识别的难题

语音识别这个概念,我们并不陌生,从孤立词到大词汇量连续语音的识别(LVCSR),再到语音库检索,语音识别技术一直在向前发展,只是语音识别似乎离我们还有些遥远。“今后5年内,互联网搜索将更多地通过语音来完成。”今年的2月23日,比尔・盖茨在美国卡内基・梅隆大学发表演讲说道,这已数不清是他第几次在公开场合提及语音识别了。

对于中文而言,语音识别技术的实现较之英语面临着更多的困难。当南方人把“牛奶”念成“留来”的时候,究竟是机器识别错了,还是人错了?微软中国研发集团下属微软亚洲研究院语音识别组组长宋言哥平提出过这样一个问题。而不仅仅是南北口音的偏差,每个人都有独有的发音习惯。这就造成了语音输入很难规范的问题。其次,噪声也是一种不可抗的难题。“这很好理解,机器无法像人那样分辨出人声和噪声。”宋言哥平解释道,“同时,不同场景有不同噪声,训练的情况也不能匹配真实环境,这使语音识别在噪声中比在安静的环境下难得多。”

克服这些难题尚需时日,这也是为何中文音频搜索进展缓慢的一个关键原因。如今日本的音频搜索网站已经上线,中国的用户也期待着可以更快享受到这种先进搜索技术带来的更多便捷。

告别简单搜索时代

在信息疯狂膨胀的年代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。如今娱乐化风潮的涌起,使信息的需求早已不是以往单纯的纯文本而已,而是更大规模地扩展到音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音频、视频文件已经不足以满足用户的需求。

于是出现了这种通过将音视频内容转换成文字的搜索方式。

然而在简单搜索之外,还不仅仅是这种运用语音识别系统完成的搜索服务技术正在流行。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的新一代搜索市场。今年的4月份,在北京举行的国际万维网大会上,两位Google的工程师展示了下一代的图片搜索。新的图片搜索不再只是由图片相关的文字来判断图片的内容。Google将使用计算机分析图片中的内容,并关联关键字的排名。实际上,这就相当于图片搜索中PageRank。

语音视频范文8

关键词:小学低年级;语文拼音;微课教学;课前预习;课中教学;课后巩固

微课是指教师通过利用现代信息技术,综合考虑学生的认知水平、教学目标等多种因素,录制5-15分钟的微视频,让学生通过视频参与学习的教学方式。这种教学方式突破了时空限制,让小学生随时随地便可展开拼音学习。随着网络与电脑、手机等智能工具的普及,信息技术在人们生活中的地位也越来越重要,这就使微课教学变得十分可行。下面,笔者从课前预习、课中教学、课后巩固三个环节,讨论微课在小学低年级拼音教学中的具体应用。

一、n前预习

低年级小学生的自制力很差,尤其是他们在幼儿教育阶段中是以“玩乐”为主,他们的学习能力比较差。很多教师在展开语文拼音教学活动之前,总是让学生进行预习。然而,由于低年级的小学生并不了解预习的具体方法,总是漫无目的地将教材浏览一遍,甚至还有很多学生将教师布置的预习任务置若罔闻,将其抛之脑后,使得小学生的预习是低效甚至是无效。微课能够很好地解决这个问题,它能够为小学生指明预习方向,明确拼音学习的重难点知识。小学生在观看视频之后,可以将他们在预习中遇到的问题记录下来,留待在课堂上与教师、同学一起解决。“jqx”一直是小学语文拼音教学的难点知识,很多学生在多次发音失败之后,会渐渐丧失学习自信与兴趣。因此,我准备在课堂上利用微课突破本节教学难点。因此,我提前录制了一个为时5分钟的教学视频,让学生在自己的空闲时间观看视频,提前预习。在视频中,我为学生展示了母鸡、气球、西瓜等图片,在这些图片中标出拼音,并重点将这三个字母标为红色。紧接着,我为学生讲述了这三个声母的发音规则,并为学生示范了这三个声母的书写要求。学生在课下观看这个视频之后,要练习这三个声母的发音,并在四线格中进行书写练习。大部分学生都是在自己的家中与自己的父母一起观看视频,因此,他们可以直接在家长的帮助下,初步学习j、q、x的拼音知识。

二、课中教学

学生在幼儿教育阶段所学到的语文拼音知识十分零散,而小学教育阶段要求学生能够按照课时安排与教学计划学习,使得很多小学生开始产生排斥心理。小学语文拼音教学相对来说比较枯燥,很难引起学生的兴趣,利用微课这种形象、生动的教学方法,可以有效地将小学生的注意力集中在课堂上,使其对拼音教学活动保持兴趣。因此,教师可以利用微课突破拼音教学的重难点,节省课堂教学时间,使得小学生能够针对自己的问题展开学习。另外,微课可以将学生直接带入到某一特定情境中,调动学生的学习积极性。在“j、q、x”一课中,我提前收集了学生在预习中遇到的问题,发现大多数学生不会将jqx与i进行组合,也不会带调拼读音节。为了解决这个问题,我也录制了微视频。在课堂开始之初,我带着学生简单复习了拼音知识,然后便开始播放jqx与i组以及带调拼读音节的微视频,指导学生学习新知识。

三、课后巩固

微课的使用范围十分广泛,它不仅可以被应用在语文课堂上,还可以让小学生在课下根据自己的实际需求展开学习。因此,教师可以指导小学生在课后利用微课巩固拼音知识。新课改倡导小学语文教育要面向所有学生,促进每个学生的进步与发展。然而,随着义务教育的普及愈加广泛,使得小学语文课堂基本呈现了大班额的教学特点,这就使得教师无法兼顾所有学生,为小学语文实现让每个小学生都能够学到学生真正所需的拼音知识增加了难度。微课的形式十分灵活,小学生利用微课学习语文拼音,能够切实根据自己的实际选择相关的教学视频。在“jqx”一课结束之后,我让学生根据自己的实际情况,选择相关微视频,并且自主决定快进、后退、暂停、重复等,巩固所学知识。

总而言之,信息时代下的微课教学更符合新课改的教学,教师要利用微课指导小学生展开拼音预习学习活动,使得小学生有明确的学习方向;教师要在拼音课堂上使用微课,让微视频这种新奇的教学方式引起学生的兴趣;教师要指导小学生在课后巩固环节依赖微视频,使小学语文拼音教学面向所有学生。

参考文献:

语音视频范文9

【关键词】SCDMA;应急通信;通信车

应急指挥通信系统是油田公司通讯系统重要的组成部分。应急指挥通信系统主要以通信车为工作单元,通过车载视音频监控终端、语音调度终端与指挥中心进行通信。新疆油田公司一直希望能够有自己的应急指挥通信系统,为此通讯公司做了一些准备工作,已经有卫星链路、油网接入、NGN接入,并专门改装了一辆通信车,由于缺少通信车上的无线数字通讯系统,通信车一直未能投入使用。由于数据公司已经建有完整的SCDMA系统,故本文以信威公司的MICWILL SCDMA无线数字通讯系统为例,讨论SCDMA系统在油田公司应急指挥通讯系统应用的可行性。

1.SCDMA应急指挥通信车概述

SCDMA应急指挥通信车在传统卫星/微波指挥通信车的基础上增加了SCDMA宽带基站,一方面保留传统指挥通信车的卫星/微波/3G回程功能,同时通过SCDMA宽带无线通信技术以通信车为中心,为周围的工作人员提供无线本地接入功能。SCDMA无线本地接入网负责在视音频监控、笔记本/PDA、手机等单兵通信终端与通信车之间提供宽带无线数据通道;通信车内的业务服务器负责收集并处理单兵通信终端回传的数据,与指挥中心业务服务器协同工作为单兵通信终端提供服务;通信车通过有线/无线回程网络访问指挥中心的业务服务器,并可将本地处理完毕的数据回传到中心数据库。

图1 示意图

图2 网络结构图

2.SCDMA应急指挥通信车设计目标

通过卫星/3G回程网络、SCDMA宽带无线本地接入网构建一个随时在线的宽带无线承载网,并通过标准的接口/协议灵活的连接各种车载通信设备和业务服务器。SCDMA宽带基站使用标准的以太网接口和TCP/IP协议,能够灵活的连接现有指挥业务服务器和卫星回程网络设备,并能随着技术的发展,通过增加相应通信设备和业务服务器,灵活的完成现有指挥通信车的升级。网络结构如图2所示。

3.回程网络解决方案

应急指挥通信车通过回程网络连接到指挥中心,保证单兵通信终端能够通过通信车访问位于指挥中心信息网内的业务服务器和相关数据库。常见的回程网络技术包括:光纤回程、卫星回程,根据业务需求以及现有资源的不同,可选配不同的回程网络设备。

3.1 光纤链路回程

光纤传输具有衰减小、频带宽、抗干扰性强、安全性能高等优点,广泛应用于广域、城域、局域等各类通信网络的建设中。

光纤回程网带宽高、抗干扰能力强,但存在接入点位置相对固定的缺点。对于位置相对固定、并且需要经常监控的地点(如需要重点保护的历史、行政、军事机构附近),可预留光纤接口。在发生突发事件时,将指挥通信车部署在光纤接口附近,通过光纤跳线将指挥通信车接入光纤回程网,在指挥通信车与指挥中心之间建立视频、语音、数据传输通道。

语音、数据码流由车载复用/交换设备汇聚,视音频监控码流则通过视音频矩阵进行选择、编码。编码后的视音频监控码流与语音、数据码流通过车载光端复用设备复用后发回指挥中心,供指挥人员参考。指挥中心也可以采用同样方式将视频、语音、数据信息下传至指挥通信车。通讯公司现在拥有完善的市区、外探区城市光缆网及克——乌尔禾、克——乌鲁木齐光纤环网。

3.2 卫星链路回程

突发事件现场位置随机性很大,在无法使用光纤回程的情况中,可利用卫星链路作为光纤回程的补充。卫星通信具有不受地域限制,覆盖面广,通信距离远,站点设置方便,传输质量好等诸多优点,能够满足指挥通信车与指挥中心之间点对点、点对多点的视频、语音、数据传输需求。执行任务时指挥通信车在第一时间到达现场,车载卫星通信系统加电后利用天线自动伺服与控制系统,能够快速完成卫星对准,开通卫星信道,及时的在指挥车、指挥中心之间建立视频、语音、数据传输通道。通讯公司现在使用的是亚洲四号卫星。

3.3 SCDMA超级终端回传

如果在SCDMA的宽带网络覆盖区域,也可以用SCDMA超级终端回传,传输带宽可以达到4-8Mbps。

4.SCDMA系统功能

在提供语音调度功能的同时,SCDMA多媒体调度系统具备宽带无线接入能力,为覆盖区域内的所有终端提供宽带数据接入业务。用户可访问调度控制中心数据库,并接收调度控制中心下发的调度指令。通过BRAS,用户可访问Internet。

4.1 SCDMA多媒体调度系统支持以下语音调度功能

单呼、组呼、广播、会议、PTT话权抢占、追呼、紧急呼叫、强插、强拆、监听、终端状态呈现、动态重组、代接、禁话。

4.2 车载视音频监控

通过装配在通信车上的视音频监控设备、视音频编解码器等设备,可以将车载监控视音频、单兵回传视音频信息实时传送至通信车以及指挥中心;指挥人员可在获得相关授权后,可以访问现场实时视频以及存储的硬盘录像。

4.3 单兵视音频监控

通过SCDMA单兵无线视音频监控设备可以对事件现场进行移动、固定监控,将现场视音频信息回传至通信车,并最终通过通信车回传至指挥中心,协助单兵完成对现场环境的勘察。

4.4 多媒体调度

通过SCDMA应急指挥通信车,可以实现车载通信系统覆盖区域内单兵的话音调度、文本指令、行动方案,也可以实现通信车间的联动调度。

4.5 语音通信

通过车载语音通信系统,现场工作人员使用手持机在通信车的无线覆盖范围内进行通话,并可通过语音中继网关实现与通讯公司现有NGN之间的互通。

4.6 视频会议

通过装配在通信车上的视频会议终端,可以接入指挥中心的视频会议系统,参加指挥中心组织的视频会议,并将车载监控视频以及单兵回传视频实时传送给指挥中心视频会议系统。

4.7 录像存储

通过装配在通信车上的硬盘录像机可以实现对车载监控视音频、单兵回传视音频进行高清晰录像存储。

4.8 远程办公

现场工作人员可将笔记本/PDA通过SCDMA终端连接到通信车,并通过通信车的回程网络连接到指挥中心办公网,访问中心机房的服务器和数据库,实现现场工作人员的远程办公。

4.9 远程数据采集及控制

在对于远程数据采集以及远程设备监控,可在通信车无线覆盖范围内安排信息采集监控终端以及SCDMA无线终端,SCDMA无线终端负责将采集到的数据提交给通信车,并在通信车的指令下对远程设备进行控制。

5.结论

使用信威公司的MICWILL SCDMA系统能够较好的满足油田公司应急指挥通信系统的需求。

语音视频范文10

【关键词】音标教学;微课;重要性;设计原则;制作方法;应用

一、实施微课教学的重要性

随着我国逐渐走向经济全球化,英语成为国际化通用语言,因此学习英语的重要性是显而易见的,而对语音的掌握更是学习英语的基础。同时,伴随着现代化科学技术的飞速发展,英语课堂开始广泛运用多媒体等多种教学设备,在丰富学生课堂活动的同时,还为学生提供了更多的展示机会。以多媒体教学设备为基础的微课是新时代的产物,是以某一知识点作为主要讲解内容,并制作相应的视频加以记录的一种新型教学模式。它具有容纳知识量多、时间短等特点,在教育界得到学者的普遍认可。在英语音标教学中采用微课视频教学更是符合当下教育的发展理念。它可以改变课堂沉闷的气氛,缩短教学时间,减轻课堂教学的工作量。此外,它还可以作为学生课后自主学习的资源包,为学生复习、巩固课堂知识提供巨大的帮助,是课外辅助教学的重要手段。近年来,随着学者对微课的研究,人们对微课的认识也逐渐加深。教师应主动适应时展潮流,综合考虑学生个性特征、兴趣爱好、教学内容等多方面的因素,利用网络信息技术,明确微课的真正内涵,不断探索提高微课教学模式有效性的策略,激发学生英语学习兴趣,提高英语教学质量。

二、微课教学设计的主要原则

1.有价值性,值得学生去反复学习,因此教师在设计微课时要确定教学内容的合理性和实用性,不能偏离教学目标。2.有吸引力,即使内容再全面,但如果不新颖,内容枯燥,学生也容易失去观看兴趣。因此在微课中,教师可采用幽默的语言,并在讲述中设计一定的情境,以引起学生的共鸣,此外还可以抛出问题,给学生一定的独立思考时间。3.易于理解,设计中的内容应与学生熟知的事物相贴近,将理论和实际相结合,此外,使用学生较感兴趣的事物更容易达到理想的教学效果。

三、微课视频制作的方法

1.整合知识点。在中职生学习英语音标时,学生们均已经学习过汉语拼音;教师应将两者知识点进行区别和整理,让学生认识到英语音标学习与汉语拼音的学习同样是很简单的,进而提高学生的学习信心。在中职英语音标教学中,可将音标学习分为不同的课时,先设计对26个英文字母的学习,再学习音素拼读,将长短音对比施教,更有利于学生的理解。2.知识点细化。在将音标知识整理后,要将每一个音标加以细化,再据此制作微课视频。在制作教学视频前,先根据阐述的知识点设计PPT展板。在制造PPT课件时应选择颜色鲜亮、生动活泼、与实际生活相关联的图片;而文字的设置要大小适中,选取显眼的颜色,并注意页面的排版问题,尽量做到一目了然。在利用PPT课件教学时先要对其学习目标进行阐述,将教学的难点突出,并在结束时适当地加以总结。在完成PPT课件制作后,再实施微课录制操作。事先做好录制工具的准备工作。在录制过程中,可根据学生的心理特点,在讲课的同时画出相应的图片,更能吸引学生的注意力。同时,教师应根据演示视频中的发音图片,向学生讲解发音原理。在微课教学中,教师应适当地出现在视频范围内,以使学生能清晰地观察到教师发音时的口型,提高微课教学的效果。在微课录制完成后,教师应及时将其进行修剪,同时可利用录屏软件予以优化,进而提高视频的清晰度。另外还可利用PS技术将演讲者更换为学生喜闻见乐的头像。或将学生熟知的人物图片换成演讲者,让学生有身临其境的感觉,激发学生学习的热情。

四、微课在英语音标教学中的应用

1.课中合理地运用微课视频。在课堂教学中,教师可利用微视频以将教学任务展现出来,与图片、声音等相比,微视频更具有优势。在使用微视频时,教师在重点处要及时暂停并加以讲解,并将视频反复进行播放,使学生了解发音的关键。另外,教师应加大学生的练习力度,并及时纠正学生的口误。在课堂学习中,教师可通过不同的教学活动,组织学生分组练习。2.课后有效地运用微课视频。学生学习音标可获得短暂性的教学效果,但若不加以复习,三天内就可能逐渐将学习内容忘却,因此,加强学生课后的复习巩固势在必行。目前,市场上有各种英语学习辅助设备,但是良莠不齐,有的甚至会出现发音错误的情况,让重视孩子学习的家长即使想帮忙也力不从心。这种情况下,教师亲自制作的微课视频在学生的课后复习中就起到了很好的辅助作用。教师可将微课视屏以及发音注意事项等通过建立微信群的方式,将其发送到家长手中,使家长可随意下载。家长再根据微课视频的内容和发音注意事项对学生的发音学习予以指导。另外微课视频一般时间较短,且资源容量较小,因此学生也可将其下载到手机中反复观看,无形中也提高了学生自主学习的能力。总之,基于微课的英语音标教学打破了传统的教学方法,将抽象化的知识具体化,可以极大地提高学生的学习兴趣。因此教师要充分地利用微课视频,提高英语教学的质量。

参考文献:

语音视频范文11

关键词:声源定位;立体声场;音频游戏;树莓派

引言

目前全球视障人群的2.85亿中,中国约有1691万,他们因本身对于图像世界无法真切感受,精神需求显得尤为迫切[1]。近些年视障人群逐渐受到更多重视,但由于视障人群教育事业的不发达和对视障人士生活自理能力培养的不够重视,视障人士的权利并不能得到很好的保障。所以虽然他们也渴望与正常人群沟通;和正常人一样拥有丰富的娱乐方式、体验精彩的游戏世界,但由于生理上的局限,他们的业余生活往往十分单一。

现在市面上的游戏大多是基于图像,也就是视觉游戏,而仅仅基于声音的游戏很少或者还没有推广开来,尤其是针对视障人群开发的音频游戏,多为直接将文字转换为语音输出。在国外文献[2]中,Drewes等人开发了一款拟真的听觉游戏,它采用了携带式计算机和增强现实技术;而国内对于增强现实听觉技术的研究多以计算机专业的扩展研究为主,现有的研究主要有3D音频效果的实现和音频媒介的交互[3]。因此对于视障人群来说,用户体验方面并不够友好。我们希望开发出一种Audio-only的立体声音频游戏终端。Audio-only游戏与传统游戏的区别就是,玩家不再依赖视觉,而是通过听觉感知并操作游戏。而这种纯基于听觉的游戏,不仅在视觉障碍人群中有巨大的市场潜力,也给普通人带来更加丰富和新奇的游戏体验,它不仅是一种娱乐方式,还可以被用来训练听觉感知方面的某些技能,具有一定的教育功用。

1 项目的技术实现

1.1 基于麦克风阵列的声源定位

现有的声源定位方法主要分为三类:基于时延估计的定位方法、基于波束形式的定位方法和基于高分辨率空间谱估计的定位方法[4]。由于本设计目标人群将头戴耳机,在耳机两侧固定麦克风来实现简单的二维立体声定位,所以游戏场景中声源为近场声源。因麦克风为双阵元,而目前最常用的基于TDOA的近场声源定位法无法同时确定双阵元麦克风的声源到麦克风的距离和夹角,所以从实用与简易的角度出发,文章给出一个基于声音幅度大小的二维声源定位法。即拾取两个声道录音的时间片段并对其切片,各自提取出两个声道录音文件中声音的最大幅度及最大声音幅度出现的时间,通过比较两个声道该时间点出现的前后,确定出声源距两个麦克风的距离,从而简单判断出声源位置的左、中、右。

1.2 OpenAL实现立体声场重建

本设计的另一大创新点在于立体声场的重建,该重建是利用OpenAL软件实现的。OpenAL是跨平台音效API,设计给多通道三维位置音效的特效表现[5],其API结构主要包括三大对象,源

(Source)、缓冲区(Buffer)与听者(Listener)。源指的就是播放的立体声音效,可以想象成一张CD光盘;而缓冲区就是存储着音效数据的对象,可以想象成播放光盘的CD机;最后的听者,顾名思义,指的就是头戴耳机的玩家。通过查阅资料我们发现现阶段对于虚拟声重建技术的研究主要是基于头部相关传输函数HRTF(Head-Related Transfer Function)[6],该函数描述了声波从声援到人耳的传输过程,是人的生理结构对声波的空间滤波的结果。在实际应用中,利用耳机或扬声器重发用HRTF处理过的信号,可以虚拟出各种不同的空间听觉效果[7]。

1.3 矩阵键盘实现游戏交互

文章的游戏设计除了基于麦克风定位声源,也可以通过矩阵键盘进行游戏交互。为了实现这一功能,我们团队并不是直接将矩阵键盘与树莓派相连,而是将Arduino作为“中转站”,实现矩阵键盘的连接。Arduino的好处在于有键盘库和便于扩展接口。玩家在进行矩阵键盘交互时,只需要在相应的地方按下按键,键盘便会通过Arduino给树莓派传值,继而判断是否成功赢得游戏。

1.4 百度云语音实现指令交互

由于本项目的主要受众人群是残障人士,因此语音指令交互给残障人士提供了良好的用户体验,也体现了本项目的一大特点。通过查阅资料,我们发现国内外的语音交互技术与应用百花齐放,在不同语言交互技术的比较与实验之后,决定使用百度云语音技术实现语音指令交互。百度云语音开放原始API接口供开发者灵活实现各种语音交互应用。其语音指令交互包括两部分,语音识别和语音合成。玩家在使用我们的项目产品时,可以直接以语音的方式控制游戏,而不是世面上大多音频游戏中复杂的按键;另一方面,考虑到音频游戏的性质,百度云语音很好的解决了语音游戏指令的需求,即游戏指令是以语音的方式呈现给玩家,带来更好的用户体验与沉浸感。

2 应用

最终我们实现了一个基于Raspberry Pi的Audio-only音频游戏和交互硬件设计产品,以树莓派作为游戏终端,头戴式立体声耳机作为交互设备,而且通过矩阵键盘实现玩家与游戏的交互,以及麦克风矩阵进行声音收集以及声源定位。在此产品中,我们设计了三款音频游戏,分别是打地鼠、打蚊子以及动物农场。第一款游戏打地鼠,是基于声音强度的立体声音频游戏,通过矩阵键盘进行游戏交互,可用来锻炼玩家的听力以及反应力。第二款游戏打蚊子,是基于声音强度的立体声音频游戏,通过麦克风阵列进行游戏交互,可用来锻炼玩家的听力以及反应力。第三款游戏动物农场,是基于声音音色的音频游戏,通过矩阵键盘进行游戏交互,可用来锻炼玩家的听力以及记忆力。我们设计的产品不仅可以提供给玩家沉浸感十足的游戏体验,也可以达到教育与听力治疗效用。具体硬件如图1。

3 结束语

文章通过声源定位和立体声场重建技术,设计并实现三款音频游戏,并将树莓派作为该游戏的终端,结合头戴式耳机最终实现了基于Raspberry Pi的Audio-only音频游戏和交互硬件设计。该硬件设计可以提供给视障人群良好的游戏沉浸感以及一定的听力与教育效用,同时对于普通人群来说,也是一种新奇的游戏体验。

参考文献

[1]谢 涛,何子江.黑暗之光――北京市西城区视障人群文化生活基础设施现状调研[J].青春岁月,2012:352+351.

[2]孙青.Audio-only教育游戏中虚拟声定位的研究[D].南京师范大学,2011.

[3]易俊.基于立体成像与三维虚拟声音的增强现实系统的研究[D].武汉:华中科技大学,2007:29.

[4]于向丽,吕成国.近场声源定位算法研究[J].智能计算机与应用,2011,5:69-70+76.

[5]http:///wiki/OpenAL .OpenAL_互动百科[EB/OL].

语音视频范文12

    关键词:双MAC处理器架构,嵌入式Linux,多种多媒体格式, ADSP-BF561 双DSP架构,一核运行操作系统,一核进行数字信号处理

    Blackfin是ADI公司推出的一类新型的嵌入式处理器,专为满足目前音频、视频、通信应用等方面的计算需求和降低功耗而设计。而ADSP-BF533和ADSP-BF561是Blackfin系列中具有代表性的DSP处理器。本文将就BF533/BF561在网络多媒体中的应用作一定的介绍。

一.    Blackfin系列DSP的典型应用:

    汽车图像系统

    宽带无线系统 

    多媒体消费电子产品 

    数字视频录像机

    多声道VoIP 

    安防和监控 

    机顶盒 

    视频会议 

二.Blackfin系列DSP的应用趋势

    DSP在多媒体应用中的需求正在转变。目前,逐渐显露出对以下产品的市场需求:无线、多媒体产品应用、无线局域网、家庭网关和其他消费类产品;以及对于汽车和工业应用中要求高速信号处理的产品的需求也在不断增长。多媒体的应用,正逐渐走向网络化、多样化。目前的DSP需要满足快速增长的支持多种多媒体格式的产品的市场需求:

    视频: WMV ver.9, H.264, MPEG-4, MPEG-2, MJPEG

    音频: WMA Pro ver.9, MP3, MP3 PRO, AAC, Dolby Digital, DTS

    语音: G.711, G.728, G.729AB, G.723.1A, AMR

    无线通信: WLAN 802.11b, GSM/GPRS, EDGE & 3G

    传统的可编程体系结构已经无法满足目前有特殊要求的信号处理的需求。固化的ASIC芯片也无法满足目前多制式的产品应用所面临的成本、适应性以及快速推向市场的要求。而采用RISC/DSP相结合的架构现在已经拥有足够的处理能力,能够满足更广的音视频产品市场的需求。

三.    Blackfin系列DSP主要特性

    Blackfin系列dsp内核最高可达756MHz/1,512MMACs,可以支持多声道音频和VGA/D1视频的多媒体应用处理。加强了动态电源管理,采用0.8V的内核供电,以充分延长在手持设备应用中电池的使用时间。其中ADSP-BF533具有600MHz时钟频率和1.2GMACS(每秒十亿次乘法累加运算)运算速度;低价位的ADSP-BF531则具有300MHz/600MMACS(每秒百万次乘法运算)的性能。这两款Blackfin处理器兼具业界一流的数字信号处理(DSP)性能和微处理器(MCU)功能性并且支持嵌入式操作系统以满足当今嵌入式音频、视频和通信应用对高速运算和低功耗的要求。ADSP-BF533在达到600MHz性能水平时的功耗仅为280mW。为了充分发挥Blackfin体系结构的动态电源管理能力,该处理器集成了一个片内开关稳压器,它利用2.25 V ~ 3.6 V外接电源电压可产生0.7 V~1.2 V可设置的内核工作电压,从而降低了总体成本,并节省了外部电源元器件。

    这些新型Blackfin处理器还支持嵌入式操作系统,例如嵌入式Linux、ThreadX 和Nucleus操作系统。另外,Blackfin处理器内的视频优化功能能够实现完全可编程的D1/VGA实时视频和多通道音频处理而没有专门硬件或异构双内核解决方案的复杂性或不灵活性。使用这种可编程的Blackfin处理器,能使用户开发的产品快速投放市场,并且很容易支持新兴的多媒体格式,例如,MPEG-4,H.264和Windows Media。

四.    Blackfin系列DSP的内部结构

    BF533有较高的集成度,集成了较为丰富的接口,如图4-1所示: 图4-1 BF533模块图

•强劲的接口可支持ITU-R 656视频数据格式

•2个双通道全双工同步串行端口可支持8个立体I2S通道

•12 DMA通道支持一和二维的数据传输

•存储控制器可紧密连接多种外部存储器,如FLASH、SDRAM、SRAM和ROM

•3个可以支持PWM核脉冲宽度/时间计算模式的计时器

•可支持IrDA的UART

•SPI兼容端口

•实时钟

•看门狗计时器

•调试/JTAG接口

•支持1x到63x频率倍数的PLL

Blackfin处理器DSP内核结构,如图4-2所示:

    Blackfin DSP内核包括2个40位的算术逻辑单元(ALU)、2个乘法器/累加器(MAC)、4个视频ALU以及1个移位器。各个计算单元执行不同类型的操作:ALU执行算术和逻辑操作;乘法器执行乘法、乘法/加和乘法/减操作;移位器执行逻辑移位、算术移位、位的压缩和解压缩操作;视频ALU执行单指令处理多数据(SIMD)的逻辑运算,这种操作是基于8位数据的。

    计算单元通过数据寄存器组来输入/输出数据。数据寄存器组包含8个32位寄存器。每个32位的寄存器可以看成是2个独立的16位寄存器。例如寄存器R0可以看成由2个16位的寄存器R0.H和R0.L组成。另外寄存器组中还有2个40位的累加器Acc0和Acc1,他们是ALU操作的专用寄存器,主要用于乘法和加法操作。 

    程序控制器控制指令执行的流向,它包括指令的对齐和解码。程序控制器支持条件转移、条件子程序调用和零开销循环。循环缓冲器存储将要执行的指令。

    在目前的嵌入式多媒体应用中有一些采用了多处理技术的解决方案,一般的结构如图4-1所示,双内核引擎通过双口RAM无缝连接,形成了一个硬件/软件综合的平台,可以运行操作系统和使用标准API的应用:

    同样的多处理技术,也可以用在Blackfin系列DSP上。在这样的架构中DSP主要负责媒体处理、信号处理;而RISC则主要完成控制、包处理等等。

    但实际上Blackfin系列的处理器并不仅仅是一个单纯的DSP,它是一高性能的双MAC处理器,额外拥有其他类似微处理器所常见的一些特性,可以与普通RISC的MCU相媲美。如图4-2所示为OMAP架构的处理器和Blackfin系列处理器的对比:

    OMAP系列的处理器内部为ARM和DSP的双核结构,ARM内核负责运行嵌入式操作系统、应用软件等;C5X负责视频、图像处理。而Blackfin系列的处理器,可以同时运行嵌入式操作系统、上层应用和进行一般的信号处理。

    而Blackfin系列DSP处理器中BF561更是采用了对称多处理的架构,在一颗BF561芯片内部集成了2个BF533 DSP内核,如图4-3所示:

    BF561主频高达600M,并且支持并行处理,保证了其强大的数字信号处理能力,并且支持低电压低电流供电。能够满足多功能的数字消费类产品对于性能、功耗方面的要求。

    BF561灵活的多处理架构能够支持多种工作模式,如图4-6所示:

    第一种模式(DSP + RISC),BF561内部的2个核可以分为,一个可以用来进行信号处理;而另外一个则可以用来运行操作系统,进行以太网传输,以及其他控制相关的任务。

    第二种模式(PURE DSP),在信号处理过程中,可以将1个任务交给2个不同的核去处理,奇数帧由Core A完成,偶数帧由Core B完成;或者2个不同的任务也可以由Core A和Core B分别完成。处理器的性能得到了成倍的提高。

    基于Blackfin系列DSP的应用实例

    (1)IP机顶盒

    基于Blackfin+MCU/uClinux架构的嵌入式IP机顶盒的解决方案:

    其中,32位RISC MCU负责运行嵌入式linux,进行无线局域网/以太网传输、硬盘存储、音频编解码、文件管理以及控制等方面的处理。MCU从网络接收到的媒体流,可以作为存储到硬盘或者通过SPI接口(速率可达12Mbps)传给BF533,BF533专门负责H.264@D1格式的视频编解码。功能模块如图5-2所示:

    (2)可视VoIP电话

    随着多媒体技术和通信技术的快速发展,目前单一的语音通信方式已经不能够完全满足人们的通讯要求,人们迫切需要改善通讯方式。可视IP电话可以利用网络双向实时传输通话双方的图像和语音,达到面对面交流的效果。随着目前宽带接入的普及,为可视电话的推广和发展提供了一个很好的基础。

    下面给出了一个基于BF533和ARM9(400MHz) MCU的可视VoIP电话解决方案: 

硬件方面:

    SAMSUNG S3C2440 (400MHz)

    ADI BF533(600MHz)

    TFT LCD(3.5” 以上)

    FLASH

    SDRAM

    CCD摄像头

    视频 A/D

    音频A/D

    音频D/A

    以太网MAC+PHY芯片

软件方面:

    ARM9(400MHz)支持:

    操作系统(Linux)

    视频解码(H.264、MPEG4)

    音频解码(G.711、G.723.1、G.729、MP3)

    以太网通讯(TCP/IP协议栈等)

    H.323协议栈

    图形用户界面(GUI)

ADI BF533支持:

    视频采集编码(H.264、MPEG4)

    音频采集编码(G.711、G.723.1、G.729)

    回音消除

通过上面使用ARM9+BF533以及相关的软件支持,我们可以实现以下功能:

    在局域网和广域网内进行音视频的电话对讲

    多媒体娱乐功能:可以播放MPEG4视频和MP3、WMA音乐

    支持email服务

    支持SMS、MMS短信

    支持软件盘、手写输入

    可外接键盘和鼠标

可视电话的基本结构和核心技术:

1.    可视电话的基本结构包括:

    视频输入/输出模块,视频编解码器

    音频输入/输出模块,音频编解码器

    延时单元

    数据处理、存储单元

    系统控制单元

    网络界面单元

2.    可视电话的核心技术:

语音和视频压缩技术视可视电话的核心技术。可视电话作为通信终端产品,必须保证足够好的语音和视频质量,同时占用的带宽要尽量小。语音和视频压缩技术的发展目标就是:在保证压缩后的语音和图像质量的同时,尽量提高压缩率。 

    2.1语音编码技术

    语音通信视可视电话最基本的功能。受网络条件的限制,可视电话不可能占用太大的带宽。为了适应低码率语音通信的要求,ITU-T推出了G.72X系列语音压缩标准。其中G.723.1、G.728、G.729和G.729A,在IP电话中得到了广泛应用。不同的语音压缩标准所采用的技术提供不同的码率、时延和语音质量。

    2.2视频编码技术

    原始的视频数据需要占用非常高的带宽,如果需要通过网络传输必须在保证在一定的图像质量的前提下通过压缩技术尽量降低视频资料的码率,以适应不同的网络条件.因此视频压缩算法的效率决定了可视电话的图像质量和应用前景。

    目前在网络监控、视频点播的应用中,MPEG4格式的视频压缩算法较为流行,其码率一般在数百Kbps到1Mbps左右。ITU-T推出的低码率视频压缩标准对推动可视电话的发展和实用化起到了重要的促进作用。H.261是ITU-T推出的第一个低码率视频压缩标准,码率为p×64kbit/s,其中p=1~30,图像格式为CIF(352*288)和QCIF(162*144)。目前H.264的算法能够将同样的视频压缩到更低的码率,但其计算复杂度也大大增加。相信随着DSP芯片处理能力的进一步提高,H.264网络视频传输方面的应用将越来越流行。 

     

    2.3通信协议

    为保证可视电话在网络上可靠的通信,不同的终端必須运行统一的通信控制协议來保证相互协同工作。

    ITU-T推出的H.320/323标准,面向不同的网络,不同的网络介面,不同的信令过程,以及为适应不同的网络而优化设计的包结构。复用协定规定了视频资料、语音资料等的打包标准,而控制协定的作用是在终端之间些商通信方式,如视频编码标准的协商,语音编码标准的协商,通道带宽的协商等。基于以太网的可视电话通常采用H.323控制协定。

    

3.    基于ARM9+BF533的解决方案

    目前ARM9系列的处理器在手持终端上的应用如PDA、Smart Phone、PMP产品上已经有了非常广泛的应用,在可视电话上也有非常明显的优势。

    3.1语音和视频编码

    语音和视频编码需要非常强的数学运算能力,通常采用ASIC芯片或通用DSP来实现。ADI BF533具有非常强的运算能力,完全能够满足视频压缩的要求,并且具有非常强的灵活性,通过软件可以灵活满足产品升级的要求和针对网络带宽调整压缩率。

BF533接受从CCD Sensor采集的视频码流,从Microphone采集的语音码流分别进行压缩,压缩后通过SPI接口传送给ARM9芯片。 

    3.2语音和视频解码

    ARM9在400MHz的主频下完全能够直接进行音视频的解码播放,而无需再传送给DSP做解码播放,大大降低了DSP的负担和系统的复杂程度。 

     

    3.3网络传输、通信协议

    ARM9通过嵌入式Linux能够很好的支持TCP/IP协议,可以通过local bus扩展以太网。

    基于Linux也可以实现H.323协议,并且占用很少的CPU处理能力。 

         

    3.4用户界面

    ARM9内置LCD控制器,可以支持较高分辨率的TFT LCD,用来显示本地和解压后的图像。并且基于Linux,华恒科技已经在ARM9的平台上普遍的实现了Microwindows、Minigui等嵌入式GUI的支持,可以实现较为完备的图形用户控制界面。