电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

语音增强范文

来源:开心麻花作者:开心麻花2025-09-191

语音增强范文(精选8篇)

语音增强 第1篇

一、英语听力的重要性

在英语学习中, 英语的五项基本技能分别是是“听”、“说”、“读”“写”。和“译”。“听”是排在第一位的, 所以听力的重要性非同小可。研究表明, 听占整个言语交际活动的45%。因而, 要想学好并掌握一门外语, 要重视听说能力的培养。学生理解英语语言的重要途径之一就是听, 掌握英语的必由之路也是听。在课堂上学习英语, 不可能不进行听的环节, 每个学生必须具备一定的听的能力。再者, 学生进行英语语言交际活动的重要手段还是听。“无论成人或儿童, 在语言习得中, 头等重要的是听力理解。”所以, 听力是获得有声信息的活动能力, 也是一种交际能力, 我们应当把听说教学放在教学的重要位置, 强调听说英语是英语教学重要目的之一。

二、学生的英语语音意识不强的原因分析

1. 不重视语音的重要性

对于语言学习者来说, 语音的重要性毋庸置疑。英语学习过程中, 学习者首先接触的就是语音, 胡春洞教授认为“语音关是教学的第一关”。语音是学习语言的基础。英语语音的学习是学好英语的基础之一, 必须要扎扎实实下苦功夫掌握到位。英语语音是英语学习者所必须遵守的约定俗成的东西, 一旦语音有了变化, 就会产生交流信息错误, 造成语言交际中的障碍, 无法进行正常的沟通。也给英语学习带来了较大的困难, 特别是听力能力。

2. 缺乏语音语调知识

目前在我国高校, 一般在英语专业的学生大一时开设语音课, 而非英语专业一般都没有正式的语音课, 只在英语课本中点到为止。英语专业学生专门学语音知识, 但是课时量非常少, 一星期一次, 不少学生的语音知识不是非常了解, 听力提高的也非常缓慢。教师和学生都没有非常有效对语音知识的学习进行系统的阐述和学习, 也没有将其合理有效地结合听力训练来教学并将其运用到听力教学中。

3. 忽视语音和听力的关系

英语语音教学是学习外语的第一步, 也是整个外语学习的基础。从某种程度上看, 语音与听力的关系是最为密切的。语音和听力这二者之间相辅相成的, 相互促进、相互影响。一方面, 发音基本正确是听懂英语的前提。因此从这个意义上说, 英语发音的好坏是评价一个人整体英语水平的重要因素。另一方面, 学习者自身语音知识和能力的高低在很大程度上对听力能力起着决定性作用。语言从听开始, 培养听音、辨音和发音的正确习惯是学习英语语音的基本要求, 是提高听力的基础。然而, 语音的训练又几乎都是在听力的基础上进行的。正确的英语读音、熟练的语音基本功、达意的语调习惯是提高听力和口语水平、得体地进行口头交际必须具备的先决条件。

三、增强英语语音意识上提高学生听力水平的方法和策略

1. 听辨结合, 将语音课与听力课相联系

英语语音是听力的前提基础, 英语听力是语音所要实现的一个重要重要目标。不准确不地道的发音绝对不能有效的解决听力问题。而准确地道的发音往往又得之于在听力中纠正自己的发音。两者是互相进行的。听力中会出现语音问题, 要想提高英语听力水平, 语音语调知识非常重要。老师要不断地提高教学方法, 革新教学模式鼓励学生开口、模仿和训练。同时开展理论与实践结合的语音实训工程。提高听说能力必须进行语音训练, 扎实的语音基础, 既有利于学生的听力训练, 也有利于学生的口语训练。只有掌握了语音, 了解语音语调基本知识, 如连读、爆破、同化等才能通过不断地训练, 使得发音准确、自然、标准, 从而进一步促进听力水平的提高。

2. 听说结合, 将口语课与听力课相连接

英语听力与口语之间的关系相辅相成、相互促进。听力是语言交际的关键, 是说的前提, 。听力不过关, 口语也好不到哪里去;听力提高了, 自然也会影响到口语表达。听力是口语的基础, 口语训练对于听力水平的提高也具有重要作用, 把二者联系起来加强训练, 可以得到事半功倍的效果。说的能力在很大程度上依赖于听的能力。

3. 多练多听, 以听促练, 开展各种形式的语音、听力活动

第一、开展多样化的趣味性语音活动。

结合学生的实际情况, 制定适合学生的教学计划、教学方案和多样化的趣味性语音活动。如英语音语模仿大赛, 英语语音模仿大咖秀、英语兴趣小组、英语歌曲演唱、英语情景对话、英语演讲等来丰富课堂教学形式, 充分发挥学生的主动性、积极性, 增强学生学习英语的兴趣, 给学生更多的运用英语进行交际的机会使学生愿学、乐学、会学。使得学生在学习中感受到乐趣, 培养学生学习英语的自主能力, 逐渐形成轻松的英语学习状态, 逐步形成轻松快乐的学习氛围, 并提高英语听力水平。

第二、充分利用丰富的教学手段, 强化听力训练。

教学活动中, 听力是首要的, 它是语言能力的重要组成部分。英语听力教学是英语教学中一个很重要的方面。美国外语教学法教授阿拉特斯说:“听能增进外语语感, 使学生具备说的信心和勇气。”先会听, 听得多了, 自然也就会说了。随着社会经济的发展, 多功能语言实验室和网络的使用, 使得听力的教学手段日益丰富, 听力教学也一改过去单一的教学形式。在搞好听力教学的同时, 我们可以利用多媒体手段来丰富和优化教学, 使用电教设备复读功能、播放录像、幻灯等功能创造更多机会培养和提高学生语音和口语交际的能力。通过视听就可以达到理解语言和交际语言的目的。

摘要:今年全国大学英语四六级考试全面改革。大学英语四六级考试改革对英语的听力提出了更新更高的要求。本文从增强学生的英语语音意识入手来谈谈英语听力教学, 阐述在增强学生英语语音意识基础上提高学生听力水平。

关键词:语音意识,四六级改革,听力教学

参考文献

[1]李志钦.电教设备在英语口语教学中的应用[J].外语电化教学.1999年.

[2]张淑静.听力理解的语音感知模式解读[J].安阳师范学院学报.2013.

语音增强 第2篇

关键词:计算机声卡;谱相减;语音增强系统;分析

中图分类号:TP391.42文献标识码:A文章编号:1007-9599 (2010) 03-0069-02

Computer-Based Sound Card Spectral Subtraction Speech

Enhancement System Analysis

Jia LiJuan

(Northwest University for Nationalities of Mathematics and Computer Science College, Lanzhou730030,China)

Abstract:Computer sound card is a multi-media technology in the most fundamental part of achieving acoustic / digital signal conversion between a piece of hardware. In this paper, based on computer sound card spectral subtraction speech enhancement system for analysis. First, analysis of computer-based sound card for speech enhancement systems, Second, the introduction of the spectral subtraction algorithm has a certain reference value.

Keywords:Computer sound card;Spectral subtraction;Speech Enhancement System;Analysis

一、前言

计算机声卡是多媒体技术中最基本的组成部分,是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。在语音信号的理论和应用中,所用的语音数据大部分都是在接近理想的条件下采集的。然而,在语音通信过程中会不可避免的受到各种噪声的干扰,这种干扰将最终导致接收者接收到的语音信号已非纯净的原始语音,而是受到噪声污染后的带噪语音。

二、基于计算机声卡的语音增强系统

基于计算机声卡的语音增强系统作为一种抑制背景噪声、提高语音质量的有效手段,在实际应用中有重要价值。语音增强是一种当语音通信系统的输入或输出信号受到噪声干扰时提高其性能的技术。它的主要目的是降低背景噪声,提高语音质量或抑制同声道语音干扰。简单的讲,就是从带噪声语音信号中提取尽可能纯净的原始语音。传统的语音增强的方法有很多,如:滤波器法语音增强,非线性处理语音增强,减谱法语音增强,自相关相减法语音增强等等。噪声对消的基本原理是从带噪语音中减去噪声。自适应滤波是研究一类结构和参数可以改变或调整的系统。自适应滤波器通常采用FIR滤波器,其系数可以采用最小均方(LMS)法进行估计。最小均方(LMS)算法的基本思路与梯度下降法是一致的,不同之处仅在于计算中用梯度向量的估计来代替真实的梯度。所以说,LMS算法是由梯度下降法导出的,是对梯度下降法的近似简化,更符合实际应用。

三、谱相减算法

谱相减方法是单通道语音增强的重要算法,由于该方法计算简单,易于实现,在滤除加性平稳噪声方面显示了极大的优越性。谱相减里面利用FFT,所以经常采取半帧重叠,功率谱相减,开方得到幅度谱,按照信号时频变换公式:

f(t)->F(w)=|F(w)|exp(j*thta),

这样才能进行逆变换.显然只有幅度谱是不够的,必须有相应的相位谱;纯净语音的相位谱又不可能从含噪语音的相位里分离出来,所有就粗略地用噪声信号的相位来代替了,所以一般叫“插入相位”。基于计算机声卡的谱相减语音增强系统一般采用Matlab程序。

图1为基于计算机声卡和Matlab平台的语音信号采集处理系统。语言输入通过传声器到A/D转换器,将模拟信号转换为数字信号,然后再通过Matlab平台对语音信号进行采集、处理和回收。然后又通过D/A转换器,将数字信号转换为模拟型号,通过扬声器进行声音回放,以达到谱相减语音增强的作用。

基本减谱法程序为:

clear;

%[xx,fs]=wavread('E:mywhispershu.wav');

%[xx,fs]=wavread('E:speechxw1xun_01.wav');

%[xx,fs]=wavread('E:speech耳语音切割bw1ba_5');

[xx,fs]=wavread('D:yuan.wav');%读取音频文件yuan.wav,并返回采样数据给变量xx及采样率Fs

[team,row]=size(xx);%将数组xx的行数赋给team,列数赋给row

if row==2

x=(xx(:,1)+xx(:,2))/2;

yy=x;

%如果语音信号xx为2列,即信号为双声道,则将其转换成单声道信号,即取两列的平均值赋给x,并将x的值赋给yy

else

x=xx;

yy=x;

%若语音信号xx为单声道,则将xx的值赋给x,并将x的值赋给yy

End

x=x-mean(x)+0.1*rand(length(x),1

N=length(x);%将语音信号长度赋给变量N

n=220;%对语音信号进行分帧,帧长为220

n1=160;%帧移为160

frame=floor((N-n)/(n-n1));%将分帧数赋给变量frame

四、小结

基于声卡和Matlab平台的语音信号采集处理系统,具有投入少、精度高、调试方便等优点,值得大力推广。

参考文献:

[1]阎丽,祝轩,王小宁.基于Sound Blaster声卡的数据采集系统[J].华北工学院测试技术学报,2001,15,2:79-82

[2]周敬利,余胜生.多媒体计算机声卡技术及应用[M].北京:电子工业出版社,2008:115-123

[3]陈怀琛.MATLAB及其在理工课程中的应用指南[M].西安:西安电子科技大学出版社,2000:269-369

[4]Boll S F.Suppression of Acoustic Noise in Speech using Spectral Subtraction[C].IEEE Trans. Acoustics. Speech and Signal Processing,2009,2(72):113-120

作者简介

把脉英语语音教学增强英语学习效果 第3篇

一、在学字母时渗透元音教学

音素很重要, 但我们不能把48个音素一股脑儿地全灌输给学生, 而应把音素知识渗透在日常的教学中。现在的孩子对26个字母并不陌生, 他们能很快、很流利地从头至尾背出来, 会唱字母歌, 他们甚至对第一册书中没有字母的教学内容感到困惑。所以, 教师在教学第一册时, 就可以通过跟小朋友们玩游戏的形式把26个字母都呈现给他们。先把5个元音字母Aa、Ee、Ii、Oo、Uu选出来做掌门人, 然后根据每个字母的发音, 分别帮他们找到自己的徒弟或者把字母卡片发给小朋友, 让他们找到自己的掌门人。小朋友们一边读一边找, 玩得不亦乐乎。可正当玩得高兴时, 小朋友看到Oo和Rr为难了, 不知道何去何从。这时, 教师再告诉他们, 原来它们一个是光杆司令, 一个是独行侠。这样, 通过游戏, 让学生了解到音素的信息, 了解字母的分类, 不仅对字母的发音印象深刻, 对英语的发音方法有了初步的认识, 而且对英语语音的构成方式也有所体悟。

二、利用拼音渗透“音素拼读”教学

这里是要利用汉语拼音的正迁移作用。汉字的读音是由拼音构成的音节组成的, 而英语单词的读音是由音素构成的音节组成的, 两者都有音节。我们抓住音素这一要素, 适时地教给学生掌握字母 (形) 在单词中的读音 (音) , 利用汉语拼音拼读的规律指导学生用音素来拼读字母和单词。采取这样的方法可以引导学生运用已有的知识促进新知识的学习。我们就是采取这种对比的拼读方法, 激活学生拼读单词的灵敏度, 养成拼读的习惯, 掌握拼读的方法。

三、将音标的教学融入平时单词、短语的讲解中

单讲音标知识、拼读方法是空洞的, 关键是要让学生在不断的实践过程中去体会、去摸索、去总结, 只有在运用中, 才能得到长时期的巩固, 才能使学习的音标发挥作用。在每一节课中, 每学一个新单词、短语时, 我都坚持这样一个原则:先音后词、以音带词, 即先让会读的学生试读这个单词的音, 然后试着去分析单词的音标, 了解词义。这样, 学生在学习中感受到音标非常有用, 是自己学习有用的工具, 非学不可, 就会自愿去学习, 主动去复习巩固。

四、教会查词典

教学音标的目的不仅是认识48个音标, 更主要的是培养学生运用音标的拼读来学习英语的能力。英语自学的前提是必须学会使用学习工具英语词典, 教会学生查词典是提高学生学习能力一个具体要求, 因此教师要从紧张的教学中抽出一点时间教学生随时练习查词典, 每次查一两个词, 养成习惯。学生学会了查词典, 就会如虎添翼, 学起来就更加“自由”了, 可以从字典中发现一个新单词的多种意思, 这样既满足了他们的好奇心, 又拓宽了知识面。有时会话中的“三会单词”, 就让学生当堂通过查词典自己读出, 并告诉他们:“这是你们自己学会的。”学会了音标, 学会了查字典, 就等于给学生找了一名免费的老师。

一种DCT域的语音增强改进算法 第4篇

语音通信过程中不可避免地会受到环境噪声的影响,过大的环境噪声将严重影响通信质量。因而,进行语音识别处理有必要在前端加入预处理环节,以减小噪声对识别的影响。语音增强技术是降噪的有效途径,其中,基于短时谱估计的频域语音增强算法以其技术成熟,实现简单而得到广泛的应用[1]。但频域增强算法忽略相位影响,在低信噪比下将造成一定程度的语音失真[2]。而离散余弦变换是一个实变换[3],其变换后的语音分量系数仍然为实数,因而它可以被认为只有一个二进制相位值,且该相位只受语音分量符号的影响。离散余弦变换后语音的能量多集中于低频分量上[4],其相位很难受到噪声污染,相对于离散傅里叶变换具有更好的语音相位保护能力。因而,DCT域的语音增强算法不存在因相位失真引起的语音失真,但常用的DCT域软阈值算法依然存在不足,如造成高频语音分量损失等[5]。基于统计模型的算法克服了这些问题,是DCT域增强算法的一个重要发展方向。现存统计模型的DCT域算法增强效果依然有待提高,其根本原因是简单地依据中心极限定理假定离散余弦变换后语音和噪声同样服从高斯分布[6]。事实上对于分帧后的短时信号而言,中心极限定理并不适用,有必要重估语音分量的分布。

针对这个问题,本文首先分析了DCT域的语音分量和噪声分量的分布;然后依据DCT域语音分量和噪声分量各自不同的分布特征,应用一种最优估计算法,即最大后验概率估计(Maximum of a Posterior Density,MAP)算法实现对语音分量的精确估计。

1 DCT域的语音分量和噪声分量分布

现存的DCT域统计模型通常简单地依据中心极限定理假定DCT域的语音分量服从高斯分布。然而,中心极限定理适用于大样本数据场合,而分帧后的语音信号数据样本较小[7]。于是,本文对大量语音数据进行了统计分析。这些统计分析结果表明,相对于高斯模型而言,DCT 域语音分量更接近于拉普拉斯分布。

一段已经消除静音段的纯净测试语料s(取自国家863标准语料库,降采样率为8 kHz)如图1所示。

对该段纯净测试语料s进行分帧离散余弦变换,取帧长128点,帧间叠接64点,即帧长16 ms,每帧更新8 ms。变换后的DCT域语音S分布如图2所示。其中,横坐标代表归一化的幅度,纵坐标代表相应的概率密度。为便于比较,图2中还给出了相应的高斯分布和拉普拉斯分布两种统计模型的分布曲线,其概率密度函数分别为:

fG(x)=12πσSe-x22σS2(1)fL(x)=12λSe-|x|λS(2)

式中:σS2=E[S2],λS=E[|S|]分别代表DCT域的语音分量的方差和拉普拉斯模型因子。

图2表明,DCT域中语音分量的概率分布与拉普拉斯模型分布曲线非常接近,这一点与DCT域中语音分量的能量集中性可以相互印证。因而,采用拉普拉斯分布来近似语音分量的分布比用高斯分布更合理。

文献[8]指出,一般的随机噪声和量化噪声等均可以作为白噪声来处理。对于平稳的宽带噪声,通常可以认为是高斯白噪声。少数不具有白色频谱的噪声,可以先进行白化处理,通过白化滤波将有色噪声转化为白噪声[9]。对于平稳高斯白噪声序列g(n),n=0,1,2,,N-1,其DCT系数如下式所示:

G(k)=ukn=0Ν-1g(n)cos[π(2n+1)k2Ν]k=012,,Ν-1(3)

式中:;G(k)代表高斯白噪声序列g(n),n=0,1,2,,N-1的DCT变换系数。每个频点G(k)均为N个相互独立的高斯随机变量组合,依然服从高斯分布。因而,整个序列G(k),k=0,1,2,,N-1依然为高斯序列。

于是,易得结论如下:N点相互独立的平稳高斯白噪声的DCT域分布为N点独立平稳随机过程,其均值为零,方差等于原高斯白噪声序列的方差。

2 语音分量估计改进算法设计

2.1 语音分量的MAP估计

分帧后包含高斯白噪声gi(n)(0nN-1)的第i帧带噪语音信号xi(n)(0nN-1)可以表示为:xi(n)=si(n)+gi(n),0nN-1。其相应的DCT域表示如下:

Xi(k)=Si(k)+Ci(k),0kΝ-1(4)

依据贝叶斯准则可知,后验概率密度函数如式(5)所示。

p(Si(k)|Xi(k))=p(Xi(k)|Si(k))p(Si(k))p(Xi(k))(5)

依据语音分量服从拉普拉斯分布,则Si(k)的概率密度函数如式(6)所示:

p(Si(k))=12λi(k)exp(-|Si(k)|λi(k))(6)

式中λi(k)=E[|Si(k)|]。

先验概率密度函数p(Xi(k)|Si(k))可以表示为:

p(Xi(k)|Si(k))=p(Si(k)+Ci(k)|Si(k))=p(Ci(k)|Si(k))(7)

由于Si(k)和Ci(k)独立:

p(Ci(k)|Si(k))=p(Ci(k))(8)

又由于:

p(Ci(k))=12πσi(k)exp(-Ci2(k)2σi2(k))(9)

可得先验概率密度函数为:

p(Xi(k)|Si(k))=12πσi(k)exp(-Ci2(k)2σi2(k))=12πσi(k)exp(-(Xi(k)-Si(k))22σi2(k))(10)

于是后验概率密度函数为:

p(Si(k)|Xi(k))=p(Xi(k)|Si(k))p(Si(k))p(Xi(k))=[12πσi(k)exp(-(Xi(k)-Si(k))22σi2(k))12λi(k)exp(-|Si(k)|λi(k))]/p(Xi(k))(11)

即:

p(Si(k)|Xi(k))=Aexp(-(Xi(k)-Si(k))22σi2(k)-|Si(k)|λi(k))(12)

式中系数A=12πσi(k)12λi(k)p(Xi(k))。由于Xi(k)是观测结果,其概率密度函数p(Xi(k))已知,因而系数ASi(k)无关。

最大后验概率估计采用均匀代价函数(Uniform Cost Function,UCF)作为估计误差的测度。要使得均匀代价函数最小,必须满足后验概率密度函数的最大化。此时,最大化后验概率密度函数p(Si(k)|Xi(k)),即可得Si(k)的最大后验概率估计S^i(k)如下式所示:

S^i(k)=argmaxSi(k)(p(Si(k)|Xi(k)))=argmaxSi(k)(Aexp(-(Xi(k)-Si(k))22σi2(k)-|Si(k)|λi(k)))(13)

式(13)等价于:

S^i(k)=argminSi(k)((Xi(k)-Si(k))22σi2(k)+|Si(k)|λi(k))(14)

于是,取似然函数:

L=(Xi(k)-Si(k))22σi2(k)+|Si(k)|λi(k)(15)

LSi(k)=0可得:

((Xi(k)-Si(k))22σi2(k)+|Si(k)|λi(k))Si(k)=0(16)

即:

Si(k)-Xi(k)σi2(k)+1λi(k)sign(Si(k))=0(17)

于是可得语音信号的最大后验概率估计为:

S^i(k)={Xi(k)-σi2(k)λi(k),Xi(k)0Xi(k)+σi2(k)λi(k),Xi(k)<0(18)

式中σi2(k)和λi(k)的估计方法将在下一节介绍。

2.2 语音分量MAP估计的算法实现

对于高斯白噪声而言,相邻帧之间,其方差σi2相对稳定,于是:

σ^i2(k)σi-12(k)=E[Ci-12(k)](19)

类似于上述方法,同样可以采用递归估计的方法估计噪声分量及其方差。由于语音分量的一阶矩未知,可以采用一种近似的方法,如式(20)所示:

λ^i(k)=αλ^i-1(k)+(1-α)max{Xi2(k)-σi-12(k),0}(20)

综上分析,DCT域的MAP估计实现流程大致可以分为以下几个步骤:

(1) 设定首帧不含语音分量,x1作为纯噪声,对其进行离散余弦变换,得到首帧噪声方差σ12=|X1|2;语音分量一阶距λ1=0。

(2) 对下一帧带噪语音信号xi进行离散余弦变换,得DCT域系数Xi

(3) 运用第i-1帧的估计噪声估计高斯白噪声幅度谱方差,如式(20)所示,σ^i2E[C^i-12]。其中E[C^i-12]通过谱估计方法得到;。

(4) 设定α=0.95,由于λ^i-1,Xiσi-12已知,运用式(21)实现对λi进行递归估计。

(5) 综合式(18)~式(20),运用最大后验概率估计得到DCT域语音分量Si的估计S^i,相应地可以得到噪声分量的估计。

(6) 对S^i进行逆DCT变换得到时域估计语音信号,判断是否全部帧处理完毕。

(7) 若未处理完毕,继续处理下一帧,回到步骤(2),若处理完毕,进行帧重组,恢复完整的时域语音信号。

3 仿真实验与性能分析

仿真实验语料取自国家863标准语料库,采样率为16 kHz。为便于处理,在不影响语音基本特征前提下,降采样率至8 kHz。对多组语音信号进行实验,不失一般性,对其中一组语音进行分析。高斯白噪声信号取自标准噪声库 NOISEX-92B,采样率为8 kHz/s。仿真中选取语音帧长度为N=128,帧间叠接64点。在时域相当于帧长为16 ms,在此期间语音信号可以认为是平稳的,每次迭代信号中有8 ms的数据更新。

分别将不同强度的高斯白噪声信号叠加到纯净语音信号上进行实验,产生不同信噪比的带噪语音信号进行实验。SNR=5 dB和0 dB时的一段带噪语音信号增强的时域信号分别如图3和图4所示[10]。

图3和图4表明,在低信噪比情况下,本文算法降噪效果优于频域算法。进一步地,依据客观评价标准,对不同输入信噪比下的带噪语音信号增强前后的整体信噪比和分段信噪比变化分别进行量化分析,如图5和图6所示。其中,图6中的输入分段信噪比与图5中的输入整体信噪比相对应。

图5和图6表明,输入信噪比在[0,10] dB之间时,本文算法对整体信噪比的改善比频域算法提高了约1.5~1.6 dB,对分段信噪比的改善比频域算法提高了2.2 dB左右,对分段信噪比的提高程度高于对整体信噪比的提高程度。

这是因为该算法分别针对DCT域语音分量和噪声分量的不同分布特点,运用最优估计算法在低信噪比条件下有效地对语音分量进行估计,从而保证了在准确地估计出语音的同时使得失真保持在相对较低的范围之内,且本文算法具有良好的相位保护功能。

4 结 语

本文首先研究了DCT域的语音信号和高斯白噪声信号的分布。基于短时语音和短时噪声的不同分布,采用一种最优估计算法即最大后延概率估计算法对带噪语音信号中的语音分量进行估计,实现了对低信噪比下的语音信号的精确估计。理论分析和仿真实验表明,该算法能够较为精确地估计带噪语音信号中包含的语音分量,降噪性能优于传统算法,且语音失真很小。本文算法为语音降噪处理提供了一种新的途径,提高了处理的有效性和可靠性。

参考文献

[1]BOLL S F.Suppression of acoustic noise in speech usingspectral subtraction[J].IEEE Trans.on Acoust SpeechSignal Process.,1979,27(2):113-120.

[2]EPHRAIM MALAH D.Speech enhancement using a mini-mum mean-square error short-rime spectral amplitude esti-mator[J].IEEE Trans.on Acoust Speech Signal Process.,1984,32(6):1109-1121.

[3]AHMED N,NATARAJAN T,RAO K R.Discrete cosinetransform[J].IEEE Transactions on Computers,1974,C-23:90-93.

[4]李雪耀,谢华,张汝波.基于离散余弦变换的语音增强[J].哈尔滨工程大学学报,2007,28(2):198-202.

[5]欧世峰,赵晓晖,顾海军.基于DCT与维纳滤波的单通道语音增强算法[J].通信学报,2006,27(10):86-93.

[6]盛骤,谢式千,潘承毅.概率论与数理统计[M].3版.北京:高等教育出版社,2001.

[7]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000.

[8]朱华,黄辉宁,李永庆,等.随机信号分析[M].北京:北京理工大学出版社,1990.

[9]黄惠明,王瑛,赵思伟,等.语音系统客观音质评价研究[J].电子学报,2000,28(4):112-114.

[10]王炳锡,屈丹,彭煊,等.实用语音识别基础[M].北京:国防工业出版社,2005.

基于深度神经网络的语音增强研究 第5篇

近几年深度学习成为机器学习领域的研究热点[1,2], 同时,把深度学习应用在语音信号和信息处理领域,由此可能给语音信号和信息处理领域带来突破性的发展。

深度学习的概念源于人工神经网络的研究。深度学习通过多层的非线性信号和信息处理技术进行有监督或无监督特征提取、信号转换和模式分类等为目的的机器学习方法[3]。传统的机器学习模型大多属于浅层次的结构模型, 例如:隐马尔科夫模型 (Hidden Markov model,HMM)、 线性或者 非线性动 态系统、 条件随机 场 (Conditional randomfields,CRFs)、 支持向量 机 (Support vector machines, SVMs)、单隐层的神经网络 (Neural Network,NN) 等。这些浅层的结构模型只能进行简单信息与信号处理,其处理能力有限,不能进行复杂信号的处理。而深层结构的模型是由多层非线性变换的复杂性[5],具有更强的表达与建模的能力,更适合处理复杂信号,例如,语音信号。

语音信号的产生和感知是一个复杂的过程,并且具有多层次和深层次处理结构[6],显然采用浅层次结构具有很大的局限性,因此可以采用深层次的结构,利用多层的非线性变换提取语音信号中的结构化信息和高层信息是更为合理的选择。近些年深度学习在语音和信息处理领域取得了可喜的进展,例如,语音识别、语音合成、语音增强、 语音转换等。

1深度学习及人工神经网络

1.1深度学习

深度学习的概念由Hinton等人于2006年提出。基于深信度网 (DBN) 提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型[1],它的提出是为了模拟人类神经系统对事物的认知和学习能力。最早的是处理能力有限的单层结构的感知器[2]。因此,多层感知器被提出来。它是多个单层感知器的叠加,并采用连续非线性激活函数。由于多层感知器输入到输出之间是多层的非线性变换的组合,所以具有较强的表达能力。通常将具有两个以上隐含层的多层感知器称为深度神经网络 (Deep neural network,DNN)。DNN模型参数可以通过误差后向传播算法 (Back propagation,BP)[3]进行训练。由DNN的各层激励函数均为非线性函数,模型训练中的损失函数是模型参数的非凸复杂函数,这导致当采用随机初始化模型参数时,BP算法很容易陷入局部优解。DNN包含的隐层数越多这种现象越严重,从而导致DNN难以表现出其强大的表达和建模能力。直到2006年 ,Hinton等[1]。提出一种采用无监督的生成型模型——深度置信网络 (Deep belief network,DBN) 来初始化深层神经网络,一定程度上解决了上述的问题 , 使得其强大的学习和表达能力在机器学习中得以发挥。

1.2深度神经网络训练

在Hinton等人提出的深层神经网络的学习框架中, 使用的是前馈型神经网络。模型的训练分为两步:首先使用大量的没有标注的数据通过无监督学习的算法来进行模型参数的初始化,这一步称为预训练 (Pre-training) 然后使用较少量的标注数据,利用传统的神经网络的学习算法 ( 如BP算法 ) 来学习模型的参数 , 这一步称为模型精细调整 (Fine-tuning)。其中Pre-training主要是通过逐层训练受限波尔兹曼机 (Restricted Boltzmann machine,RBM) 得到一个生成模型DBN;Fine-tuning过程是对DBN添加一个与DNN模型训练目标相关的Softmax输出层或线性回归层,然后采用传统的BP算法对模型参数进行精细的调整。

1.2.1受限玻尔兹曼机

RBM是包含隐含层和和可见层的双层图的模型,如图1所示。

在给定模型参数 θ={ωij, bj, ai, i=1,…,M;j=1,…,N}, 可见层节点的状态v和隐含节点的状态h时,RBM定义了一个能量函数E(h,v;)。当所有节点服从伯努利分布时, 称为伯努利RBM,定义的能量函数

对于可见层节点变量服从高斯分布,隐含层节点服从伯努力分布时,称为高斯 - 伯努利RBM。定义的能量函数

RBM模型定义的联合分布

式中称为规整因子或者分配函数 (Partition function)。模型关于可见层状态节点的状态的边缘概率为

RBM的模型参数可以通过最大似然准则进行无监督学习得到。训练的目标函数

对目标函数求偏导数,可以得到参数的更新公式为

式中是关于训练集数据的可见层和隐含层状态的期望值。关于的直接计算很困难。在文献[4]中,Hinton给出了通过对比散度算法 (Contrastive divergence, CD) 近似计算的方法。

1.2.2 DBN-DNN

通过自下而上的逐层训练RBM的方式可以堆积得到一个生成模型,即是DBN,如图2所示。

对语音信号进行处理,最底层的RBM采用的是高斯伯努利RBM(Gaussian RBM, GRBM),对于二值的信号如二值化的图像,最底层采用的是伯努利RBM。当训练完第一个RBM后,其隐含层的输出可以用于训练第二个RBM训练完成后。其隐含层的输出可以用于训练第三个RBM等。通过这种逐层训练的方式最终可以得到深度置信网络DBN,如图2所示。

采用无监督的预训练得到的DBN模型是一个概率生成模型。当把DBN应用于分类等任务时需要在DBN的顶层添加一个soft-max输出层,如图2右边图所示,形成具有初始化网络参数的DNN( 链接soft-max输出层网络参数除外,该层参数通常可随机初始化 )。Soft-max输出层对应DNN输出目标值,例如在语音识别任务中可对音节、音素、音素状态等类别进行多选一编码值。经过DBN初始化进一步通过传统的BP算法对网络参数进行精细的调整。通常该训练过程需要利用语音信号的标注信息,训练过程所采用的目标函数一般是最大化每个类别的后验概率,所以该过程称为有监督的区分性训练过程 (Discriminative training,DT),简称Fine-tuning。

2语音增强

语音增强是语音处理的重要分支。语音增强的主要目标是从带噪声的寓意信号中提取尽可能纯净的原始语音信号,提高语音信号的质量、清晰度和可懂度。 目前非平稳噪声语音增强仍是没有很好解决的研究问题,可能的原因之一是目前语音增强方法或算法难以对语音频谱在时频域上的结构化信息进行有效建模和利用 。

由于深度学习中的RBM、DNN等模型擅长对数据中的结构化信息进行建模,而且具有从数据的低层结构化信息提取更高层的结构化信息的能力。因此,将深度学习中的RBM, DNN等模型应用于语音增强也是近年语音增强研究热点之一。文献 [5] 提出了一种基于理想二元时频掩蔽估计的语音增强方法,该方法把语音增强问题转化成用DNN估计理想二元时频掩蔽估计的分类问题, 如图3所示。该方法对于低信噪比非平稳语音增强可得到高可懂度的增强语音,但语音音质损失严重。

文献 [6] 提出了一种基于DNN的最小均方误差回归拟合语音增强方案,如图4所示。该方法基于对数功率谱最小均方误差准则,通过DNN对带噪语音和干净语音间的复杂关系进行回归拟合建模。实验表明,多帧扩展对提升语音增强质量和连续性有很大帮助,这也在某种程度上说明语音谱的结构化信息对语音增强具有重要的作用。该语音增强方案还说明大语音数据训练能保证DNN较充分学习到噪声语音谱和干净语音谱之间复杂的非线性关系。类似的工作包括文献 [7] 采用的一种堆叠式去噪自编码器 (Stacked denoise autoencoder) 来进行语音增强的方法。

3总结

一种改进的子空间语音增强算法 第6篇

语音增强技术是语音信号处理技术中的一个重要分支, 它可以有效去除数字通信系统中的噪声, 因此, 人们越来越重视语音增强在语音处理方面的作用。近年来, 子空间方法在语音增强研究中已有了较大发展[1,2]。该方法的基本思想是将带噪语音信号映射到叠加噪声的信号子空间与噪声子空间中, 再将噪声子空间消除掉, 在叠加噪声的信号子空间中估计原始信号[3,4]。传统的子空间算法不能滤除整个噪声子空间, 所以在估计语音特征值时很容易引起偏差, 致使增强的语音信号中有失真, 因此本文提出一种改进的子空间语音增强算法。新算法先对带噪语音做KL变换并计算其特征值;接着利用RLS方法估计出噪声特征值, 以修正传统方法中仅用无声段的方差平均值来估计噪声特征值;最后用带噪语音特征值减去估计出的噪声特征值, 并做KL逆变换以得到增强语音。实验结果表明新算法在高斯白噪声背景下能够更好地去除噪声, 减少了语音失真。

1 改进的子空间语音增强算法

1.1 递归最小二乘算法的原理

递归最小二乘算法 (RLS) 是自适应滤波器[5]中通常采用的一种自适应方法, 其本质是一种有限长单位脉冲响应维纳滤波器的时间递推算法, 并严格以最小二乘法准则为依据[6]。自适应滤波器的原理图如图1所示。

结合图1, 对RLS算法的具体原理描述如下:

(1) 定义估计误差

其中, w (i) 为抽头权向量。

(2) 求加权误差平方和 (λ为遗忘因子)

(3) 求代价函数的最小值

由公式 (3) 得

(4) 自适应更新过程

由公式 (5) 可得

假设A=R (n) , B-1=λR (n-1) , C=u (n) , D=1, 那么公式 (7) 可化为:

由矩阵求逆引理得

经过化简最终得到:

其中, k (n) 为增益向量。

1.2 改进的子空间语音增强算法

传统的子空间语音增强算法仅仅用无声段 (一般为前3000个采样点) 的方差平均值估计噪声特征值, 会对语音特征值的估计出现偏差, 引起语音失真。鉴于此, 提出改进的子空间语音增强算法, 其流程图如图2所示。由图2可知新算法步骤如下:

(1) 对输入的噪声语音做KL变换, 得出其在子空间域的特征值ΛY和特征向量;

(2) 通过RLS递归更新方法估计出噪声并计算其特征值ΛN, 实现对传统方法中的噪声特征值的修正, 达到减少语音失真的目的。

(3) 计算纯净语音的特征值ΛS, 即用ΛY减去ΛN;

(4) 由KL逆变换得到增强语音S^。

2 仿真实验与分析

用MATLAB软件对新算法进行了仿真实验, 并和传统子空间方法进行了对比, 验证了算法的有效性。在实验中, 纯净语音资料为NOIZEUS语音库中的英语男声短句“The birch canoe slid on the smooth planks.”, 噪声来源于Noisex-92数据库的高斯白噪声, 语音和噪声的采样率均为8k Hz, 依照实验结果最优的原则, 设置帧长为40个采样点, 帧移为一半。图3是信噪比为5d B的高斯白噪声背景下两种算法得到的增强语音的时域波形图。

从图3可以看出, 传统子空间语音增强方法增强的语音仍有很多残留噪声;而新算法增强的语音的时域波形图最接近于原始语音的时域波形图, 减少了语音失真。

本文采用信噪比来测评增强后的语音性能, 仿真结果如表1。

从表1可看出, 在输入信噪比相同的情况下, 新算法增强语音的信噪比值要比传统算法增强语音的信噪比值高, 尤其在0d B和5d B时提高的幅度更大, 在15d B时, 信噪比值稍微有降低, 但这并不影响该算法的整体优越性。

3 结束语

本文提出的改进的子空间语音增强算法, 利用RLS方法对传统子空间语音增强算法中的噪声特征值作了修正, 进一步改善了传统子空间语音增强算法的增强效果;实验结果表明, 新算法可以更多的抑制噪声, 减少语音失真。

摘要:为了进一步减少传统子空间语音增强方法增强的语音中的残留噪声, 提出一种改进的子空间语音增强算法。新算法首先对带噪语音进行KL (Karhunen-Loeve Transform) 变换, 得到带噪语音的特征值;接着用递归最小二乘算法 (RLS) 估计出噪声特征值, 对传统子空间算法容易引起的特征值估计偏差问题进行修正;最后用带噪语音特征值减去RLS方法估计出的噪声特征值并由KL逆变换还原出纯净语音。仿真结果表明, 在高斯白噪声背景下, 与传统子空间语音增强算法相比, 新算法提高了增强语音的信噪比, 减少了语音失真。

关键词:语音增强,子空间,递归最小二乘算法,SNR

参考文献

[1]Ephraim Y, Van Trees H L.A signal subspace approach for speech enhancement[J].IEEE Trans Speech and Audio Process-ing, 1995, 3 (4) :251-266.

[2]吴北平, 李辉, 戴蓓倩, 等.基于子空间域噪声特征值估计的语音增强方法[J].信号处理, 2009, 25 (3) :460-463.

[3]牛铜.基于子空间的语音增强算法研究[D].郑州:解放军信息工程大学, 2009.

[4]曹玉萍.基于信号子空间的语音增强方法[J].电子测试, 2012 (6) :54-57.

[5]肖哲.基于Matlab的RLS自适应语音噪声对消系统的设计与实现[J].长沙大学学报, 2006, 20 (2) :83-86.

语音增强 第7篇

Paliwal提出的时域卡尔曼(Kalman)滤波语音增强[1]方法通过状态空间模型描述含噪语音的进化过程,对语音信号预测与估计获得MMSE估计值,非常适合语音信号的非平稳特性,不存在音乐噪声,自然度高。近年来,出现了多种基于Kalman滤波的语音增强方法。时域Kalman滤波需要的线性预测阶数多,算法复杂度高。文献[2,3]提出子带Kalman滤波,降低了一定的阶数,计算量仍然比较大。Zavarehei等人尝试用AR模型描述短时傅立叶变换(DFT)域的频谱进化过程,并提出在短时DFT域对含噪语音进行Kalman滤波[3]。该方法需要的阶数较少,但要同时对DFT的实部和虚部系数运用Kalman滤波。文献[4]先用Ephraim的MMSE方法估计语音信号的对数DFT幅度谱,再串接Kalman滤波进行,显然该方法复杂度高。

本文提出利用离散余弦变换(discrete cosine transformation,DCT)去除帧内语音相关性,然后在每个语音通道分别对DCT系数进行Kalman滤波获得语音。由于DCT系数为不相关的实数,省去了文献[5]在虚部也要Kalman滤波的运算,同时用于描述状态空间方程所需要的阶数少的特点得以保留,适合并行处理。符合统一计算设备架构(compute unified device architecture,CUDA)计算的图形处理单元(graphics processing unit,GPU)具有上百个并行计算单元,大大缩短运算时间。为了提高该方法的工程实用性,本文实现了基于CUDA平台的并行设计。实验结果表明:DCT-Kalman语音增强方法可以有效去除噪声还原语音信号,基于CUDA平台的实现可以有效地缩减DCT-Kalman语音增强程序的运算时间。

1 DCT-Kalman滤波语音增强

对时域被加性噪声污染的带噪语音信号进行分帧后,对应的带噪语音信号的DCT系数、纯净语音信号DCT系数与观察噪声的DCT系数分别设为Y(j,k)、X(j,k)与V(j,k),其中j为系数索引,k为时间帧索引。(为了方便表示,省去j。)

由于DCT具有正交分解特性,每帧语音的DCT系数是相互独立的,而信号帧之间仍然存在较强的相关性,可用AR模型描述语音DCT系数的进化过程

其中,ω(K)是某一频率通道,第k帧的均值为0,方差为的过程噪声;a(k)=[a1(k),…,ap(k)]是DCT系数的AR系数向量,由YuleWalker方程可得

其中,Rx(k)是X(k)的自相关矩阵,r(k)是由X(k)组成的向量。

Kalman滤波方法利用状态方程和测量方程描述随机系统的时间演进,使得该滤波方法能够适用于非平稳条件,结合语音AR模型,用状态空间描述含噪语音、测量噪声与纯净语音之间的关系如下

其中,F为AR系数构成的状态转移矩阵;

在同一频率通道中,S(k)是K时刻的语音DCT系数向量,表示为S(k)=[X(k-p+1),…,X(k)]T;H=GT=[0,…,1]1×p;Y(k)是含噪语音DCT系数。

用于语音增强的DCT-Kalman滤波的状态估计与更新过程可以用式(5)、(6)、(7)、(8)、(9)表示

其中,S(k|K-1)与S(k|k)分别表示纯净语音的预测与估计;分别表示过程噪声方差和环境噪声方差;K(k)表示增益;P(k|k-1)表示预测误差协方差矩阵;P(k|k)表示估计误差协方差矩阵。

最后,对估计出来的语音估计S(k)做N点的反离散余弦变换再去窗函数,去重叠得到增强语音x(n)。

2 DCT-Kalman滤波的CUDA并行分析与实现

CUDA模型如图1所示,由多个SP组成一个多处理器(MultiProcessor),同一个多处理器里的所有SP在每一步都执行相同的运算操作。多处理器上设置有数千个读写速度较快的寄存器,还有容量小,读写速度比寄存器慢一些的共享内存。GPU架构不像CPU架构那样具有高速缓冲器,所以CUDA程序必须让线程以有规律和线性的方式访问显存,否则会导致读写显存的速度很慢。此外还有一块容量小、只读的常量内存,用于存放程序中不变的常量,可以加快读取速度。

CUDA程序需要主机函数和核函数。主机函数由CPU执行,负责初始化,传输数据到GPU端,启动核函数,最后传输数据回CPU端。核函数则以线程块的形式在GPU的多处理器上执行,即每个SP上执行一个线程。CUDA并行处理调用了CUDA库的DCT核函数实现转换,对转换后的每个频率通道的语音信号,调用Kalman核函数对其处理。N个通道信号需要调用N个Kalman核函数处理,每个Kalman核函数1个线程,共N个线程执行,分别占用一个多处理器里面的N个SP。这样就不需要外循环来控制频率通道,实现了并行处理。由于式(5)、(6)、(7)、(8)、(9)描述的Kalman滤波在每个频率通道内随时间进行迭代,其中的若干个向量与矩阵变量需要不断更新,为了提高这类变量的读写速度,使用共享内存存放。此外,为了获得内存的合并访问,必须对每个频率通道的相同变量都开辟对应的存储空间。如:p=2的2×1的S(k|k)存放在2行N列的共享内存数组里,其中列对应频率通道索引:

2×2的矩阵F存放在2行(p*N+1)列的共享内存数组里,存储示意(数字的含义同上):

其中每连续p列依次对应一个频率通道F,最后1列不存储任何数据,仅用来错开数据存放的bank,避免一个warp(32个线程)访问共享内存时产生bank conflict。变量中,向量都是类似S(k|k)一样存储,矩阵都是类似行F一样存储。迭代过程中不变的常量,如式(6)的G矩阵、式(7)的H矩阵则存在常量内存上。过程噪声方差的值则存放在寄存器上。最后Kalman核函数的伪代码如下所示:

3 实验与结果分析

实现Kalman语音增强需同时获得测量噪声的方差,语音的AR系数向量a(k)与过程噪声方差。实际应用时间必须结合语音活动检测、噪声估计方法和谱减法以获得以上参数的估计才能实现去噪。本文主要研究DCT-Kalman与时域Kalman的去噪效果与时间复杂度,因此没有研究以上3个参数在含噪语音中的获得方法。在实验中,直接从纯净语音中获得AR系数与过程噪声方差;直接用已知噪声求出测量噪声的方差作为实验所用。

实验用Intel I3-530CPU和NVIDIA GTX650TI BOOST显卡硬件平台,在Matlab 2013环境下分别运行基于CPU的时域Kalman滤波算法、与DCT域Kalman滤波算法和基于GPU的DCT域Kalman滤波算法,比较它们的去噪性能与运行时间。实验中的语音与带噪语音均为16 kHz采样,选取汉明窗为窗函数,帧长N取128,帧移为50%,即64。时域Kalman滤波程序的语音AR模型阶数p取13,并在一帧信号进行估计;DCT-Kalman滤波的语音AR模型阶数P取2。并在3帧信号中估计。噪声估计的平滑系数设为0.95。

由图2、图3与图4最下面和中间的圈可以比较出,DCT域理想Kalman滤波后的语谱图纹路比时域理想Kalman滤波后更为清晰,由最上面的圈可以看出,DCT域比时域的能量稍微低一些,恢复得更接近纯净语音。

从表1分段信噪比来说,同一语音下,DCT域理想Kalman滤波的分段信噪比比时域理想Kalman滤波要高,且所需的阶数仅为2。从表2来看,用CUDA来做DCT-Kalman的速度比CPU快200倍。

4 结语

CUDA平台适用于并行计算。利用CUDA架构设计Kalman语音增强方法,运算速度提高200倍,充分发挥了GPU的并行处理能力,节省运算时间。依靠GPU的并行计算,语音增强这一类计算复杂度高的科学计算问题将得到具有实际工程意义的解决。

摘要:提出一种卡尔曼滤波语音增强算法的统一计算设备架构并行实现方案。该方案通过离散余弦变换把含噪语音分解为不相关的DCT系数,使原来的时域串行处理转化为统一计算设备架构并行处理,只需较少的线性预测阶数,节省运算时间。实验结果表明:与时域卡尔曼滤波比较,该方法有更高的输出分段信噪比,其统一计算设备架构加速方案可有效缩短语音增强运算的时间。

关键词:语音增强,卡尔曼,离散余弦变换,统一计算设备架构

参考文献

[1]Paliwal K,Basu A.A speech enhancement method based on Kalman filtering[C].Proc.IEEE ICASSP,1987:177-180.

[2]Wu Wen-Rong,Chen Po-Cheng.Subband Kalman filtering for speech enhancement[J].IEEE Transactions on Analog and Digital Signal Processing,1998,45(8):1072-1083.

[3]章旭景,李辉,陆伟.基于子带卡尔曼滤波的语音增强方法[J].信号处理,2009,25(9):1474-1478.

[4]齐贺,张雪英,武奕峰.频域内的卡尔曼滤波语音增强算法[J].电声技术,2011,35(10):55-58.

语音增强 第8篇

带噪语音的语音增强在语音处理系统中有非常重要的地位,例如,语音识别、语音编码,尤其是低速率声码器。在众多的降噪算法中,麦克阵列针对低信噪比的情况是一种非常有效的算法。

单麦克语音降噪算法在降噪的同时人为地引入了不可忽略的噪声,例如,musical noise,同时对语音也会产生一定的损伤。相比单麦克语音增强算法,基于麦克阵列的语音增强算法同时运用了信号源和噪声源的频率和空间特征。考虑到语音和噪声源在物理空间上位于不同的位置,这种空间分集增益应该被利用。

传统的麦克阵列语音增强有最简单的结构延时相加器(The delay-and sum)、自适应滤波器(Adaptive beamforming)、广义奇异值分解算法(Generalized singular value decomposition)等算法[1,2,3,4,5,6]。这些算法的性能受到麦克阵列规模的影响比较大。而双麦克语音增强的传统算法是自适应噪声相消法(Adaptive noise cancellation),增强后语音信噪比可以有2dB~5dB的提高,算法的收敛速度受到滤波器参数的影响,该算法对VAD(voice a detection)估计结果依赖性较强。在恶劣的噪声环境下,噪声抑制效果不佳。基于传统的ANC算法,出现了一些改进算法,例如:D.R.Campbell和P.W.Shields提出的sub-band adaptive Griffiths-Jim算法。Generalized Sidelobe Canceller(GSC)算法是在ANC的基础上增加了一个模块,用来消除参考信号中混杂的语音信号,性能相较ANC算法有所提高。

独立成分分析(ICA)算法最早在1980s由J.Herault,C.Jutten和B.Ans[7]提出,是分离混合成分中的独立分量的算法,主要应用于盲源分离。A.J.Bell和T.J.Sejnowski在90’s中期发表了他们的文章[8]。之后这个算法由S.-I.Amari和他的助手使用自然梯度算法进一步研究[9],把ICA与最大似然估计(Maximum likehood estimation)联系在一起。之后该作者又发表定点快速ICA算法,该算法提高了ICA的计算效率,使得ICA可以应用于解决大规模问题。Zou X,Peter Jancovic分析了独立成分分析在语音增强中的应用[10],该算法验证在ICA变换域的最大后验概率(Maximum a posterior)算法对于处理高斯噪声和非高斯噪声都有很好的性能。

在本文中,利用Complex ICA算法,得到分离的语音和噪声,然后再使用MMSE短时谱幅度估计[11]算法来消除ICA分离得到语音中残留的噪声。为了使得ICA的分离效果更好,将时域带噪信号ICA分离算法扩展至频域,得到带噪信号的Complex ICA分离算法。

1 双麦克语音增强

1.1 双麦克语音增强模型

s(t)和n(t)分别表示语音信号和背景噪声,一般假设语音和噪声是互不相关的。接收端放置两个麦克,接收信号为y1(t)、y2(t),表示如下:

其中,a(t)表示语音和噪声传输信道的时域响应,表示卷积。图1给出双麦克信号的采集环境。用Y(k,t)、S(k,t)、N(k,t)表示接收信号、语音信号、噪声信号的短时傅里叶变换(FFT),A(k,t)表示传输信道的频域响应。本文为简洁易懂将变量中的t去掉,公式(1)频域形式为:

其中,X(k)=[S(k)N(k)]'。

1.2 频域独立成分分析Complex ICA

ICA是一种统计分离混合信号的算法,主要用于盲源分离。语音和噪声信号可以看作两个独立的信号源,将ICA引入分离语音信号和噪声信号。公式(2)可以看作在频域,信源信号经过混合矩阵A(k)混合得到观测信号Y(k)。如果A(k)矩阵已知,可以通过Y(k)解出信源信号X(k),然后得到语音信号S(k),但是一般情况下信道响应即混合矩阵A(k)都是未知的,只有观测信号Y(k)是已知的。只能通过Y(k)估计解混合矩阵W(k):

Complex ICA已经有一些比较成熟的解混合矩阵算法,其中可以利用Fast Fixed-pointed ICA[12]的复数域算法[13]来估计W(k),与其他同类算法比较,该算法收敛速度快,有利于实时跟踪信号变化。

2 带噪信号的Complex ICA

2.1 带噪信号Complex ICA推导

双麦克采集的两路信号,应用ICA算法分离,只能分离两个信号源。因此上述算法对于点噪声源的分离效果较好,但是对于分散的背景噪声情况,分离语音中混杂一些噪声,比较常见的解决方法是引入带噪信号的ICA算法[14]。先移除一部分噪声,然后再利用Complex ICA分离。

文献[14]的算法是针对时域的实数信号,本文提出带噪信号的频域的Complex ICA算法。带噪信号的Complex ICA算法的信号模型如下:

转化为与原始ICA算法相似的形式:

其中,N″=A-1N'。对观测信号进行白化:

其中,C=E{YYH}是观测信号的自相关矩阵,Σ是估计噪声的相关矩阵。

根据Complex ICA[13]和Noisy ICA[14],带噪信号的Complex ICA的代价函数可表示如下:

其中,φk(x)表示φ(x)的k阶求导函数。

求解上述最优化问题,得到迭代公式如下:

2.2 带噪信号Complex ICA后处理

文献[15]中指出,利用W矩阵可以估计信号源的方向。使用W同一行的两个元素比值的相位信息可以用来估计信号源的方向。在实际双麦克应用环境中,存在障碍和回声的影响,不能估计信号源方向。但是虑到W矩阵同一行两个元素比值的幅度与双麦克之间的距离和信号源与麦克风的距离有关,

其中,p1、p2为两个麦克风的位置,q为语音信号源的位置。

在实际应用环境中,双麦克之间距离较小(2cm~7cm),语音信号源与双麦克的距离也较小(4cm~10cm)。因此,上述比值的幅度在一个特定的范围内变化。图1给出不同频率下的比值幅度,在一个很小的范围内变化(信号采样率为8kHz,FFT为1024点)。

利用ρ作为一个判断ICA分离结果的参数,当ρ超出了指定范围时,可以看作解混合矩阵估计不准确,例如图2中500点附近的峰值。此时,不对信号进行ICA分离,双麦克信号直接进入后处理过程。

从ICA的算法原理可以看出,原始Complex ICA算法在集中噪声和分散噪声的环境中算法性能差异较大。图3(a)给出点噪声源(噪声源1)情况下接收到的带噪语音,SNR=-7dB。经过Complex ICA分离得到语音的频谱图,图3(b)给出了分散噪声源(噪声源1、2、3)情况下接收到的带噪语音,SNR=-7dB,经过Complex ICA分离得到的语音的频谱图。从两图比较结果可以看出,对于分散噪声源,传统频域ICA分离效果较差,尤其在100Hz~500Hz处,分离效果很差。因此,利用带噪Comple ICA算法改善这种情况。图3(c)是用带噪Comple ICA算法分离分散噪声源带噪语音得到的分离语音频谱图,分离效果有明显提高。

3 基于带噪频域信号ICA和MMSE短时谱幅度估计双麦克语音增强算法

利用频域带噪信号ICA和MMSE短时谱幅度估计双麦克语音增强算法经过频域带噪信号ICA算法分离后得到的语音估计信号s″和噪声估计信号n'。此时语音估计信号中仍含有残留的噪声信号。利用MMSE短时谱幅度估计算法,将估计语音信号中的残留噪声去除。s″带噪信号经过MMSE短时谱幅度估计[11]算法得到增强后语音。

带噪Complex ICA和MMSE短时谱估计算法中的噪声估计都采用Minimum statistics noise estimate[16]。MMSE短时谱估计算法中需要的VAD算法使用文献[11]中描述的算法。整个双麦克语音增强算法流程如图4所示。

4 实验测试

4.1 实验数据

测试语音数据的录制环境为10m5m3m的房间,其中麦克风和信源位置放置如图2所示,其中双麦克之间的距离为0.05m,语音信号源于双麦克风中心距离为0.05m(实际应用环境中人声距离麦克风较近)。该房间为普通的办公楼会议室,反射时间为T60。麦克风为全向麦克风;语音信号为标准语音库语音材料,噪声信号为NOISEX-92噪声库中平稳噪声代表白噪声。所有信号采用8kHz采样率,16bit量化。图5给出了实验用纯净语音的时域图。

4.2 实验结果

图6分别是带噪语音(SNR=-7dB),Complex ICA分离得到的语音,带噪Complex ICA分离得到语音和增加MMSE短时谱幅度估计增强语音的时域图,从结果可以看出,带噪Complex ICA能较好地分离语音和噪声信号,分离得到的信号中混杂有少量的噪声,再利用MMSE短时谱幅度估计算法就能得到很好的增强效果。

另一个语音质量的衡量指标是频谱差异(log spectral distance),其定义如下:

其中,S(t,ejw)和Y(t,ejw)分别表示纯净语音和增强后语音的频谱。由定义可知,LSD的值越小,表明增强后语音与纯净语音的频谱越相近,算法性能越好。

图7给出不同信噪比下,多噪声源带噪信号经过不同算法增强后的LSD值。从图中可以看出,相对于传统的自适应噪声相消(Adaptive noise cancellation)和GSC(Generalized Sidelobe Canceler)有明显优势。

5 结束语

语音增强范文

语音增强范文(精选8篇)语音增强 第1篇一、英语听力的重要性在英语学习中, 英语的五项基本技能分别是是“听”、“说”、“读”“写”。...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部