[分享]利用回声消除技术提高呼叫质量

AaronSpark · 发表于 2006-3-27 03:02

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？我要加入

x

分组语音网络发展的过程中，最重要的问题之一就是质量问题。通常情况下，呼叫质量与语音质量是同一个概念。但除了“语音”之外，还存在许多因素影响用户对呼叫质量的感知。能够听到清晰的语言是一个有效电话呼叫的首要前提，但用户对呼叫质量的体验不仅仅包括听到的语音。当线路上没有语音时用户听到的声音通常不易引起注意，但这些声音却对感知到的呼叫质量影响重大。

这些非语音声音通常被称为背景噪声(BGN)。分组语音系统采用两种来消除背景噪音：回声消除和静音抑制(SS)。利用这两种技术可人为地消除呼叫中的背景噪声，并换来通常所说的舒适噪声(CN)。

本文讨论在产生舒适噪声以满足用户对长途电话质量的期望时所要考虑的问题，同时还讨论与在回声消除中产生背景噪声和舒适噪声相关的问题。

回声消除

回声消除并非电话系统中的新技术。在传统的电话网络中，长途电话呼叫中发生的延迟会产生听得见的烦人的回声。回声消除器(EC)已被用来消除这种回声。在分组语音网络中，当语音样本被收集以生成语音包时，所有呼叫都有延迟。这种分组延迟与传统长途电话呼叫的延迟具有相同效果。因此在分组语音网络中，不管呼叫距离的远近，都有必要对所有呼叫采用回声消除器。

如图1所示，回声消除器由一个自适应滤波器(AF)和一个非线*处理器(NLP)组成。在理想的回声消除器中，自适应滤波器能实时生成一个理想的回声响应模型，并从返回信号中减去合成的回声。实际上，自适应滤波器既达不到实时的速度，也无法始终都能生成理想模型，而是由非线*处理器消除所有残余的回声。

非线*处理器通过同时抑制以无法识别的方式结合在一起的本地信号和残余回声来消除残余回声。如果它未能消除残余回声，则回声会返回至远程用户，从而产生令人得心烦意乱的噪声并使声音质量降低到不可接受的地步。当非线*处理器抑制残余回声时，本地用户的信号无法传输到远程的听筒中，这是消除残余回声的一个不可避免的副作用。但是，本地终端出现的背景噪音不再传输到远程用户端，这会产生令人不舒服的语音不连续*。为避免这个问题，必须用高品质的非线*处理器人工生成的舒适噪声取代所有被抑制的本地背景噪音，主观上讲，这种人工生成的舒适噪声很难与原始信号区分开来。

图1：典型的回声消除系统。
背景噪声

背景噪声存在多种不同的形式，通常有“办公室通风噪声”、“街道噪声”和“背景音乐”等。尽管这种分类对人们理解背景噪音非常实用，但舒适噪声的建模和生成所使用的算法是属于数学术语。背景噪声最基本和最直观的特*是响度，即信号能量级别。其次的一个显著特*是信号频率分布。例如，一辆正在行驶的汽车与一台真空吸尘器的嘈杂声具有相同能量级别，但它们发出的声音却不同，因为它们具有完全不同的频谱。第三个重要特*是前两个特*随时间变化。如果背景噪声的能量级别和频谱不随时间变化，则称为平稳噪声。某些环境很容易包含非平稳的背景噪声，最好的例子就是车来车往的街道噪声。

优良的舒适噪声算法必须能很好地处理各种背景噪声。重新产生的舒适噪声应尽可能与原始信号相匹配。此外，当舒适噪声模型与原始信号匹配较差时，好的算法应尽量减少主观语音质量的下降。如今的舒适噪声算法趋于将这些算法基于一个通常称为频谱舒适噪声(S舒适噪声)的技术，这种技术设法重新产生原始信号的能量和频谱。

回声消除应用具有许多子功能(见图2)。其中一个子功能为背景噪声建模器，它可从背景噪声中分辨出语音，并可计算当语音不存在时给定时间窗口上背景噪声的移动平均数。然后，背景噪声建模器将由背景噪声能量级别和频谱组成的背景噪声模型传递给舒适噪声滤波器系数发生器。根据这个信息，舒适噪声滤波器系数发生器周期*地产生舒适噪声滤波器所需的舒适噪声滤波器系数。该在舒适噪声滤波器上施加一段连续的高斯白噪声，以便将这个普通信号整形为与原始背景噪声的频谱和能量相匹配的信号，这就是要找的舒适噪声。

图2：回声消除器中产生舒适噪声的电路。
舒适噪声系统设计的第一步是选择“舒适噪声滤波器”结构，这个选择需要在处理功率和原始背景噪声忠实再现之间进行折衷。有许多滤波器类型可以充当这个角色，它们都具有频谱精度越高，则每单位时间功耗越大的特*。还必须选择期望的频带数以及它们在电话信号频谱(范围大约在0 kHz至4 kHz之间)上的分布。两个常见的频带分布是线*分布(即有N个宽度为(4000/N) Hz的频带)和对数分布(如音符)。主观测试是验证滤波器是否适当的最佳方法。滤波器系统必须复制大量无法区分的典型背景噪声。从完全平稳的信号中产生滤波器系数的过程非常琐细，因此这里使用一个简单的“背景噪声建模器”。一些时变背景噪声源(如“街道噪声和“背景音乐”)则难以使用标准的线*滤波器进行建模。

人类声音感知的原理

在产生舒适噪声的情况下，人类听觉的最重要特征是对其它平稳信号中的变化和不连续特别敏感度。这种灵敏度对舒适噪声的生成带来很大挑战，因为当仅有背景噪声出现在信号中时，原始背景噪声通常会转换成舒适噪声。当以连续方式播放时，与原始背景噪声匹配一般的舒适噪声模型产生的信号非常自然，并且与原始信号无异。然而，在舒适噪声与原始背景噪声的相互转换过程中，相同的舒适噪声模型可能产生明显的令人讨厌的不连续。当这些转换在主观上察觉不到时，则表示生成了一个适当的舒适噪声模型。

另一个经常提到的人类听觉特*是人类耳朵可分辨的独立频带数。这从理论上确定了在舒适噪声系统子功能中需要区分的频带数。实际上，这个数字非常大，但只需要比这个数字小得多的频带数，就可以很好地模拟大多数背景噪声。例如，复制真空吸尘器的声音所要求的频谱精度要远小于复制贝多芬第五交响曲所需要的频谱精度。因此，为正确模拟电话系统中的背景噪声，必须仔细选择最小频带数，通常为10至50。利用当前的处理技术，可方便地管理这个频带数。但需要注意的是，这个频带数并不能很好地复制所有背景噪声信号，特别是具有极窄脉冲成份的信号。

用于回声消除的舒适噪声

在回声消除器中，只要远程用户开始讲话，如果返回信号中包含残余回声，非线*处理器就必须抑制返回信号，同时本地背景噪声也会与残余回声一起被强行抑制。因为远程或远端用户随时都可能会讲话，所以非线*处理器必须一直都具有有效的舒适噪声模型，否则每次远程用户讲话，返回信号都会不连续。

在上述情形下找出背景噪声非常困难，因为返回信号里包含了本地语音、本地背景噪声以及远程语音和远程背景噪声的回声。在对话的大部分时间内，只有两个用户中的一个在说话。在前面所述的更新背景噪声移动平均数的方法中，语音活动检测器(VAD)几乎总能在信号中检测到语音，这将阻碍背景噪声移动平均数的持续更新。因此必须开发一种替代方法，以便能在有语音信号时也能更新移动平均数，而不让语音破坏舒适噪声模型。甚至在现有的无线网络中，一些舒适噪声系统也会在出现语音时间段错误地更新背景噪声模型。这会产生不期望的背景噪声时间段，并且通常在语音时间段之后。这是使用典型方法得到一个不理想结果的例子。

高质量的背景噪声建模器是产生商业级回声消除所需的知识产权的一个关键构建模，也是目前可用的回声消除算法之间的一个主要区别。

本文小结

实际上，现在和下一代电信系统越来越需要如本文所讨论的先进的回声消除技术。由于分组系统的传输延迟，新的语音分组处理(VoP)技术必须采用回声消除技术。只有当这种技术提供与当前公共交换电话网络(PSTN)相同的呼叫质量时，它才能被用户广泛接受。在无线市场中，用户为获得便利*已经接受质量方面的一些牺牲。但是更好的呼叫质量仍然是用户满意度和保持率的主要因素。因此，高质量的舒适噪声系统是现在和未来网络发展成功的关键。

作者：Frédéric Bourget，产品市场总监，Octasic公司

账号		自动登录	找回密码
密码			我要加入

[声学基础] [分享]利用回声消除技术提高呼叫质量

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。