王博聊声学 | 音频主观评价方法 – MUSHRA

BK声学与振动 · 发表于 2023-4-19 13:28

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？我要加入

x

本帖最后由 BK声学与振动于 2023-4-19 13:30 编辑

登录/注册后可看大图

在智能音频时代，音频技术的发展突飞猛进，新功能、新产品和新的应用场景不断涌现，如何从主观和客观角度评价音频品质，成为人们日益关注的焦点。HBK在音频领域拥有全球领先的产品方案和深厚的技术背景及工程经验，我们将从音频感知的主观属性、评价方法、客观参数测量等方面与大家共同探讨技术挑战以及HBK的解决方案。

ITU-R BS.1534描述了一种音频主观评价的方法，即包含隐藏参考和锚点的多激励方法（MUlti Stimulus test with Hidden Reference and Anchor, MUSHRA），用于中等品质音响系统的音效评估。例如车载音响系统，由于座舱空间较小，低频声波在车内的反射与叠加会形成驻波声场，乘客位置的频响并不平坦，出现显著的峰值和谷值，导致主观感受的降低。对于扬声器阵列或者耳机重放的空间音频，不同的声场重构算法和信号处理也会造成明显的主观感知差异。MUSHRA能够准确反映出人的主观听觉并给出可靠的结果，是项目中常用的评价方法。

什么是参考？
MUSHRA使用原始的全频带且未经处理的信号作为参考。例如在AR/VR场景的主观音质评价，可使用人头躯干模拟器HATS的双耳录音作为参考。主观评价时，如果你给它的分值较低，那么你的结果就会被剔除出去。

什么是锚点？
MUSHRA使用至少2个隐藏锚点信号：一个是标准锚点信号，即对原始信号进行低通滤波，截至频率为3.5kHz；另一个是中等品质的锚点信号，同样是低通滤波，截至频率为7kHz。锚点的作用是标定打分尺度，使得比较小的音质瑕疵不会给很低的分值。

评价者应具有主观评价的经验，能够区分不同样本的差别，并且对同一个样本的评分应非常接近。对评价者进行非正式或正式评价训练非常重要，只有有经验的评价者的数据才能被使用。一般情况下，不超过20人即可给出较好的结果。在正式评价之前，需要对评价者进行培训。

每一次评价的音乐样本一般不超过12个，例如，9个音乐样本、1个隐藏的低品质锚点、一个隐藏的中等品质锚点和一个隐藏参考样本。样本的最大长度一般为10s，最好不超过12s，以避免评价者疲劳并缩短时间。音乐样本需要做等响处理，以保证听音者在相同的情况下进行评价。

每次评价时，只对一个主观属性进行评分，不能一次评价多个主观属性。如果需要独立评价多个音乐属性时，推荐首先评价基本音频品质（Basic Audio Quality, BAQ）。BAQ是所有ITU相关标准里的核心，包含了音频品质相关的所有方面，例如音色、立体声像、清晰度、空间感、混响、谐波失真等等。对于系统损伤评定的情况，比如由于低比特率的音频编解码、声音重放系统的限制等，BAQ可以用于评价其声音与参考声音之间的相似度或者差异。

评价者可以随意切换参考信号和其他音乐样本，以确保不同音乐样本之间的差异可以在分值上体现出来。MUSHRA的评分在0–100之间，一般评价者的分值在20–80之间比较理想，这样的评分尺度能够很好地区分很小的主观差异。

登录/注册后可看大图

图1 MUSHRA主观评价的显示界面

主观评价完成后，需要剔除不可信的评价者，例如样本的分辨能力比较弱、评分结果不一致或者给严重损伤的锚点信号赋予较高的分值等。

与其他标准的区别：

ITU-R BS.1116 - Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems：用于小损伤的高品质音响系统的评估，该方法不适用于数字AM、数字卫星广播、音频按需服务和音频拨号线路等低品质系统。它使用“双盲、隐藏参考的三重激励”评价方法（ABC/HR），即已知参考样本为A，隐藏参考和小损伤样本随机赋予B和C，然后听音者对比B和A、C和A，根据5级尺度进行评价。B和C中的一个与A是无法分辨的，另一个则能揭示出差异，即损伤。
ITU-T P.800/810/830关注于电信系统的语音信号主观评价，用MOS评分来量化用户接听和感知语音质量，MOS分值越大表示语音质量越好。

案例分享

在某车载音频的主观评价项目中，HBK工程服务部门针对不同音响配置的3款车型，共10种车型配置，选择了4种音乐样本（经典、摇滚、流行、爵士），挑选20名专家听音者进行主观评价，在评价之前对声音样本进行了等响处理。

针对总体偏好属性，20名评价者对某个音乐样本在10种车型配置下进行主观评价，平均主观评分结果（置信度95%）如下图2，评分等级从非常不喜欢到非常喜欢。我们可以看出，不同车型配置之间存在明显的主观偏好差异。

登录/注册后可看大图

图2

不同类型音乐的主观平均分值如下图3，可以看出不同车型配置之间存在差异，并且发现，有的车型配置不同音乐类型的主观分值很接近，有的车型配置就会比较发散。

登录/注册后可看大图

图3

我们还评价了Powerfulness，如下图4，设置了4个音量Level 1 ~ 4，响度越大，力度感越大，但达到饱和以后，再增大音量也不会增加力度感。在最高音量Level 4下，三个车型的力度感的评分是下降的，很有可能是因为声音失真造成的。

登录/注册后可看大图

图4

进一步对所有音乐的总体偏好和其他主观属性之间做相关分析，见下图5，总的看，总体偏好和中频强度Midrange Strength、高音强度Treble Strength和包围感Envelopment相关。并且主观属性里，Punch和Bass Strength相关程度较高，Midrange Strength和Brilliance相关程度较高。对总体偏好做主分量分析，第一个主分量是最主要的贡献。

登录/注册后可看大图

图5

我们还发现，经典音乐的相关性分析结果似乎有些不同，见下图6，其总体偏好与Brilliance和Punch相关，从主分量的角度，有更多的主分量参与贡献，且第三个主分量的贡献最大。

登录/注册后可看大图

图6

最后，我们用显著的主分量预测主观偏好，并与真实的主观评分做比较，见下图7，可以看到预测值能够很好地符合真实的主观评价，相关系数在90%以上。

登录/注册后可看大图

图7

参考文献：

1. ITU-R. Recommendation BS.1534-3 - Method for the subjective assessment of intermediate quality level of audio systems.

2. ITU-R. Recommendation ITU-R BS.1116-3 - Methods for the subjective assessment of small impairments in audio systems.

全新《HBK电声测量解决方案》已新鲜出炉点击这里，查看 / 下载完整解决方案

登录/注册后可看大图

您还可以通过如下方式联系我们，了解更多产品与应用详情：

邮箱：cn.info@hbkworld.com

网址：www.bksv.com/zh

电话：400-900-3165（周一至周五9:00-18:00）

点击这里，咨询B&K产品信息：https://www.bksv.com/zh/request-a-quote

账号		自动登录	找回密码
密码			我要加入

[综合讨论] 王博聊声学 | 音频主观评价方法 – MUSHRA

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。