声振论坛

 找回密码
 我要加入

QQ登录

只需一步,快速开始

查看: 1498|回复: 0

[综合讨论] 王博聊声学 | 音频主观评价方法 – MUSHRA

[复制链接]
发表于 2023-4-19 13:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?我要加入

x
本帖最后由 BK声学与振动 于 2023-4-19 13:30 编辑



                               
登录/注册后可看大图


在智能音频时代,音频技术的发展突飞猛进,新功能、新产品和新的应用场景不断涌现,如何从主观和客观角度评价音频品质,成为人们日益关注的焦点。HBK在音频领域拥有全球领先的产品方案和深厚的技术背景及工程经验,我们将从音频感知的主观属性、评价方法、客观参数测量等方面与大家共同探讨技术挑战以及HBK的解决方案。

ITU-R BS.1534描述了一种音频主观评价的方法,即包含隐藏参考和锚点的多激励方法(MUlti Stimulus test with Hidden Reference and Anchor, MUSHRA),用于中等品质音响系统的音效评估。例如车载音响系统,由于座舱空间较小,低频声波在车内的反射与叠加会形成驻波声场,乘客位置的频响并不平坦,出现显著的峰值和谷值,导致主观感受的降低。对于扬声器阵列或者耳机重放的空间音频,不同的声场重构算法和信号处理也会造成明显的主观感知差异。MUSHRA能够准确反映出人的主观听觉并给出可靠的结果,是项目中常用的评价方法。

什么是参考?
MUSHRA使用原始的全频带且未经处理的信号作为参考。例如在AR/VR场景的主观音质评价,可使用人头躯干模拟器HATS的双耳录音作为参考。主观评价时,如果你给它的分值较低,那么你的结果就会被剔除出去。

什么是锚点?
MUSHRA使用至少2个隐藏锚点信号:一个是标准锚点信号,即对原始信号进行低通滤波,截至频率为3.5kHz;另一个是中等品质的锚点信号,同样是低通滤波,截至频率为7kHz。锚点的作用是标定打分尺度,使得比较小的音质瑕疵不会给很低的分值。

评价者应具有主观评价的经验,能够区分不同样本的差别,并且对同一个样本的评分应非常接近。对评价者进行非正式或正式评价训练非常重要,只有有经验的评价者的数据才能被使用。一般情况下,不超过20人即可给出较好的结果。在正式评价之前,需要对评价者进行培训。

每一次评价的音乐样本一般不超过12个,例如,9个音乐样本、1个隐藏的低品质锚点、一个隐藏的中等品质锚点和一个隐藏参考样本。样本的最大长度一般为10s,最好不超过12s,以避免评价者疲劳并缩短时间。音乐样本需要做等响处理,以保证听音者在相同的情况下进行评价。

每次评价时,只对一个主观属性进行评分,不能一次评价多个主观属性。如果需要独立评价多个音乐属性时,推荐首先评价基本音频品质(Basic Audio Quality, BAQ)。BAQ是所有ITU相关标准里的核心,包含了音频品质相关的所有方面,例如音色、立体声像、清晰度、空间感、混响、谐波失真等等。对于系统损伤评定的情况,比如由于低比特率的音频编解码、声音重放系统的限制等,BAQ可以用于评价其声音与参考声音之间的相似度或者差异。

评价者可以随意切换参考信号和其他音乐样本,以确保不同音乐样本之间的差异可以在分值上体现出来。MUSHRA的评分在0–100之间,一般评价者的分值在20–80之间比较理想,这样的评分尺度能够很好地区分很小的主观差异。


                               
登录/注册后可看大图
图1 MUSHRA主观评价的显示界面

主观评价完成后,需要剔除不可信的评价者,例如样本的分辨能力比较弱、评分结果不一致或者给严重损伤的锚点信号赋予较高的分值等。

与其他标准的区别:
  • ITU-R BS.1116 - Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems:用于小损伤的高品质音响系统的评估,该方法不适用于数字AM、数字卫星广播、音频按需服务和音频拨号线路等低品质系统。它使用“双盲、隐藏参考的三重激励”评价方法(ABC/HR),即已知参考样本为A,隐藏参考和小损伤样本随机赋予B和C,然后听音者对比B和A、C和A,根据5级尺度进行评价。B和C中的一个与A是无法分辨的,另一个则能揭示出差异,即损伤。
  • ITU-T P.800/810/830关注于电信系统的语音信号主观评价,用MOS评分来量化用户接听和感知语音质量,MOS分值越大表示语音质量越好。
案例分享

在某车载音频的主观评价项目中,HBK工程服务部门针对不同音响配置的3款车型,共10种车型配置,选择了4种音乐样本(经典、摇滚、流行、爵士),挑选20名专家听音者进行主观评价,在评价之前对声音样本进行了等响处理。

针对总体偏好属性,20名评价者对某个音乐样本在10种车型配置下进行主观评价,平均主观评分结果(置信度95%)如下图2,评分等级从非常不喜欢到非常喜欢。我们可以看出,不同车型配置之间存在明显的主观偏好差异。


                               
登录/注册后可看大图
图2

不同类型音乐的主观平均分值如下图3,可以看出不同车型配置之间存在差异,并且发现,有的车型配置不同音乐类型的主观分值很接近,有的车型配置就会比较发散。


                               
登录/注册后可看大图
图3

我们还评价了Powerfulness,如下图4,设置了4个音量Level 1 ~ 4,响度越大,力度感越大,但达到饱和以后,再增大音量也不会增加力度感。在最高音量Level 4下,三个车型的力度感的评分是下降的,很有可能是因为声音失真造成的。


                               
登录/注册后可看大图
图4

进一步对所有音乐的总体偏好和其他主观属性之间做相关分析,见下图5,总的看,总体偏好和中频强度Midrange Strength、高音强度Treble Strength和包围感Envelopment相关。并且主观属性里,Punch和Bass Strength相关程度较高,Midrange Strength和Brilliance相关程度较高。对总体偏好做主分量分析,第一个主分量是最主要的贡献。


                               
登录/注册后可看大图
图5

我们还发现,经典音乐的相关性分析结果似乎有些不同,见下图6,其总体偏好与Brilliance和Punch相关,从主分量的角度,有更多的主分量参与贡献,且第三个主分量的贡献最大。


                               
登录/注册后可看大图
图6

最后,我们用显著的主分量预测主观偏好,并与真实的主观评分做比较,见下图7,可以看到预测值能够很好地符合真实的主观评价,相关系数在90%以上。


                               
登录/注册后可看大图
图7


参考文献:

1. ITU-R. Recommendation BS.1534-3 - Method for the subjective assessment of intermediate quality level of audio systems.

2. ITU-R. Recommendation ITU-R BS.1116-3 - Methods for the subjective assessment of small impairments in audio systems.






全新《HBK电声测量解决方案》已新鲜出炉点击这里,查看 / 下载完整解决方案




                               
登录/注册后可看大图

您还可以通过如下方式联系我们,了解更多产品与应用详情:

邮箱:cn.info@hbkworld.com

网址:www.bksv.com/zh

电话:400-900-3165(周一至周五9:00-18:00)

点击这里,咨询B&K产品信息:https://www.bksv.com/zh/request-a-quote


回复
分享到:

使用道具 举报

您需要登录后才可以回帖 登录 | 我要加入

本版积分规则

QQ|小黑屋|Archiver|手机版|联系我们|声振论坛

GMT+8, 2024-4-19 16:11 , Processed in 0.050189 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表