声区控制系统中基于传递函数矩阵条件数的扬声器选择
时间:
针对声场分区中现有扬声器选择方法难以兼顾鲁棒性和分区效果的问题,提出了一种基于传递函数矩阵条件数最小化的扬声器选择方法。结合明区重放声场均方误差最小准则对条件数方法进行改进,改进后的方法不仅保持了条件数方法的鲁棒性优势,还在重放性能上优于现有迭代方法。通过调整改进方法的阈值参数,可以在鲁棒性、计算量和重放性能之间实现平衡。自由场、混响场和基于实测房间的仿真结果,以及模拟主观评测结果均验证了方法的有效性,证明了提出的条件数改进方法具有更好的普适性和灵活性,能够适应多种应用场景的需求。
论文《声区控制系统中基于传递函数矩阵条件数的扬声器选择》发表在《声学学报》,版权归《声学学报》所有。本文来自网络平台,仅供参考。
关键词
声场重放,声场分区,扬声器位置,条件数
引言
声场重放旨在利用扬声器阵列在区域内重建目标声场[1-3]。作为声场重放领域的重要技术,个人音区技术在空间内产生有效听音区域(明区)和声隔离区域(暗区),有广泛的应用前景,受到国内外相关学者的广泛研究[4-6]。在过去的二十多年间,相关学者提出了一系列的声场分区算法。
声对比度控制(ACC)算法最早由Choi等于2002年提出[7],该算法可以获得最高的声屏蔽效果,但由于其未考虑相位特性,明区的重放精度存在显著弱点。声压匹配(PM)算法由Poletti于2008年应用于声场分区中,该算法通过匹配实际声场和期望声场进行声场重放,并且能够同时控制明区的声压相位和幅度,从而产生较高精度的方向声场[8];相比于ACC算法,PM算法声对比度有所弱化,但其由于高重放精度依旧受到广泛关注。近年来,Lee等提出了一种变跨度权衡滤波(VAST)框架[9],统一了ACC算法和PM算法的数学形式,并通过规整参数融合两种方法的优点。此外,相关学者将传递函数在线建模引入上述声场分区算法中,使算法在变化的声学环境中保持较好的分区效果[10-12]。
以上典型声场分区算法主要针对固定的扬声器阵列计算最优源强对应的滤波器,然而在很多应用场景,尤其是扬声器数量较多的场景,同时使用所有扬声器并不是最优配置,因此有必要对扬声器进行选择[13]。近期已有相关学者围绕分区系统的扬声器选择问题展开研究(大多基于PM算法),提出的选择方法可分为稀疏正则化方法以及迭代选择方法[13]。稀疏正则化方法在代价函数中引入对源强的L1范数约束,近似得到扬声器源强的稀疏解,常用技术包括Lasso算法和弹性网络算法[14-16]。相较于稀疏正则化方法的直接求解,迭代方法通过特定的优化准则逐次从扬声器候选集中选取一个扬声器单元。Asano等提出了基于施密特正交化(GSO)的迭代算法[17],其每次迭代选取一个线性无关度最高的扬声器以使得单个扬声器对声场重放的作用不可替代。Khalilian等提出了约束匹配追踪(CMP)迭代算法[18],该算法每次迭代选取传递函数与当前重放误差相关性最强的扬声器,从而尽可能地逼近目标声场。此外,Zhao和Burnett提出了渐进阵列最优化(EAO)方法[13],其处理流程与其他迭代方法类似,都是通过循环迭代来获取最优位置扬声器。不同之处在于,其他迭代算法每次从候选集中选择一个扬声器,而EAO方法则每次从候选集中剔除一个扬声器。理论和实验结果表明,EAO方法相比稀疏正则化方法和其他迭代方法有更好的低频性能。
现有的声场分区技术主要聚焦于声场重放精度和对比度的提升,然而鲁棒性(稳定性)应当是声场分区系统的应用前提,因此提出一项兼顾鲁棒性和分区性能的扬声器选择方法是必要的。受鲁棒性影响较大的串扰消除(CTC)作为另一项重要的声场重放技术,其利用扬声器阵列进行双耳声重放,与声场分区技术具有高度相似性:二者均在若干个点上匹配声信号,同时在另一些点上最小化声能量;同样地,串扰消除也存在扬声器选择的问题。解决串扰消除中扬声器选择问题,最常用的是基于条件数最小原理的最优声源分布(OSD)方法[19],其鲁棒性以及实用性已在学术界和工业界得到广泛认可[20]。此外,多通路Ambisonics的研究也表明,声源布置的不同会直接影响传递矩阵条件数,而条件数与声场重放的稳定性密切相关。因此,条件数也可作为多通路Ambisonics扬声器布置设计的重要参考依据[21]。探讨如何将OSD方法和基于条件数的多通路Ambisonics扬声器布置方法引入声场分区系统,并探究其对声场分区性能的影响,是本论文的重点研究内容。
本文参考OSD方法和多通路Ambisonics扬声器布置方法的原理,提出了基于传递函数矩阵条件数最小化的声场分区系统扬声器选择方法,并结合明区重放声场均方误差最小准则的渐进阵列最优化(EAO-MSE)方法对提出的扬声器选择方法进行了改进。基于自由场和混响场的模拟声学环境仿真,以及实测房间声场的仿真,验证了提出的条件数方法相比现有迭代方法具有更低的阵列功率,改进的条件数方法则在兼顾阵列功率的同时具有更好的声场分区性能,且能够允许算法在鲁棒性、计算复杂度和声场分区性能之间取得平衡。最后,本文通过模拟主观评测进一步验证了条件数方法在声场隔离度和重放音质方面的优势。
1 声区控制系统
图1展示了环形扬声器阵列的声区系统。该系统使用若干个扬声器在明区产生方向为(n_0)的平面波,同时在暗区实现声能量最小化。扬声器阵列在明区和暗区采样点处产生的声压(p_A)和(p_B)可分别用矩阵表示为:

1.1 声压匹配法
PM算法作为声场分区技术的重要方法,由于其较高的重放精度受到了广泛关注,早在2008年被应用于声场分区技术中[8]。基于最小二乘法,经典PM算法的代价函数可以表示为[22]:
其中,上标H表示共轭转置,E表示单位阵。在下文的声场分区仿真中,均用PM算法计算扬声器源强。
1.2 性能评价指标
为了衡量系统的分区效果,采用以下3个评价指标:
1. 声对比度(Acoustic Contrast, AC):其为明区与暗区的平均声能量密度之比。声对比度可以离散化表示为明区暗区平均声压级大小的比值:
其中,(M_A)和(M_B)分别表示明区和暗区的采样点数目。一般认为声对比度高于20 dB为有效声屏蔽[22]。
2. 均方误差(Mean Square Error, MSE)[23]:其为明区重放声场与期望声场的相对均方误差,可离散化表示为下式,用于评价明区内声场的重放效果:
3. 阵列功率(Array Effort, AE):其为扬声器阵列输出功率与参考源输出功率的比值,与系统的辐射效率密切相关,定义如下:
其中,参考源输出功率(q_r)表示单个扬声器在明区产生相同声压级所需要的输出功率。
1.3 条件数和性能指标的关系
如式(3)所示,最优源强求解涉及矩阵求逆操作。根据奇异值分解(SVD),矩阵的条件数可以表示为最大奇异值和最小奇异值的比值,其在衡量矩阵求逆的数值稳定性和准确性上起着至关重要的作用[21]。具体来说,当矩阵条件数过大时,矩阵微小变化会引起逆运算解的巨大偏差,从而直接影响系统的鲁棒性。以声场重放系统中的串扰消除技术为例,传递函数矩阵条件数是影响系统性能的重要指标。这是由于串扰消除系统固有的高度结构对称性会显著提升传递函数的矩阵条件数,从而引发系统性能恶化或者鲁棒性下降等问题[24-28]。类似地,对声场重放系统中的声场分区技术而言,最优源强求解过程同样涉及矩阵求逆运算,因此也需要对可能出现的病态矩阵求逆问题给予充分考虑。
正则化系数的选取满足为矩阵(G^H G)的最大特征值,(G=[G_A; G_B]))。在自由场下,采用图1所示的32个扬声器组成的环形阵列,分析声区系统中条件数对系统性能的影响,明区暗区均只有位于区域中心的1个控制点。计算不同频率的扬声器到明区暗区控制点的传递函数矩阵G的条件数,以及声场分区性能,结果如图2所示,其中红色曲线表示条件数随频率的变化曲线,蓝色曲线分别对应对比度、明区重放误差和阵列功率随频率的变化曲线。仿真结果显示,传递函数矩阵条件数极小值对应声场分区系统声对比度的极大值,以及明区均方误差和阵列功率的极小值。因此在自由场的单个控制点系统下,传递函数矩阵的条件数与声场分区性能成反比关系。当单个区域存在多个控制点时,条件数不仅反映明区暗区路径的相似程度,还表征了同一区域内不同控制点对应路径的相似性。此时条件数与性能相关性有所下降,然而条件数过大仍会对重放性能产生不利影响,特别是在区域内期望声场存在空间相位分布的情况下。从算法数值求解的角度来看,条件数对算法求逆鲁棒性的影响与控制点数目无关。因此在多控制点的情况下,条件数同样会影响算法效果,但此时条件数更多关系到算法的鲁棒性,而非分区性能。
通常,在声场分区算法中引入正则化系数(lambda)可以有效避免大条件数矩阵的求逆,同时抑制扬声器的输出功率以避免扬声器非线性失真,进而提高系统鲁棒性[29]。然而图2对应的结果显示,在算法引入正则化之后依然存在分区性能与条件数成反比的情况,这说明正则化技术无法完全弥补大条件数的劣势。类比相关学者在串扰消除领域对条件数的分析,如果忽略初始传递函数矩阵的条件数,仅通过增加正则化来提高鲁棒性可能带来如下问题[19]:
1. 高条件数系统由于矩阵二范数较大,其扬声器输出功率更高,鲁棒性也更差。虽然通过加入正则化可以缓解这一问题,但会对求逆过程引入误差。并且,由于高条件数系统对扰动更加敏感,求逆误差会被进一步放大。相比之下,直接选择传递矩阵条件数较小的扬声器位置则能避免这一问题,即使为了抑制扬声器输出功率需要增加正则化,正则化对声场重放性能的影响也更小。
为更清楚地说明这一点,本文讨论了两种不同的固定扬声器布置方式:一是传递函数矩阵条件数较小的扬声器系统,二是传递函数矩阵条件数较大的扬声器系统。对二者均引入正则化使阵列功率一致,保证鲁棒性相似。图3为二者的声场分区性能图,在相同的阵列功率下,低条件数的扬声器系统在全频带范围内获得了更高的对比度和更低的明区均方误差,而高条件数的系统由于正则化误差的影响,声场重放的效果明显不如低条件数的系统。
2. 对于传递函数矩阵条件数更高的系统,其对正则化系数的变化表现出更高的敏感性。假设算法的正则化系数为(10^{lambda} imes max(eig(G^H G))),即(10^{-1})乘待求逆矩阵的最大特征值。本文绘制了500 Hz下,低条件数和高条件数系统的性能指标随正则化系数变化的曲线,如图4所示,横坐标表示正则化系数。高条件数系统的声场重放性能,特别是对比度性能,受正则化系数的影响更为显著,算法对正则化系数的选取要求更加严格。此外,无论正则化如何变化,低条件数系统始终能够实现相同正则化情况下更好的声场重放效果。
综合以上分析,即使引入正则化技术,初始传递矩阵的大条件数仍会对声场分区系统的性能产生负面影响。这表明在设计和优化声场分区系统时,应尽量避免传递函数矩阵条件数过大。
2 扬声器选择
在第1节中,讨论了固定位置扬声器的分区性能。然而在扬声器数目较多的场景下使用全部扬声器并不是最优的[18],此时需要在扬声器候选集中选择最优位置的扬声器。考虑到Zhao等在2022年的研究中证明[13],稀疏正则化算法中最优的弹性网络−最小二乘(ElasticNet-LS)算法性能与迭代算法中的CMP算法性能相近,且在扬声器数目较少时性能急剧下降。因此,本文研究不对稀疏正则化方法进行分析,而是专注于讨论循环迭代的方法。
2.1 迭代方法
迭代方法在每次迭代循环中根据特定标准选择扬声器,可以在使用较少扬声器数目的情况下,尽可能优化声场分区系统的性能。目前常用的迭代算法包括GSO和CMP。
GSO算法通过逐次选择N个最线性无关的扬声器,使每个扬声器的作用不可替代,从而优化声场分区性能。在第一次迭代中,GSO算法选取传递函数与期望声场(p_T)相关性最大的扬声器,其可公式化为[17]:
其中,L是初始候选集的扬声器个数,(g_i)表示传递函数矩阵G第i个列向量)。
之后的迭代中,GSO算法通过施密特正交方法,选择与已选扬声器相关性最弱的扬声器。例如,第n次迭代选取的扬声器可表示为:
其中,(v_i)表示(g_i)对应的单位向量。式中求和项对应(g_i)在之前选择的扬声器对应传递函数张成子空间中的投影。GSO算法重复执行式(8),直到选择的扬声器数目与目标扬声器数目N相等。
另一种常用的迭代算法CMP算法,旨在每次循环中找到传递函数与当前重放误差相关性最强的扬声器。初始化误差为(e_1=p_T),则第n次迭代的公式可表示为[18]:
其中,(e_n)表示第n次迭代的误差。根据上式可以得到第n次迭代选择的扬声器,其对应的传递函数可以表示为(widehat{g}_n=g_{l_n}),因此误差的迭代更新公式为:
其中,(eta_n)是一个缩放常数。重复上述操作,直到迭代次数n与目标的扬声器个数N相等。
需要说明的是,本节讨论的GSO和CMP算法仅用于确定扬声器的位置,而非计算扬声器最优源强。在使用GSO和CMP算法之后,还需结合声场分区算法(如PM算法)计算已选择扬声器的源强,从而实现声场分区。
2.2 条件数方法
在声场重放的串扰消除技术中,高度几何对称很容易提高传递函数的矩阵条件数,从而造成性能恶化或系统鲁棒性下降等问题[24-27]。通常采用OSD方法选择扬声器的位置以避免对病态矩阵求逆[19]。OSD方法基于传递函数矩阵条件数最小化准则来选择扬声器位置[30],理论和实验研究充分表明OSD方法具有更好的重放性能和鲁棒性[20],且已广泛应用于商业化产品。
串扰消除和声场分区在控制目标和源强求解过程上具有极高的相似性,但是目前尚无学者研究串扰消除中OSD方法在声场分区中的效果。为了进一步提高声场分区的鲁棒性,本文参考OSD方法,基于EAO方法提出了一种传递函数矩阵条件数最小的声场分区扬声器选择方法。该方法通过每次迭代剔除一个扬声器,使扬声器对应的传递函数矩阵条件数尽可能小,从而提高系统的鲁棒性和性能。具体流程如表1所示。
表1 迭代条件数(Cond)方法
步骤操作内容
输入((M_A + M_B) imes L)的传递函数矩阵G,期望的扬声器数目N;
初始化(L' = L),(G' = G);
步骤1去除矩阵(G')的第l个列向量得到(G'_l),计算矩阵(G'_l)的条件数(kappa(G'_l));
步骤2重复步骤1使l遍历1到(L'),找到使得(kappa(G'_l))最小的l,即(l = argmin_{1 < l < L'} kappa(G'_l));
步骤3将第l个扬声器移除出候选集,更新矩阵(G'),令(L' = L' - 1);
步骤4重复步骤1−步骤3,直到(L' = N)。
2.3 改进的条件数方法
虽然2.2节提出的条件数方法可以使传递函数矩阵条件数尽可能小,但是在迭代过程中未考虑期望声场信息,无法保证声场的重放精度。为了解决这个问题,还可以进一步对该方法进行改进。改进的基本思想是引入一个阈值选择器:计算最小条件数时比较最小的两个条件数大小,如果二者差值大于阈值,则基于条件数最小的选择是合理的;相反,如果二者差值小于阈值,则基于条件数最小的选择具有随机性,应改用基于MSE最小的选择方法。这样可以在保持矩阵条件数较小的同时,尽可能优化算法的MSE性能。改进后的算法流程如表2所示。
表2 改进的条件数–均方误差(Cond-MSE)方法
步骤操作内容
输入((M_A + M_B) imes L)的传递函数矩阵G,期望的扬声器数目N;
初始化(L' = L),(G' = G);
步骤1去除矩阵(G')的第l个列向量得到(G'_l),计算矩阵(G'_l)的条件数(kappa(G'_l));
步骤2重复步骤1使l遍历1到(L'),找到使得(kappa(G'_l))最小的两个l,记为(l_1)和(l_2);
步骤3若(kappa(G'_{l_2}) - kappa(G'_{l_1}) geq Ref)则进入步骤4,否则跳转到步骤5;
步骤4依据条件数最小的扬声器选择:将使得条件数最小的第(l_1)个扬声器移除出候选集,更新矩阵(G'),令(L' = L' - 1);跳转到步骤8;
步骤5依据MSE最小的扬声器选择:去除矩阵(G')的第l个列向量得到(G'_l),将(G'_l)代入源强求解公式求解q,并计算均方误差(MSE(G'_l));
步骤6重复步骤5使l遍历1到(L'),找到使得(MSE(G'_l))最小的l;
步骤7将第l个扬声器移除出候选集,更新矩阵(G'),令(L' = L' - 1);
步骤8如果(L' > N),回到步骤1;否则结束循环。
3 仿真
为了验证所提两种方法的有效性,本文分别基于模拟自由场、模拟混响场以及实测的房间声场,仿真了不同扬声器选择方法在不同声学环境下的分区性能。在仿真中,扬声器位置的候选集为图1所示的环形阵列上的32个扬声器单元集合。明区和暗区为边长4 cm的方形区域,两个区域间距为1 m,区域内均匀布置25个控制点,控制点之间相距1 cm,具体如图1所示。声场分区的目标是在左侧的明区内重放90°平面波(平面波的单位向量(n_0=(0,1))),同时使暗区内声能量尽可能小。
3.1 模拟声学环境的仿真
本节利用自由场格林公式和镜像源法构建自由场和混响场[31],以评估不同选择方法在不同声学环境下的分区效果。
仿真中设置( ho=1.21 ~kg/m^3)(空气密度),(c=342 ~m/s)(声速)。为了模拟实际中可能存在的底噪信号,在频域对传递函数添加幅度满足高斯分布的白噪声,信号与噪声的幅度信噪比为60 dB,噪声的相位为−10°~10°的随机均匀分布。仿真频率范围100~4000 Hz,频率间隔为10 Hz。在每个频点上,用不同算法计算最优扬声器位置,目标扬声器数量设定为8个。确定扬声器位置后,采用PM算法计算扬声器源强,正则化系数取(10^{-5} imeseta),其中(eta)为矩阵(G^H G)的最大特征值[13]。
首先仿真在自由场下的算法性能。根据自由场格林公式,声源到位置r处的传递函数可以表示为(G(r)=[jk ho c /(4 pi r)] e^{-jkr}),其中r表示传递路径长度,k表示波数。
首先将条件数(Cond)方法(表1)与GSO、CMP方法比较,结果如图5所示。可以看到蓝色曲线对应的条件数方法在低于1000 Hz的低频范围内,对比度和均方误差性能优于常规方法,在中高频范围差别不大。然而在阵列功率方面,条件数方法在全频段内均显著低于现有迭代方法,阵列功率的最高减小量可达10 dB以上。因此,所提条件数方法可以降低待求逆矩阵的条件数,从而提高系统的鲁棒性。但是由于仅考虑鲁棒性,条件数方法的对比度和明区重放性能并未体现出优势。
由于第一种条件数方法没有将明区均方误差考虑在内,导致相比现有迭代方法在高于1000 Hz的中高频没有重放精度优势,因此研究改进型条件数(Cond-MSE)方法(具体如表2所示)的性能。观察表2,Cond-MSE方法可以通过调整条件数阈值的取值,使得算法更加偏向EAO-MSE方法或者条件数方法。当条件数阈值取值为0时,该算法退化为条件数算法;当条件数阈值取值为无穷大,则变为EAO-MSE算法[13]。使用改进的条件数-MSE算法,将其与常规的两种迭代算法进行比较。设条件数阈值为0.2,其他设置与之前一致,结果如图6所示。可以看到,改进后的算法在对比度和明区均方误差性能上有显著提升,代价是牺牲了一定的阵列功率,但是阵列功率仍然低于GSO和CMP方法。改进后的算法性能提升主要体现在中高频范围,而在低于1000 Hz的低频范围,改进后的条件数方法与原先条件数方法相比重放性能差别较小。
为研究所提算法在混响环境下的性能,使用镜像源模型模拟混响场[31],房间大小为3.0 m×3.0 m×3.0 m,壁面反射系数设为0.2,房间混响时间约为0.1 s,采样频率为8000 Hz,仿真0.25 s的房间冲激响应。对镜像源模型计算的时域房间冲激响应添加时域随机白噪信号,信噪比为60 dB。对添加噪声后的房间冲激响应使用傅里叶变换,计算各个扬声器到控制点之间频率分辨率为10 Hz的传递函数。
将改进后的条件数方法和常规的GSO、CMP进行比较,结果如图7所示。可以看到在添加混响后,Cond-MSE方法依旧能够在保持较低阵列功率的同时,获得了较好的对比度和明区重放精度。在对比度和均方误差性能上,Cond-MSE方法优于常规方法,但优势没有自由场下明显。同样在小于1000 Hz的低频范围内,改进条件数方法性能好于GSO和CMP方法,但在较高频,Cond-MSE方法的声对比度和均方误差优势逐渐减小。这种现象的原因可能是低频和自由场下传递函数矩阵条件数较大。现有迭代方法由于未考虑条件数,导致算法面临病态矩阵求逆问题,控制效果明显恶化。而条件数方法能够有效避免病态矩阵求逆,从而获得更稳定的系统性能。
3.2 改进模型阈值的影响
为了更清晰地展现条件数阈值对改进模型的影响,对改进模型条件数阈值大小进行调整,并仿真了阈值为0、0.2、无穷大时的分区性能。仿真结果如图8所示,(a1)(b1)(c1)是自由场结果,(a2)(b2)(c2)是使用镜像源模型模拟的混响场结果。可以看到,在自由场和混响场下,阈值越低,算法的阵列功率越低,代价是声场分区效果下降;阈值越高,算法的声场分区效果越好,代价是阵列功率的提高。因此,通过改变阈值的大小,算法可以在鲁棒性以及声场分区效果之间进行权衡。
除此之外,阈值大小还影响算法的计算复杂度。比较表1中的条件数方法和EAO-MSE方法[13]不难发现:条件数方法在每次迭代中只需要计算传递函数矩阵的条件数,而EAO-MSE方法则需将传递函数矩阵代入式(5)中求解源强,并根据源强和传递函数计算明区的重放误差,计算量明显增加。定量地比较三种阈值选择下的计算时间:使用CPU 12th Gen Intel(R) Core(TM) i5-12500H,主频2.50 GHz,RAM 16.0 GB的计算机,分别对阈值为0、0.2和无穷大的三种情况进行100次计算取平均值。三者平均计算时间分别为7.78 s、25.31 s和63.88 s。不难发现阈值越大,算法计算时间也越长。因此,阈值不仅对算法的鲁棒性和分区效果产生影响,还关系到算法的计算复杂度。综上所述,通过调整阈值,算法可以在鲁棒性、计算复杂度和声场分区性能之间取得平衡。
3.3 实测房间的仿真
考虑在一个真实房间内测量传递函数,房间的壁面覆盖有吸声材料。采用32个扬声器单元构成的矩形扬声器阵列进行声场分区重放,阵列设置与仿真相同,如图9所示。扬声器为有源监听扬声器箱(8010A, Genelec, 荷兰),传声器为测量级传声器(M1212, Antysound, 中国),使用声卡(Orion 32 + gen, Antilope audio, 美国)进行声信号的播放和采集,声卡采样率设置为48 kHz,声卡和计算机之间使用USB进行通信。使用Matlab提前产生白噪信号,并通过声卡逐个控制扬声器播放白噪信号,同时使用步进电机驱动一个间距为2 cm的3×3的传声器阵列对明区暗区进行扫描,扫描区域内的25个控制点。利用维纳滤波计算不同扬声器到不同控制点的房间冲激响应,测量时间为2 s,对应房间冲激响应的频率分辨率为0.5 Hz。通过傅里叶变换计算在100~4000 Hz频率范围内,频率间隔为10 Hz的传递函数,并将其代入对应公式中求解扬声器分布和源强。
同样计算在实测传递路径下,不同扬声器选择算法使用PM时的声场分区性能,结果如图10所示。将条件数改进方法与CMP、GSO算法进行比较,改进模型的条件数阈值为0.2。结果与3.1节基本一致,提出的条件数改进方法在低频段的对比度性能和重放精度性能优于GSO和CMP方法,在高频段的优势逐渐减小。同时,该方法在绝大多数频率下都表现出最低的阵列功率。总体来看,提出的条件数改进模型在兼顾阵列功率的同时,实现了较高的对比度以及最小的重放误差。
4 模拟主观实验
为进一步验证改进条件数方法的有效性,本文进行了模拟声场分区的主观评测。假设明区听众的目标节目源为音频A(歌曲《渡口》,演唱者蔡琴),暗区听众的节目源为音频B(取自电影《长安三万里》)。分区系统的目标为使受试者在聆听音频A时不受音频B干扰,同时尽可能保证音频A的音质。采用混响场传递函数,计算在不同扬声器选择方法下,明区重放音频A、暗区重放音频B时明区中心点的声信号,并使用耳机向受试者播放该音频。受试者需要完成以下两个任务:
1. 隔离度评价:受试者不关注音频A的音质,而是将注意力集中于干扰音频B,以判断不同算法中干扰音频B对目标音频A的影响程度,并对隔离度打分(0~100分)。
2. 音质评价:受试者不关注干扰音频B,只专注于音频A的音质,并进行打分(0~100分)。
共有13位受试者参加了模拟声场分区的主观评测(均为具有音频声学研究背景的学生),其中包括5名女性、8名男性。所有受试者在实验前均已被告知实验目的和流程,并签署书面知情同意书。使用监听耳机播放三种扬声器选择方法对应的明区声信号(GSO、Cond-MSE、CMP),并要求受试者对不同方法的隔离度和音质进行评分。评分结果的箱线图如图11所示。图中不同颜色的箱体表示不同算法的得分结果,箱体底部和顶部分别表示第25个和75个百分位数,箱内的圆圈表示样本中位数,红色+号表示离群值。
在隔离度方面,绝大多数受试者认为改进条件数方法的隔离度效果最佳,其隔离度得分中位数为90分。而GSO和CMP方法的隔离度得分则显著低于改进条件数方法,中位数分别为60分和75分。在音质评价中,三种方法的得分差异不明显,但改进条件数方法的音质得分中位数为80分,仍旧高于GSO和CMP的75分。综上所述,通过主观实验进一步验证了改进条件数方法在隔离度和明区重放音质方面的优越性。
5 结论
本文将串扰消除中的最优扬声器选择方法应用于声场分区技术中,提出了基于传递函数矩阵条件数最小化的声场分区扬声器选择方法,并结合明区均方误差最小对该方法进行了改进。改进后的模型同时包含条件数方法和EAO-MSE方法,具有更强的普适性。通过自由场、混响场以及实测房间传递函数的仿真,证明条件数方法有着更高的鲁棒性,而改进的条件数方法在兼顾鲁棒性的同时,具有更好的声场分区效果。最后,通过模拟的主观评测,验证了所提改进条件数方法在隔离度和声场重放效果方面的优势。本研究提出的扬声器选择方法具有较高的实用性,通过调整阈值参数,可以根据不同应用场景的需求,在鲁棒性、计算量和声场分区效果之间取得平衡。
参考文献
[1] Pulkki V. Virtual sound source positioning using vector base amplitude panning. J. Audio Eng. Soc., 1997; 45(6): 456−466
[2] Boone M M, Verheijen E N, Van Tol P F. Spatial sound-field reproduction by wave-field synthesis. J. Audio Eng. Soc., 1995; 43(12): 1003−1012
[3] Ge Z, Li L, Qu T. Partially matching projection decoding method evaluation under different playback conditions. IEEE/ACM Trans. Audio Speech Lang., 2021; 29: 1411−1423
[4] Coleman P, Jackson P J B, Olik M, et al. Personal audio with a planar bright zone. J. Acoust. Soc. Am., 2014; 136(4): 1725−1735
[5] Elliott S J, Cheer J, Choi J W, et al. Robustness and regularization of personal audio systems. IEEE Trans. Audio Speech Lang. Process., 2012; 20(7): 2123−2133
[6] 廖祥凝, 郑四发, 王宇, 等. 调控明区声场重建性能和暗区声能量的综合控制方法. 声学学报, 2018; 43(5): 835−842
[7] Choi J W, Kim Y H. Generation of an acoustically bright zone with an illuminated region using multiple sources. J. Acoust. Soc. Am., 2002; 111(4): 1695−1700
[8] Poletti M. An investigation of 2-d multizone surround sound systems. 125th Audio Engineering Society Convention, AES, San Francisco, CA, USA, 2008: 167–175
[9] Lee T, Shi L, Nielsen J K, et al. Fast generation of sound zones using variable span trade-off filters in the DFT-Domain. IEEE/ACM Trans. Audio Speech Lang. Process., 2021; 29: 363−378
[10] Zhao S, Burnett I. Adaptive personal sound zones systems with online plant modelling. The 24th International Congress on Acoustics, ICA, Gyeongju, Korea, 2022: 1−9
[11] Vindrola L, Melon M, Chamard J C, et al. Use of the filtered-x least-mean-squares algorithm to adapt personal sound zones in a car cabin. J. Acoust. Soc. Am., 2021; 150(3): 1779−1793
[12] Hu M, Shi L, Zou H, et al. Sound zone control with fixed acoustic contrast and simultaneous tracking of acoustic transfer function. J. Acoust. Soc. Am., 2023; 153(5): 2538−2538
[13] Zhao S, Burnett I S. Evolutionary array optimization for multizone sound field reproduction. J. Acoust. Soc. Am., 2022; 151(4): 2791−2801
[14] Radmanesh N, Burnett I S. Generation of isolated wideband sound fields using a combined two-stage Lasso-LS algorithm. IEEE Trans. Audio Speech Lang. Process., 2012; 21(2): 378−387
[15] Lilis G N, Angelosante D, Giannakis G B. Sound field reproduction using the lasso. IEEE Trans. Audio Speech Lang. Process., 2010; 18(8): 1902−1912
[16] Gauthier P A, Lecomte P, Berry A. Source sparsity control of sound field reproduction using the elastic-net and the lasso minimizers. J. Acoust. Soc. Am., 2017; 141(4): 2315−2326
[17] Asano F, Suzuki Y, Swanson D C. Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization. IEEE Trans. Speech Audio Process., 1999; 7(2): 213−220
[18] Khalilian H, Bajic I V, Vaughan R G. Loudspeaker placement for sound field reproduction by constrained matching pursuit. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, IEEE, New Paltz, NY, USA, 2013: 1−4
[19] Takeuchi T, Nelson P A. Optimal source distribution for binaural synthesis over loudspeakers. J. Acoust. Soc. Am., 2002; 112(6): 2786−2797
[20] Nelson P, Takeuchi T, Couturier P, et al. Sound field control for multiple listener virtual imaging. J. Sound Vib., 2022; 539: 117259
[21] 刘阳, 谢菠荪. 高阶Ambisonics声重放系统的稳定性分析. 声学技术, 2013; 32(S1): 247−248
[22] Coleman P, Jackson P J B, Olik M, et al. Acoustic contrast, planarity and robustness of sound zone methods using a circular loudspeaker array. J. Acoust. Soc. Am., 2014; 135(4): 1929−1940
[23] Zhao S, Burnett I S. Time-domain acoustic contrast control with a spatial uniformity constraint for personal audio systems. IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, Singapore, 2022: 1061−1065
[24] Choueiri E Y. Optimal crosstalk cancellation for binaural audio with two loudspeakers. Princeton University, 2008
[25] Hamdan E C. Theoretical advances in multichannel crosstalk cancellation systems. Doctoral dissertation, University of Southampton, 2020
[26] Hollebon J, Fazi F M, Simón Gálvez M F. A multiple listener crosstalk cancellation system using loudspeaker dependent regularization. J. Audio Eng. Soc., 2021; 69(3): 191−203
[27] Masiero B, Vorländer M. A framework for the calculation of dynamic crosstalk cancellation filters. IEEE/ACM Trans. Audio Speech Lang. Process., 2014; 22(9): 1345−1354
[28] Zheng J, Zhu T, Lu J, et al. A linear robust binaural sound reproduction system with optimal source distribution strategy. J. Audio Eng. Soc., 2015; 63(9): 725−735
[29] Kirkeby O, Nelson P A, Hamada H, et al. Fast deconvolution of multichannel systems using regularization. IEEE Trans. Speech Audio Process., 1998; 6(2): 189−194
[30] Kim Y, Deille O, Nelson P. Crosstalk cancellation in virtual acoustic imaging systems for multiple listeners. J. Sound Vib., 2006; 297(1-2): 251−266
[31] Habets E A. Room impulse response generator. Technische Universiteit Eindhoven, Technical report, 2006

>