论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement

科技资讯 投稿 7200 0 评论

论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement

凌逆战 (转载请注明出处 

PercepNet+: 用于实时语音增强的相位和信噪比感知 PercepNet

摘要

PercepNet是RNNoise的最新扩展,是一种高效、高质量和实时的全频带语音增强技术,在各种公共深度噪声抑制任务中显示出了良好的性能。本文提出了一种名为PercepNet+的新方法,通过四个显著改进来进一步扩展PercepNet。首先,我们引入一种相位感知结构,通过分别添加复数特征和复数子带增益作为深度网络的输入和输出,将相位信息利用到PercepNet中。然后,专门设计了信噪比(SNR估计器和SNR切换后处理,以缓解原始PercepNet在高信噪比条件下出现的过衰减(OA。此外,用TF-GRU代替GRU层来建模时间和频率依赖性。最后,我们提出以多目标学习的方式集成复数子带增益损失、信噪比、基音滤波强度和OA损失,以进一步提高语音增强性能。实验结果表明,提出的PercepNet+无论在PESQ还是STOI上都明显优于原PercepNet,且模型规模没有增加太多。

1  引言

语音增强(SE旨在提高噪声条件下的语音感知质量和可理解性。最近,基于深度学习的SE方法[1,2]表现出优于大多数传统方法的性能,如对数谱幅度估计[3]、谱减法[4]等。在许多场景中,如电信和在线会议,要求SE系统同时满足良好的去噪性能和实时约束。对于实时SE,目前主流的方法可以分为两类。

    一种是基于U-Net结构的端到端系统[5,6],如DCCRN[7]、DCCRN+[8]、DPCRN[9]等。
  1. 一种是感知驱动的混合信号处理/深度学习方法,如RNNoise[10]及其扩展,如PercepNet[11]、Personalized PercepNet[12]等。

PerceptNet[11]旨在以低复杂度增强全频带(48 kHz采样噪声语音,并已被证明即使在少于5%的CPU核心(1.8 GHz Intel i7-8565U CPU上运行也能实时提供高质量的语音增强。与最先进的端到端SE方法的傅里叶变换bin不同,PerceptNet的特点是语音短时傅里叶变换(STFT频谱从0到20 kHz只有34个频段,根据人类听力等效矩形带宽(ERB尺度[13],这大大降低了系统的计算复杂度。结合基音滤波器和包络后滤波的设计,PercepNet可以产生高质量的增强语音。

当输入带噪语音的信噪比相对较高时,PercepNet的过衰减(OA要严重得多,它显著地损害了增强语音的感知质量(甚至比原始噪声语音更严重。这种更严重的质量损害可能是由于对频带增益的不准确估计,以及通过包络后滤波进一步增强语音以去除残留噪声,因为从人类的感知来看,高信噪比噪声语音实际上是一个纯净语音。此外,在PercepNet处理过程中,只对语音谱包络进行增强,直接利用噪声语音的相位重构目标纯净语音。所有这些提到的问题可能会限制PercepNet的性能。

    引入相位感知结构,通过添加复数子带特征作为附加的深度网络输入,用子带实部和虚部增益代替原有的能量增益,利用相位信息实现纯净语音的构建;
  1. 为了解决增强高信噪比带噪语音的过衰减问题,减轻感知质量的损害,设计了信噪比估计器和信噪比开关后处理来控制残余噪声的去除程度;
  2. 我们用TF-GRU结构替换PercepNet中的前两个GRU[14]层,以很好地学习时间尺度的时间和频率依赖性;
  3. 基于上述修正,我们最终提出通过多目标训练的方式学习复增益、信噪比、原基音滤波强度以及OA损耗,进一步提高SE性能。

与PercepNet相比,我们提出的PercepNet+在公共VCTK[17]测试集上实现了0.19 PESQ[15]和2.25% STOI[16]的绝对增益,在模拟测试集[18]上实现了0.15 PESQ和2.93% STOI增益。

2  PercepNet

$\hat{g}_b$与带噪语音的基音滤波频谱相乘以去除背景噪声,其中基音滤波器为梳状滤波器,旨在去除基音谐波[19]之间的噪声。每个ERB频段的基音滤波器的效果由基音滤波器强度$\hat{r}_b$控制。$\hat{g}_b$和$\hat{r}_b$都是由一个深度神经网络(DNN自动学习的,该神经网络主要由两个卷积层和五个GRU层组成。DNN模型利用当前帧和三个额外的未来帧的特征来计算其输出,这使PercepNet实现了30毫秒的 lookahead。通过包络后滤波,进一步增强去噪后的语音。更多细节可在[11]中找到。

3  提出的PercepNet+

图1:拟议的PercepNet+算法框架。所有暗红色的块和线是我们对原来的PercepNet[11]的改进

(a PercepNet+概述

(b PercepNet+的DNN模型架构

3.1 相位感知结构

为了利用PercepNet+中的相位信息,我们将噪声语音$y(n$的STFT的实部和虚部直接连接到每个ERB频段,形成一个共68维的复特征$f_c$。然后,如图1(b所示,将线性变换后的(FC层$f_o$和$f_c$连接起来,训练改进后的DNN模型。在增加复特征的同时,我们还将原有的能量增益替换为复数增益,以更加关注相位,如图1(b所示。具体而言,我们提出网络学习实部增益和虚部增益$g_b^r$和$g_b^i$,以重建目标纯净语音幅值和相位谱,并定义为:

其中,$X_b(t$和$Y_b(t$为帧$t$中ERB频段$b$的纯净信号$x(n$及其噪声信号$y(n$的复值频谱,$||·||_2$表示L2-norm运算。

3.2 SNR估计和SNR切换后处理

信噪比估计器:该估计器的灵感来自于文献[8,24]。如图1(b所示,它由一个GRU和一个具有sigmoid激活函数的全连接(FC层组成,在多目标学习框架下预测帧级信噪比,以保持良好的语音质量。第$t$帧$y(n$归一化ground-truth信噪比$S(t$[0,1]定义为

&S(t=\frac{Q(t-\mu}{\sigma} \text { with } \\
&Q(t=20 \log _{10}\left(X_m(t / N_m(t\right
\end{aligned}$$

SNR切换的MMSE-LSA后处理:尽管后处理模块被证明在去除残留噪声方面非常有效[25,26],但我们在实验中发现,在几乎没有噪声的测试样本中,后处理模块可能会损害感知质量。因此,在我们的PercepNet+中,如图1(a所示,使用每一帧的预测信噪比$\hat{S}$来控制是否需要执行后处理模块。我们称这种策略为SNR切换后处理。如果$\hat{S}$大于预先设定的阈值,经$\hat{g}_b^r$和$\hat{g}_b^i$增强的频谱$\hat{X}_c$将直接成为最终输出。否则,$\hat{X}_c$将通过后处理进一步增强,去除残留噪声。

传统的基于MMSE-LSA[3]的后处理在最近的端到端SE系统中取得了显著的效果[8,27]。因此,在PercepNet+中,我们还将信噪比切换后处理模块中的原始包络后滤波替换为MMSE-LSA,如下所示

$$公式4:\hat{X}(t=G(t*\hat{X}_c(t$$

3.3  多目标损失函数

PercepNet中DNN模型的原始损失函数$L_P$有两个部分:能量增益损失$L_g$和基音滤波强度损失$Lr$定义为:

L_g &=\sum_b\left(g_b^\lambda-\hat{g}_b^\lambda\right^2+C_1 \sum_b\left(g_b^\lambda-\hat{g}_b^\lambda\right^4 \\
L_r &=\sum_b\left(\left(1-r_b\right^\lambda+\left(1-\hat{r}_b\right^\lambda\right^2 \\
L_P &=\alpha L_g+\beta L_r
\end{aligned}$$

除了信噪比开关后处理,[28]的结果表明[29]中提出的不对称损耗$L_{OA}$可以有效地缓解过衰减问题。因此,我们将其适应于$L_g$,以解决在高信噪比条件下的质量下降问题

$$公式7:L_{O A}(g_b, \hat{g}_b=|h(g_b-\hat{g}_b|^2$$

在PercepNet+中,我们没有使用$L_P$,而是使用Eq.(8分别度量估计的$\hat{g}_b^r$、$\hat{g}_b^i$与它们的ground truth之间的差值。综合考虑原$L_r$和信噪比$L_{SNR}(S, \hat{S}$的均方误差(MSE损失,最后使用以下整体多目标损失函数$L_{P+}$联合训练PercepNet+的DNN模型

&L_{P+}=C_2 L_g^{\prime}\left(g_b^r, \hat{g}_b^r\right+C_2 L_g^{\prime}\left(g_b^i, \hat{g}_b^i\right \\
&\quad+C_3 L_{S N R}(S, \hat{S}+C_4 L_r\left(r_b, \hat{r}_b\right
\end{aligned}$$

3.4  TF-GRU Block

PercepNet在时间维度上用GRU层建模时间依赖性。受[30]的启发,我们使用另一个GRU层来建模频谱模式的频率演化。具体而言,如图1(b所示,我们将PercepNet中的两个GRU层替换为两个提议的TF-GRU块,每个TF-GRU由一个Time-GRU (TGRU层和一个Frequenecy-GRU (FGRU层组成。FGRU学习频率方面的依赖关系,TGRU学习时间方面的依赖关系。然后将TGRU和FGRU的输出连接起来,形成最终的TF-GRU输出。调整一个TF-GRU的参数数量,使其与原始PercepNet中的一个GRU层保持一致。

4  实验步骤

4.1  数据集

使用两个评估集来检验所提出的技术,一个是公共噪声VCTK测试集[17],来自8个说话人的824个样本。另一个是我们自己模拟的一个名为DNOISE[18]的测试集,信噪比范围为-5 ~ 20dB。DNOISE由108个样本组成,语音数据来自WSJ0[34]数据集,噪声数据来自RNNoise演示网站[35],包括办公室、厨房、汽车、街道和嘈杂声。

4.2  配置

5  结果和讨论

5.1  基线

RNNoise(开源的和它的扩展percepnet(非开源的都被作为我们的基线。表1给出了VCTK测试集上的比较结果。模型1和3是在PercepNet[11]中发表的结果,其中模型在非公开的120小时语音和80小时噪声数据上进行训练,而模型2和4是我们实现的RNNoise和PercepNet模型,仅在6小时语音和4小时噪声数据上进行训练。很明显,PercepNet的表现明显优于它最初的RNNoise,我们的模型的PESQ分数只比[11]中的那些略差,即使我们的模型和模型1,3之间有一个非常大的训练数据大小差距(190小时。因此,我们认为我们对PercepNet的实现是正确的,可以作为我们PercepNet+的基线。

表1:VCTK测试集上的PESQ和STOI(%模型2, 4的训练数据比模型1, 3少190小时
图2:不同信噪比范围下噪声和PecepNet增强VCTK测试样本的PESQ
图3:在VCTK测试集不同信噪比条件下,PercepNet增强后PESQ降低的细节样本分布

5.2  PercepNet+结果

表2:各种模型在VCTK和D-NOISE测试集上的PESQ和STOI(%

表3:在VCTK子测试集上,PercepNet+具有(或不具有过衰减(OA损失和SNR开关的PESQ得分

5.3  SNR-sensitive 技术的性能

我们进一步研究了所提出的OA loss和SNR切换PP在解决高信噪比条件下增强后语音感知质量下降问题上的有效性。两个VCTK子测试集($>$14dB和$\le $14dB的结果如表3所示。对比前两行的pesq,我们发现在高信噪比的情况下,PercepNet确实会损害感知质量,如图2所示。然而,在PercepNet+中,我们看到这个问题被提出的OA 损失或信噪比切换PP有效地缓解了。当两种技术都被应用时,性能进一步略有提高,而不影响低信噪比条件下的语音感知质量。

6  结论

7  参考文献

[1] Y. Xu, J. Du, L. Dai, and C. Lee, A regression approach to speech enhancement based on deep neural networks, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 23, no. 1, 2015, pp. 7 19.

[3] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 33, no. 2, 1985, pp. 443 445.

[5] O. Ronneberger, P. Fischer, and T. Brox, U-net: Convolutional networks for biomedical image segmentation, in International Conference on Medical image computing and computer-assisted intervention, 2015, pp. 234 241.

[7] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, DCCRN: deep complex convolution recurrent network for phase-aware speech enhancement, in Proceedings of INTERSPEECH, 2020, pp. 2472 2476.

[9] X. Le, H. Chen, K. Chen, and J. Lu, DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement, in Proceedings of INTERSPEECH, 2021, pp. 2811 2815.

[11] J.-M. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, A Perceptually-Motivated Approach for LowComplexity, Real-Time Enhancement of Fullband Speech, in Proceedings of INTERSPEECH, 2020, pp. 2482 2486.

[13] B. Moore, An introduction to the psychology of hearing, Brill, 2021.

[15] I. Rec, P.862.2: Wideband extension to recommendation p.862 for the assessment of wideband telephone networks and speech codecs, International Telecommunication Union,CH Geneva, 2005.

[17] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, Investigating rnn-based speech enhancement methods for noiserobust text-to-speech, in Proceedings of ISCA Speech Synthesis Workshop (SSW, 2016, pp. 146 152.

[19] J. H. Chen, Gersho, and A., Adaptive postfiltering for quality enhancement of coded speech, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 3, no. 1, 1995, pp. 59 71.

[21] K. Vos, K. V. Sorensen, S. S. Jensen, and J.-M. Valin., Voice coding with opus, in Proceedings of AES Convention, 2013.

[23] C. Zheng, X. Peng, Y. Zhang, S. Srinivasan, and Y. Lu, Interactive speech and noise modeling for speech enhancement, in AAAI, 2021, pp. 14 549 14 557。

[25] A. Li, W. Liu, X. Luo, C. Zheng, and X. Li, ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network, in Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP, 2021, pp. 6628 6632.

[27] A. Li, W. Liu, X. Luo, G. Yu, C. Zheng, and X. Li, A Simultaneous Denoising and Dereverberation Framework with Target Decoupling, in Proceedings of INTERSPEECH, 2021, pp. 2801 2805.

[29] Q. Wang, I. L. Moreno, M. Saglam, K. Wilson, A. Chiao, R. Liu, Y. He, W. Li, J. Pelecanos, M. Nika, and A. Gruenstein, VoiceFilter-Lite: Streaming Targeted Voice Separation for OnDevice Speech Recognition, in Proceedings of INTERSPEECH, 2020, pp. 2677 2681.

[32] https://www.ntt-at.com/product/artificial/.

[34] D. B. Paul and J. M. Baker, The design for the wall street journalbased csr corpus, in Proceedings of Second International Conference on Spoken Language Processing (ICSLP, 1992, pp. 357 362. [35] https://jmvalin.ca/demo/rnnoise/.

 

编程笔记 » 论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement

赞同 (31) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽