《Multi-objective Learning and Mask-based Post-processing for Deep Neural Network based Speech Enhancement》阅读笔记

这是2017年Xu Yong关于使用多任务学习和使用mask做后处理做语音增强的一篇论文[1]。 同样有github源码[2]及展示demo[3,4]。

论文原文:Multi-objective Learning and Mask-based Post-processing for Deep Neural
Network based Speech Enhancement

1. Abstract

论文主要的学习目标是clean log-power spectra (LPS) features,因为LPS可以直接用于构造增强后的信号。作为多任务学习,使用了附加的架构,去学习比如MFCC特征,同时去学习类别信息,比如ideal binary mask (IBM)。这些特征其实也是对DNN的一种限制,潜在的能提高LPS这个首要目标的效果。

2. Introduction

3. Multi-objective Learning for DNN-based Speech Enhancement

多任务学习框架如下图图1所示:

输入是带噪语音信号,输出是干净音频信号。只是输入输出有时有带噪的特征,输出是干净的特征。输出有时有类别信息。

公式2是单独的dnn+LPS训练的误差函数,公式3是多输出的。

3.1 Joint Prediction of LPS with MFCC

这个就是LPS和MFCC两个的多输出了。

3.2 Joint Prediction of LPS with IBM

同上,LPS+IBM

3.3 IBM-based Post-processing

IBM用于LPS的后处理。如公式3,如果IBM大于一定阈值,说明SNR很高,就不必做语音增强了,所以直接用原始的语音信息。如果中间就是原始信息和增强后的信息的均值。如果低于一定阈值,就是使用处理后的信息。

4. Experimental Results and Analysis

5. Conclusion

本文提出了多目标学习以改善语音增强的DNN训练。 显示目标函数中添加来自MFCC或IBM等功能的约束可获得更准确的干净的LPS估计。 MFCC可以使对数频谱失真在低频下更加一致; IBM可以明确表示T-F单元的语音呈现信息,因此可以提供更高的SSNR。 此外,可以采用估计的IBM来进行后期处理,以减轻基于回归的DNN中的高估或低估问题。 基于IBM的后处理对于减少语音失真至关重要,特别是在高信噪比T-F单元。

参考资料:

  1. https://arxiv.org/abs/1703.07172
  2. https://github.com/yongxuUSTC/sednn
  3. http://staff.ustc.edu.cn/~jundu/The%20team/yongxu/demo/SE_DNN_taslp.html
  4. http://staff.ustc.edu.cn/~jundu/The%20team/yongxu/demo/IS15.html
  5. http://yucc.me/p/719f3cc0/
谢谢你!