对cRM没有通过sigmoid将数值压缩到0-1？ #28

zehaoj · 2021-06-10T09:51:47Z

您好，首先感谢您对论文的复现。我在阅读文章中发现作者提到：

Real and imaginary parts of the complex mask will typically lie between -1 and 1, however, we use sigmoidal compression to bound these complex mask values between 0 and 1.

而我看您的代码中并没有这部分，有tanh compression但没有sigmoid讲cRM值压缩到0-1范围。是您发现这样效果不好嘛？还是另有原因呢？多谢

JusperLee · 2021-06-10T11:37:35Z

我对这进行测试发现，tanh和sigmoid差不多，而且tanh更容易收敛

zehaoj · 2021-06-11T05:07:09Z

多谢解答，但是tanh操作后会导致复数部分（及cRM的第二层）数据更分散导致训练效果不好？我看了训练出来的cRM，实数部分训练很好，而复数部分的效果就差了很多。请问您有什么方法解决此类问题嘛？我尝试了改loss给复数层加更多权重但还是不太行

JusperLee · 2021-06-13T14:48:09Z

多谢解答，但是tanh操作后会导致复数部分（及cRM的第二层）数据更分散导致训练效果不好？我看了训练出来的cRM，实数部分训练很好，而复数部分的效果就差了很多。请问您有什么方法解决此类问题嘛？我尝试了改loss给复数层加更多权重但还是不太行

相位谱本身就不是很好去估计，你可以看看纯语音分离任务的复数网络，或者是语音增强的复数网络是怎么设计的。我有一个思路是可以将loss定义为时域的sisnr，然后stft和istft是可导的，因此可以通过幅度谱和相位谱直接估计时域语音。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

对cRM没有通过sigmoid将数值压缩到0-1？ #28

对cRM没有通过sigmoid将数值压缩到0-1？ #28

zehaoj commented Jun 10, 2021

JusperLee commented Jun 10, 2021

zehaoj commented Jun 11, 2021

JusperLee commented Jun 13, 2021

对cRM没有通过sigmoid将数值压缩到0-1？ #28

对cRM没有通过sigmoid将数值压缩到0-1？ #28

Comments

zehaoj commented Jun 10, 2021

JusperLee commented Jun 10, 2021

zehaoj commented Jun 11, 2021

JusperLee commented Jun 13, 2021