置換性不變訓練(PIT)單通道語音分離(SS)入門

2021-09-26 09:06:39 字數 820 閱讀 4119

核心工作:提出一種通過最小化分離誤差解決標籤排列問題的排列不變訓練技術。

基於類的方法:

1. 通過**所屬目標類的源來進行網路優化,通常用於每個時頻塊;

2. 只能用於語音與背景雜訊或**的分離,因為語音具有與雜訊/**非常不同的特徵;很難與其他技術結合。

針對標籤模糊問題解決核心:(參考fig.1)

1. pit

2. 基於分段的決策

實驗結果(t1):

1. 訓練階段,mse驗證不會因為標籤排列問題降低;相反使用pit還可以使訓練快速收斂到兩、三聲源的mse

2. 測試階段,預設分配沒有聲源追蹤的pit能夠得到相近甚至更好的效果,與dpcl、dnn、cnn等比較,且結構更簡單

3. 減少輸出視窗大小時,可以提高視窗內的分離效能,並且進行選擇性分配時得到更好的sdr

4. 減少輸出視窗時,也會出現預設分配情況下效果更差的情況,因此說明選擇性分配或者聲源追蹤很重要

5. pit在開閉集中對未知的聲源都有很好的效果

6. cnn因強大的模型效果始終優於dnn,但在輸出視窗較小時效果變差

實驗結果(t2):

pit學習的分離能力不僅可以在說話者之間進行,而且可以跨語言進行

關於訓練時Loss值不變的情況分析

今天在搭建簡單模型訓練花資料的時候發現loss,始終為乙個數。loss 實際輸出值和標籤值之間的誤差距離。在分類任務中,如何評判輸出和期望之間的接近?交叉熵 刻畫了兩個概率分布之間的距離。是分類問題中應用比較廣的一種損失函式。反向更新權重 有了損失函式,知道了實際輸出和真實值之間的距離,用梯度求導更...

解決Caffe訓練過程中loss不變問題

這段在使用caffe的時候遇到了兩個問題都是在訓練的過程中loss基本保持常數值,特此記錄一下。loss等於87.33這個問題是在對inception v3網路不管是fine tuning還是train的時候遇到的,無論網路迭代多少次,網路的loss一直保持恆定。查閱相關資料以後發現是由於loss的...

訓練網路 train loss從一開始就不變

在訓練ntsnet的時候,使用了vgg 16bn的baseline,將其設定為unpretrained的時候,發現vgg檔案使用了預設的kaiming初始化。但遇到這樣乙個問題 把此時的vgg 16bn的引數全部列印處理,它有很多層的w權重為接近0的特別小的數,導致資料變化的程度不足以影響得到的結果...