一種基于深度信念網絡的單通道音樂的歌聲分離方法
【專利摘要】本發明涉及一種基于深度信念網絡的單通道音樂的歌聲分離方法:先利用深度信念網絡(DBN)抽取出有利于伴奏聲和歌聲的分離的高層抽象特征,緊接著利用Back-Propagation 神經網絡分離出伴奏聲和歌聲的特征,最后利用重疊相加法得到時域的伴奏聲和歌聲信號。該方法將待分離的混合音樂分成很短的片段,從而彌補DBN在處理不同時間尺度音樂信號上的缺陷,同時利用了DBN的快速抽取高層抽象特征能力抽取出有利于分離出人聲和伴奏聲的高層抽象特征。最后考慮到由于單通道音樂信號是屬于高維數據,在處理高維輸入和高維輸出問題上神經網絡有著其特有的處理能力,所以選擇使用BP神經網絡作為最后的人聲和伴奏聲的分離器。該方法簡單靈活,具有較強的實用性。
【專利說明】一種基于深度信念網絡的單通道音樂的歌聲分離方法
【技術領域】
[0001] 本發明涉及單通道音樂的伴奏聲和人聲分離領域,特別是一種基于深度信念網絡 的單通道音樂的歌聲分離方法。
【背景技術】
[0002] 隨著計算機信號處理技術和互聯網技術的不斷發展,單通道音樂的歌聲分離越來 越受人們重視。單通道音樂人聲分離技術在很多系統都會用到,如KTV系統中音樂伴奏的 獲得;音樂檢索系統中根據音樂內容來檢索的系統特別是根據歌唱者的聲音特質檢索音 樂、音樂推薦系統中利用歌唱者聲音特質來推薦音樂等等。不管是KTV系統中的伴奏獲得、 還是基于歌唱者聲音的音樂檢索系統、抑或是基于歌唱者聲音的音樂推薦系統;為了保證 這些系統有較好的性能,必須得到較為純凈的伴奏聲或者歌聲。而現實中人們能夠獲得的 音樂信號大部分是單通道音樂信號,所以單通道音樂人聲分離技術在這些系統中能夠得到 廣泛的應用。然而,現在針對單通道音樂的歌聲分離技術還遠遠不能達到人耳系統的性能, 因此對于該領域的研究還有很大的步伐要走。
[0003] 由于單通道音樂信號是極度欠定的,所以在對其進行歌聲分離時可用的信息非常 少,這使得針對單通道音樂的歌聲分離具有很大的挑戰性。盡管,針對單通道語音的分離已 經有很大的成功,但由于歌聲的特殊性,很多單通道語音分離技術并不能很好的應用到單 通道音樂歌聲分離中。直到2007年Y. Li才首次提出利用人聲的音高周期進行單通道音樂 的歌聲分離。此后,基于譜分解的方法也相繼被提出,如基于非負矩陣分解、稀疏矩陣分解 等等。這些方法都取得了一定的成功,但都不能取得如愿的效果。如基于音高周期的方法, 其本身音高周期檢測就是一個學術難題;而基于譜分解的方法又有太多的假設前提。
[0004] 2006年由Hinton等人提出的針對深度信念網絡(DBN)的快速學習方法,使得深度 神經網絡重新引起科研工作者的關注。由于深度神經網絡以其特有的強大特征抽取能力, 使得其在并在圖像處理和語音處理這兩個領域率先得到應用,并且取得了很好的效果。但 由于DBN并不是專門用來解決時間序列問題的,所以本專利同時提出了針對該問題的DBN 輸入數據構造方法。本專利基于對單通道音樂信號和深度學習的認識,提出了一種新的單 通道音樂歌聲分離方法,特別是一種基于深度信念網絡的單通道音樂的歌聲分離方法。
【發明內容】
[0005] 有鑒于此,本發明的目的是在于提供一種基于深度信念網絡的單通道音樂的歌聲 分離方法,以實現針對單通道音樂特性的歌聲分離問題。
[0006] 本發明采用以下方案實現:一種基于深度信念網絡的單通道音樂的歌聲分離方 法,利用深度信念網絡(DBN)抽取出有利于伴奏聲和歌聲的分離的高層抽象特征,緊接著 利用Back-Propagation神經網絡(BP神經網絡)分離出伴奏聲和歌聲特征,最后利用重疊 相加法得到伴奏聲和歌聲。具體包括以下步驟: Sl :利用傅里葉變換從待分離的單通道音樂片段獲得特征; 52 :將從步驟SI得到的特征作為已經訓練得到的DBN特征抽取模型的輸入,利用所述 DBN特征抽取模型抽取出有利于分離伴奏聲和歌聲的高層抽象特征;其中所述DBN為深度 信念網絡; 53 :利用已訓練得到的BP神經網絡分離模型分離出伴奏聲和歌聲特征;由BP神 經網絡分離模型輸出的伴奏聲和歌聲的特征得到伴奏聲和歌聲;其中BP神經網絡為 Back-Propagation 神經網絡。
[0007] 進一步地,所述步驟Sl中的特征為通過傅里葉變換得到的長度為 I的單通道音樂片段歸一化后的幅度譜;其中設輸入為則:c是大小為/氣而的行向量,其 中Fs是所述音樂片段的采樣頻率。
[0008] 進一步地,所述的I可取16ms至512ms。
[0009] 進一步地,所述DBN由若干個RBM堆疊而成,其中每個RBM的輸入為上一個RBM的 輸出;所述的RBM為受限玻爾茲曼機。特別的,具體節點數設置為:所述的RBM由一層可見 層V和一層隱藏層A構成;其中所述的可見層為每個RBM的輸入層,第一個RBM的可見層節 點數為,其余的RBM可見層節點數均為;所述的隱藏層為每個RBM的輸出,每 個RBM的輸出作為下一個RBM的輸入,所有RBM的隱藏層節點數均為。
[0010] 具體的,所述步驟S2中已經訓練得到的DBN特征抽取模型的訓練過程包括以下步 驟: 步驟S21 :構建訓練樣本(U),其中JT表示所有的訓練樣本的輸入特征,Γ表示純凈 的伴奏聲和純凈的歌聲歸一化后的振幅譜; 步驟S22 :無監督貪心逐層訓練DBN ;設所述的DBN由《個受限玻爾茲曼機RBM堆疊而 成,則整個DBN共有《 + 1層;其中對第#1)層訓練過程為:由第1-1層和第?層構成的 RBM通過Contractive Divergence算法訓練;其中第1層為輸入層; 步驟S23 :對DBN進行有監督微調;將步驟S22中通過無監督貪心訓練的DBN翻折,得 至握數為2? + 1的自動編碼機;利用BP算法對該編碼機進行訓練,用以微調DBN。
[0011] 具體地,所述的步驟S21具體包括以下步驟: 步驟S211 :構建;給定單通道音樂混合信號i = 1,2…其中《為所述給定單 通道音樂混合信號的個數,其中每個信號的長度可以不一樣;使用長度為,偏移量為1/2的 窗函數,對每個信號進行分割,得到
【權利要求】
1. 一種基于深度信念網絡的單通道音樂的歌聲分離方法,其特征在于包括以下步驟: 51 :利用傅里葉變換從待分離的單通道音樂片段獲得特征; 52 :將從步驟Sl得到的特征作為已經訓練得到的DBN特征抽取模型的輸入,利用所述 DBN特征抽取模型抽取出有利于分離伴奏聲和歌聲的高層抽象特征;其中所述DBN為深度 信念網絡; 53 :將步驟S2中得到的有利于分離伴奏聲和歌聲的高層抽象特征作為已訓練得到的 BP神經網絡分離模型的輸入,利用所述已訓練得到的BP神經網絡分離模型分離出伴奏聲 和歌聲特征;由BP神經網絡分離模型輸出的伴奏聲和歌聲的特征得到伴奏聲和歌聲;其中 BP神經網絡為Back-Propagation神經網絡。
2. 根據權利要求1所述的一種基于深度信念網絡的單通道音樂的歌聲分 離方法,其特征在于:所述步驟S1中的特征為通過傅里葉變換得到的長度為 I的單通道音樂片段歸一化后的幅度譜,其中1'取值范圍為32ms-512ms;其中設輸入為X, 則X是大小為的行向量,其中Fs是所述音樂片段的采樣頻率。
3. 根據權利要求1所述的一種基于深度信念網絡的單通道音樂的歌聲分離方法,所述 DBN由若干個RBM堆疊而成,其中每個RBM的輸入為上一個RBM的輸出,所述的RBM為受限 玻爾茲曼機;其特征在于:具體節點數設置為:所述的RBM由一層可見層V和一層隱藏層A 構成;其中所述的可見層為每個RBM的輸入層,第一個RBM的可見層節點數為/Ms,其余的 RBM可見層節點數均為Pi%" ;所述的隱藏層為每個RBM的輸出,每個RBM的輸出作為下 一個RBM的輸入,所有RBM的隱藏層節點數均為。
4. 根據權利要求1所述的一種基于深度信念網絡的單通道音樂的歌聲分離方法,其特 在于:所述步驟S2中已經訓練得到的DBN特征抽取模型的訓練過程包括以下步驟: 步驟S21:構建訓練樣本(U),其中X表示所有的訓練樣本的輸入特征,;^表示純凈 的伴奏聲和純凈的歌聲歸一化后的振幅譜; 步驟S22 :無監督貪心逐層訓練DBN;設所述的DBN由《個受限玻爾茲曼機RBM堆疊而 成,則整個DBN共有《 + 1層;其中對第?(ι#1)層訓練過程為:由第卜1層和第I層構成的 RBM通過ContractiveDivergence算法訓練;其中第1層為輸入層; 步驟S23 :對DBN進行有監督微調;將步驟S22中通過無監督貪心訓練的DBN翻折,得 至握數為2? + 1的自動編碼機;利用BP算法對該編碼機進行訓練,用以微調DBN。
5. 根據權利要求4所述的一種基于深度信念網絡的單通道音樂的歌聲分離方法,其特 征在于:所述的步驟S21具體包括以下步驟: 步驟S211 :構建;給定單通道音樂混合信號= 其中《為所述給定單 通道音樂混合信號的個數;使用長度為M扁移量為//2的窗函數,對每個信號進行分割,得 到^^+1個長度為/*&的小片段1,其中% 為所述給定單通道音樂混合信號 Si的長度,為所述給定單通道音樂混合信號Si的時長;對所述小片段1進行傅 2(Μ·+1) 里葉變換得到振幅譜,將振幅譜歸一化,構建出大小為的Z,其中『=Σ(-\- + 1) ! * ,c=i*Fs; 步驟S212 :構建y;給定伴奏信號_2^_巧和歌聲信號swgisgj.i= 1,2…《,其中;^ 為信號的個數,所述給定伴奏信號和歌聲信號smgmgj4的長度均與所述給定 單通道音樂混合信號-樣;使用長度為/,偏移量為i/2的窗函數將所述伴奏信號 _sc_Si和歌聲信號smgmg^st額分別分割成f+1個長度為|*Fs的小片段2 ;其中 Fi 為所述給定單通道音樂混合信號的長度,^為所述給定單通道音樂混合 信號^的時長;對所述小片段2進行傅里葉變換得到振幅譜,將振幅譜歸一化;將同 一個窗口分割出來的伴奏信號和歌聲信號歸一化后的振幅譜連接成大小為Ix(SW3t^s)的 &,其中前/*i?s大小的巧·為所述伴奏信號的歸一化振幅譜,后大小的&為所述歌聲 信號的歸一化振幅譜,進而得到大小為rx(2*c)的:T,其中^Σ(^^ + 1)J=浐泠。 i *
6.根據權利要求4所述的一種基于深度信念網絡的單通道音樂的歌聲分離方法,其特 征在于:所述步驟S3具體包括以下步驟: 步驟S31 :獲得訓練樣本(Z',Γ);將所述訓練樣本(2'Γ)中的z通過已經訓練好的DBN進行處理,得到大小為rx(2*c)的f,其中/" =Σ(-一-^ + 1) ,c= /*/? ;獲得訓練樣 I * 本(Zj),其中所述F與所述的訓練樣本(Ζ,Γ)中的F相同; 步驟S32 :有監督訓練BP神經網絡;將步驟S31中所述的允作為BP神經網絡的輸入 數據,將步驟S31中所述的Γ作為監督標簽數據; 步驟S23 :利用訓練好的BP神經網絡進行人聲分離;將步驟S2中得到的高層抽象特征 作為BP神經網絡的輸入,由BP神經網絡得到人聲和伴奏聲的特征,并將所述的人聲和伴奏 聲的特征作為BP神經網絡的輸出。
【文檔編號】G10L15/02GK104464727SQ201410755098
【公開日】2015年3月25日 申請日期:2014年12月11日 優先權日:2014年12月11日
【發明者】余春艷, 林明安, 滕保強, 張棟, 劉靈輝, 葉東毅 申請人:福州大學