一種聲紋識別方法和裝置制造方法
【專利摘要】本發明實施方式提出一種聲紋識別方法和裝置。方法包括:基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型;利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識;接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。通過深層神經網絡自動學習語音信號當中包含能夠抵御噪聲干擾的高層次說話人信息,可以有效抵御噪聲干擾。
【專利說明】一種聲紋識別方法和裝置
【技術領域】
[0001]本發明實施方式涉及身份認證【技術領域】,更具體地,涉及一種聲紋識別方法和裝置。
【背景技術】
[0002]聲紋識別(Voiceprint Recognition, VPR)是生物識別技術的一種,也稱為說話人識別(Speaker Recognition)。說話人識別包括兩類,即說話人辨認(SpeakerIdentification)和說話人確認(Speaker Verification)。說話人辨認用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而說話人確認用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。
[0003]聲紋識別包括文本相關(Text-Dependent)和文本無關(Text-1ndependent)兩種。與文本有關的聲紋識別系統要求用戶按照規定的內容發音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規定的內容發音,因此可以達到較好的識別效果,但系統需要用戶配合,如果用戶的發音與規定的內容不符合,則無法正確識別該用戶。與文本無關的識別系統則不規定說話人的發音內容,模型建立相對困難,但用戶使用方便,可應用范圍較寬。
[0004]在現有的說話人識別技術中,主流的識別系統均采用譜基的特征,如MFCC,PLP以及LPCC等。它們均來自比較直觀的語譜圖,容易受各種噪聲影響。而在說話人識別技術的應用場景當中,采集到的語音數據不太可能是干凈的,并且其中包含的噪聲種類復雜,信噪比很差。如果使用傳統的底層譜基特征,需要在特征提取之后,再進行大量的特征端、模型端以及得分端的噪聲補償,計算復雜度較大,消耗時間過長,并且不能完全的消除噪聲的影響。
【發明內容】
[0005]本發明實施方式提出一種聲紋識別方法,以抵御噪聲干擾。
[0006]本發明實施方式提出一種聲紋識別裝置,以抵御噪聲干擾。
[0007]本發明實施方式的技術方案如下:
[0008]一種聲紋識別方法,該方法包括:
[0009]基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型;
[0010]利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識;
[0011]接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。
[0012]一種聲紋識別裝置,該裝置包括深層神經網絡二級模型獲取單元、注冊單元和聲紋識別單元,其中:
[0013]深層神經網絡二級模型獲取單元,用于基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型;
[0014]注冊單元,用于利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識;
[0015]聲紋識別單元,用于接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。
[0016]從上述技術方案可以看出,在本發明實施方式中,基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型;利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識;接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。由此可見,應用本發明實施方式之后,可以有效地從底層語譜特征入手,通過深層神經網絡自動學習語音信號當中包含能夠抵御噪聲干擾的高層次說話人信息,從而可以有效抵御噪聲干擾。
[0017]另外,可以將本發明實施方式應用于特征提取端,在有計算開銷限制的環境下,能夠直接獲取魯棒性特征用于說話人識別應用。在沒有計算資源限制的環境下,在獲取這種特征之后,本發明實施方式仍然可以通過原來的信道補償算法,并且可以獲得進一步的性能提升。
【專利附圖】
【附圖說明】
[0018]圖1為根據本發明實施方式聲紋識別方法流程圖;
[0019]圖2為根據本發明實施方式的深層神經網絡基本單元示意圖;
[0020]圖3為根據本發明實施方式的深層神經網絡層疊示意圖;
[0021]圖4為根據本發明實施方式深層神經網絡二級模型建立過程示意圖;
[0022]圖5為根據本發明實施方式說話人注冊過程示意圖;
[0023]圖6為根據本發明實施方式說話人測試過程示意圖;
[0024]圖7為根據本發明實施方式說話人聲紋識別裝置結構示意圖。
【具體實施方式】
[0025]為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步的詳細描述。
[0026]首先,說話人辨識是一種多分類問題,而說話人確認是一個二分類問題,多分類問題可以轉換成多個二分類問題。因此可以利用說話人確認問題為例,闡述本發明實施方式的相關細節。
[0027]實際上,本領域技術人員可以意識到,本發明實施方式同樣適用于說話人辨識問題。
[0028]文本無關的說話人識別由于不需要存儲特定的文本密碼,而直接使用說話人的語音作為密碼,可以廣泛的應用在互聯網用戶身份認證等安全領域,本發明實施方式尤其適用于針對文本無關的應用。[0029]傳統的說話人識別系統采用GMM-UBM技術框架,首先利用包含大量說話人的語音數據訓練一個說話人無關的通用背景模型(Universal Background Model, UBM),然后利用可以獲得的少量當前說話人的語音數據,通過最大后驗概率(Maximum A Posteriori, MAP)或者最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)準則,訓練得到說話人的模型。
[0030]在現有技術中,在做說話人身份判決的時候,分別針對待測試語音數據計算說話人對應的GMM模型和UBM模型似然度,并通過對數似然比(Logistic Likelihood Ratio,LLR)這個度量來計算最終的得分。對于說話人確認任務來說,通過比較與預先設定的一個門限(Threshold)的關系,來進行判決,而對于說話人識別來說,模型得分高的則為說話人識別結果。
[0031]由于測試語音數據和訓練語音數據存在信道不匹配的問題,現有技術給識別過程帶來不必要的干擾,因此信道補償技術就顯得尤為重要。傳統的說話人識別任務中,使用聯合因子分析(Joint Factor Analysis, JFA)的方法來去除各種可能的信道干擾帶來的性能損失。
[0032]由于聯合因子分析系統訓練和測試需要消耗較多的系統資源,I因子方法近年來被廣泛的使用。它通過因子分析方法,訓練一個能夠反映整句語音數據的載荷空間,然后提取載荷因子,即I因子來表征語音數據中包含的信息,再通過線性區分性分析(Linear Discriminant Analysis, LDA)和類內協方差規整(Within-Class CovarianceNormalization, WCCN)消除不必要的非說話人信息,之后可以采用余弦距離(CosineKernel)或者LLR測度,計算相似度,然后再進行說話人身份判定。
[0033]然而,現有的說話人識別技術,基本采用的均是譜基的特征,如MFCC,PLP以及LPCC等。這些特征均來自比較直觀的語譜圖,容易受各種噪聲影響。而在說話人識別技術的應用場景當中,采集到的語音數據很難為干凈,并且其中包含的噪聲種類復雜,信噪比很差。如果使用傳統的底層譜基特征,需要在特征提取之后,再進行大量的特征端,模型端,以及得分端的噪聲補償。計算復雜度較大,消耗時間過長,并且不能完全的消除噪聲的影響。在人類感知的實驗中,獲知音高,基頻,共振峰,以及習慣用語等高層特征不易受噪聲影響,但是現有的說話人識別方法均不能將這些信息直接應用于真實環境的說話人識別。
[0034]在本發明實施方式中,有效地從底層語譜特征入手,通過深層神經網絡的方法自動學習語音信號當中包含能夠抵御噪聲干擾的高層次的說話人信息。
[0035]神經網絡方法通過多個層次的網絡結構來模擬人類對于聲音信息處理的過程。神經網絡的輸入為原始的底層聲學特征,隨著經過的處理層次的增多,其獲取的信息越來越偏向于具有一定物理含義,具有一定抽象概念的信息。本發明實施方式通過這上述過程有效提取說話人高層身份信息。
[0036]可以將本發明實施方式應用于特征提取端,在有計算開銷限制的環境下,可以直接獲取魯棒性特征用于說話人識別的應用。在沒有計算資源限制的環境下,在獲取這種特征之后,仍然可以通過原來的信道補償算法,并且可以獲得進一步的性能提升。
[0037]由于深層神經網絡在訓練的過程中,包含了使用未標注數據的預訓練步驟,以及使用標注數據的精細調節步驟。因此本發明實施方式還可以使用大量的無標注數據,在某種程度上解決大數據應用的問題,只需要標注少量的數據便可以應用全部數據。[0038]圖1為根據本發明實施方式聲紋識別方法流程圖。
[0039]如圖1所示,該方法包括:
[0040]步驟101:基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
[0041]在這里,可以從無標注語音數據中提取無標注語音底層聲紋特征;再基于該無標注語音底層聲紋特征建立用于提取高層聲紋特征的深層神經網絡初級模型。然后,從有標注語音數據中提取有標注語音底層聲紋特征;再基于該有標注語音底層聲紋特征對深層神經網絡初級模型進行訓練,以獲取用于提取與說話人相關的高層聲紋特征的深層神經網絡二級模型。
[0042]其中,無標注語音數據是無說話人信息標注的語音數據,而有標注語音數據是有說話人信息標注的語音數據。
[0043]在一個實施方式中,可以應用稀疏編碼限制規則或最大交互熵規則,基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
[0044]在一個實施方式中,可以基于相同說話人的不同語音數據所獲得的高層聲紋特征之間距離變小,以及不同說話人的相同語音數據所獲得的高層聲紋特征之間距離變大的方式,對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
[0045]步驟102:利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識。
[0046]在這里,可以從說話人注冊語音中提取說話人底層聲紋特征,利用該深層神經網絡二級模型從說話人底層聲紋特征中獲取說話人高層聲紋特征;再在說話人高層聲紋特征與說話人標識之間建立對應關系。
[0047]步驟103:接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。
[0048]在這里,可以從測試語音數據中提取測試語音底層聲紋特征;基于該深層神經網絡二級模型,根據測試語音底層聲紋特征獲取測試語音高層聲紋特征;再基于該測試語音高層聲紋特征確定說話人標識。
[0049]在一個實施方式中,可以基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并建立該測試語音高層聲紋特征的高斯模型;再計算該測試語音高層聲紋特征的高斯模型與所注冊的高層聲紋特征的高斯模型之間的距離,并基于該距離確定說話人標識。
[0050]比如:在說話人確認中,可以判斷該測試語音高層聲紋特征的高斯模型與待確認說話人所注冊的高層聲紋特征的高斯模型之間的距離,是否低于預先設定的門限值,如果是,則確認該測試語音的說話人為該注冊的待確認說話人。
[0051]在說話人辨識中,可以判斷該測試語音高層聲紋特征的高斯模型與待辨識說話人群所注冊的高層聲紋特征的高斯模型之間的距離中的最小值,并判定該距離最小值所對應的注冊說話人為說話人。
[0052]基于上述流程,下面對本發明實施方式進行更加具體的闡述。
[0053]本發明實施方式主要包括兩部分內容:首先是構造用于提取反映高層說話人身份信息特征的深層神經網絡二級模型,然后再利用提取之后的身份信息特征實現說話人識別。
[0054]下面對深層神經網絡的結構進行說明。
[0055]圖2為根據本發明實施方式的深層神經網絡基本單元示意圖;圖3為根據本發明實施方式的深層神經網絡層疊示意圖。
[0056]如圖2和圖3所示,用于獲取說話人相關的高層聲紋特征的深層神經網絡是一個具有多層次的網絡結構,每層之間均可以通過某些映射函數相互連接。其中任意相連的兩層,都采用具有重建功能的結構,稱之為深層神經網絡的基本單元。
[0057]比如,基本單元可以是消除干擾的自動編碼器(Denoising Autoencoders,DAs)或者限制性波爾茲曼機(Restrictive Boltzmann Machines, RBMs),等等。
[0058]以DAs為例進行說明,它是一個2層的雙向映射網絡,即包含輸入層和輸出層,如圖2所示。X對于輸入層,輸入特征通過映射函數f ()映射為輸出層y。同時輸出層y,也可以通過映射函數g ()重新映射到輸入層,稱之為重建特征z。通過最小重建誤差準則(X與z之間的距離最小),這里的訓練數據并不需要說話人信息標注,就可以非監督地訓練出映射函數f ()和g ()。映射函數為線性映射函數,正向映射f ()其形式為Wx+b,W為映射矩陣,X為輸入矢量,b為偏移向量。反向映射g ()其形式為W’y+c,W’為正向映射函數中映射矩陣W的轉置,c為偏移向量。DAs在由輸入層X映射到輸出層y的過程中,添加了一定程度的隨機噪聲,這個添加的噪聲,可以避免基本單元陷入過訓練的問題。
[0059]在介紹了任意相連的2層基本結構之后,可以然后通過層疊的方式,將多個基本單元堆積起來,由下至上的構成一個深層的神經網絡。
[0060]如圖3所示,x_>hl為第一個基本單元,hl_>h2為第二個基本單元,hi是第一個基本單元的輸出矢量,同時是第二個基本單元的輸入矢量。
[0061]具體的,hi在作為第二個基本單元的輸入矢量之前,需要通過將矢量hi的每一維數值都通過sigmoid函數。由于sigmoid函數的輸出是一個[O, I]之間的數值,在這里設定一個隨機數,使其均勻分布在[0,I]之間,然后比較sigmoid函數的輸出與設定的隨機數,如果sigmoid的輸出大,則將hi在這個維度上的數值設為1,反之設為O。這樣,在深層神經網絡的構建當中,人為添加了一定程度的隨機性,可以在學習到已有模式特征基礎上,既能夠產生一些類似的新模式特征,也能消除同樣模式噪聲的干擾。
[0062]由于深層神經網絡的每一層都具備重建功能,可以利用貪婪算法,由下至上逐層地訓練深層神經網絡結構。這個網絡結構的最初輸入特征,就是底層的聲紋特征,而經過多個網絡層次的處理,最終輸出的特征就是包含一定物理意義,具有抽象意義的高層聲紋特征。通過這一步驟訓練得到的網絡結構,可以保證高層特征以最小的代價重建初始特征,并沒有起到區分說話人信息和干擾信息的作用。
[0063]在獲得映射網絡結構的初級模型之后,為了在高層特征之中去除非說話人的噪聲影響,需要進一步調節當前的網絡結構模型。這里需要相對少量的標注數據,即需要知曉語音數據和它對應的說話人身份信息。
[0064]圖3中,底層特征如果為X,那么獲得高層特征將是hk。在這個步驟之前,hk當中代表說話人信息還有另外的噪聲信息,這個步驟需要保留說話人信息,而抑制噪聲信息。
[0065]在一個實施方式中,可以提出2個限制手段。首先:對于輸入端輸入相同說話人的不同語音數據的時候,輸出層獲得的特征之間的距離應該變小,而當輸入端輸入不同的說話人的語音數據的時候,輸出層獲得的特征之間的距離應該變大(這里輸出層對應圖3中hk)。其次,為了保證輸出特征可以重建輸入特征,減小獲取說話人信息帶來的其他損耗,也兼顧新結構對于語音數據的重建誤差。可以綜合考慮上述2個限制,構造目標函數,然后利用神經網絡訓練的反向傳播算法(Back Propagation, BP),進一步調節深層神經網絡的結構。在這一步驟之后,獲得網絡同樣拓撲結構的深層神經網絡二級模型,但是模型的各種參數,如Wn等和初級模型不一樣。
[0066]在將神經網絡初級模型精細調節為深層神經網絡的二級模型的過程中,使深層神經網絡二級模型具有提取高層說話人信息能力的時候。這個步驟在深層神經網絡提取特征當中至關重要,除了上述實施方式之外,可以利用其他不同的目標函數,比如深層神經網絡輸出層的稀疏編碼限制規則,最大交互熵規則等規則,本發明實施方式對此并無限定。
[0067]通過深層神經網絡二級模型,就可以將底層的聲紋特征,映射為說話人相關的高層聲紋特征。
[0068]在獲得底層的聲紋信息之后,如MFCC的特征序列之后,可以將這些特征輸入訓練好的深層神經網絡的二級模型,然后在神經網絡的輸出端收集輸出矢量,這是一個矢量序列,即為高層的聲紋特征。
[0069]如圖2和圖3所示,將底層特征X輸入深層神經網絡二級模型,可以得到hk這個高層特征。如果輸入的底層特征是一個時間序列,即Ιχ1,X2,,...,χη},輸出也將是一個時間序列,即 Ihk1,hk2,,...,hkn}
[0070]圖4為根據本發明實施方式深層神經網絡二級模型建立過程示意圖。
[0071]如圖4所示,在構造深層神經網絡二級模型的過程中,首先收集包含大量語音數據,其中并不需要對這批數據進行身份信息的標注,即不需要表明每句語音數據是有哪個人說的這樣信息。通常,優選期望語音數據庫中盡量包含大量的說話人。
[0072]然后,通過底層聲紋特征提取處理將輸入的語音數據轉換成底層聲紋信息,常用的有MFCC,LPCC和PLP等特征,這些特征比較容易受環境噪聲。可以定義噪聲為:在地鐵,機場,車站,餐館等地方采集的語音;說話人高興,生氣,憤怒或者著急等情態下收集的語音;在麥克風,固定電話,移動電話下收集的語音數據,等等。
[0073]還可以使用如上所述收集的沒有標注的語音數據的底層聲紋特征,建立用于提取高層聲紋特征提取的深層神經網絡初級模型。這個映射結構,可以將底層特征映射到高層,但是這個高層信息中,包含大量的說話人無關的信息。
[0074]接著,可以收集少量語音數據,這些語音數據包含說話人身份信息的標注,同樣對這批數據進行底層特征提取,然后聯合上一步驟得到的神經網絡初級模型,通過精細調節處理建立深層神經網絡的二級模型,這個深層神經網絡二級模型可以將底層特征完全的映射為說話人相關的模型,極大程度上消除非說話人的噪聲影響。
[0075]建立完深層神經網絡二級模型之后,可以利用該深層神經網絡二級模型注冊說話人,以及執行說話人識別處理。
[0076]圖5為根據本發明實施方式說話人注冊過程示意圖。
[0077]如圖5所示,本發明實施方式可以利用深層神經網絡二級模型提取說話人的注冊信息的高層特征序列,并針對該高層說話人注冊信息序列建立高斯模型,以獲取說話人模型參數。[0078]具體包括:首先獲取說話人發出的注冊語音數據,并對注冊語音數據執行底層聲紋特征提取,以獲取注冊語音底層聲紋特征,再結合利用深層神經網絡二級模型提取注冊語音高層聲紋特征,并針對注冊語音高層聲紋特征建立高斯模型,即為說話人注冊模型。
[0079]圖6為根據本發明實施方式說話人測試過程示意圖。
[0080]如圖6所示,本發明實施方式可以利用深層神經網絡二級模型提取高層說話人測試信息序列,并針對該高層說話人測試信息序列建立測試高斯模型,獲取測試模型參數。然后通過計算注冊高斯模型與測試高斯模型之間的KL距離,識別說話人的身份。
[0081]具體包括:首先獲取說話人發出的測試語音數據,并對測試語音數據執行底層聲紋特征提取,以獲取測試語音底層聲紋特征,再結合利用深層神經網絡二級模型提取測試語音高層聲紋特征,并針對測試語音高層聲紋特征建立高斯模型,即為說話人測試模型。然后,將該說話人測試模型與說話人注冊模型進行比較,以確定最終的說話人身份。
[0082]實際上,可以通過多種方式執行說話人測試模型與說話人注冊模型的比較過程,比如計算說話人測試模型與說話人注冊模型之間的KL距離。在說話人確認中,可以判斷該說話人測試模型與說話人注冊模型之間的距離,是否低于預先設定的門限值,如果是,則確認該測試語音的說話人為該注冊的待確認說話人。
[0083]在說話人辨識中,可以判斷該說話人測試模型與待辨識說話人群所注冊的模型之間的距離中的最小值,并判定該距離最小值所對應的注冊說話人為說話人。
[0084]基于上述詳細分析,本發明實施方式還提出了一種聲紋識別裝置。
[0085]圖7為根據本發明實施方式說話人聲紋識別裝置結構示意圖。
[0086]如圖7所示,該裝置包括深層神經網絡二級模型獲取單元701、注冊單元702和聲紋識別單元703,其中:
[0087]深層神經網絡二級模型獲取單元701,用于基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型;
[0088]注冊單元702,用于利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識;
[0089]聲紋識別單元703,用于接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。
[0090]在一個實施方式中,深層神經網絡二級模型獲取單元701,用于從無標注語音數據中提取無標注語音底層聲紋特征,基于無標注語音底層聲紋特征建立用于提取高層聲紋特征的深層神經網絡初級模型。
[0091]在一個實施方式中,深層神經網絡二級模型獲取單元701,用于從有標注語音數據中提取有標注語音底層聲紋特征,基于該有標注語音底層聲紋特征對深層神經網絡初級模型進行訓練,以獲取用于提取與說話人相關的高層聲紋特征的深層神經網絡二級模型。
[0092]在一個實施方式中,深層神經網絡二級模型獲取單元701,用于應用稀疏編碼限制規則或最大交互熵規則,基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
[0093]在一個實施方式中,深層神經網絡二級模型獲取單元702,用于基于相同說話人的不同語音數據所獲得的高層聲紋特征之間距離變小,以及不同說話人的相同語音數據所獲得的高層聲紋特征之間距離變大的方式,對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
[0094]優選地,注冊單元702,用于從說話人注冊語音中提取說話人底層聲紋特征,利用該深層神經網絡二級模型從說話人底層聲紋特征中獲取說話人高層聲紋特征;在說話人高層聲紋特征與說話人標識之間建立對應關系。
[0095]在一個實施方式中,聲紋識別單元703,用于從測試語音數據中提取測試語音底層聲紋特征;基于該深層神經網絡二級模型,根據測試語音底層聲紋特征獲取測試語音高層聲紋特征;基于該測試語音高層聲紋特征確定說話人標識。
[0096]在一個實施方式中,聲紋識別單元703,用于基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并建立該測試語音高層聲紋特征的高斯模型;計算該測試語音高層聲紋特征的高斯模型與所注冊的高層聲紋特征的高斯模型之間的距離,并基于該距離確定說話人標識。
[0097]可以將圖7所示裝置集成到各種網絡的硬件實體當中。比如,可以將聲紋識別裝置集成到:功能手機、智能手機、掌上電腦、個人電腦(PO、平板電腦或個人數字助理(PDA),等等設備之中。
[0098]實際上,可以通過多種形式來具體實施本發明實施方式所提出的聲紋識別裝置。比如,可以遵循一定規范的應用程序接口,將聲紋識別裝置編寫為安裝到自然語言處理服務器中的插件程序,也可以將其封裝為應用程序以供用戶自行下載使用。當編寫為插件程序時,可以將其實施為ocx、dll、cab等多種插件形式。也可以通過Flash插件、RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術來實施本發明實施方式所提出的聲紋識別裝置。
[0099]可以通過指令或指令集存儲的儲存方式將本發明實施方式所提出的聲紋識別方法存儲在各種存儲介質上。這些存儲介質包括但是不局限于:軟盤、光盤、DVD、硬盤、閃存、U 盤、CF 卡、SD 卡、MMC 卡、SM 卡、記憶棒(Memory Stick)、xD 卡等。
[0100]另外,還可以將本發明實施方式所提出的聲紋識別方法應用到基于閃存(Nandflash)的存儲介質中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡等。
[0101]綜上所述,在本發明實施方式中,基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型;利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識;接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。由此可見,應用本發明實施方式之后,可以有效地從底層語譜特征入手,通過深層神經網絡自動學習語音信號當中包含能夠抵御噪聲干擾的高層次說話人信息,從而可以有效抵御噪聲干擾。
[0102]另外,可以將本發明實施方式應用于特征提取端,在有計算開銷限制的環境下,能夠直接獲取魯棒性特征用于說話人識別應用。在沒有計算資源限制的環境下,在獲取這種特征之后,本發明實施方式仍然可以通過現有的信道補償算法,并且可以獲得進一步的性能提升。
[0103]以上所述,僅為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
【權利要求】
1.一種聲紋識別方法,其特征在于,該方法包括: 基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型; 利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識; 接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。
2.根據權利要求1所述的聲紋識別方法,其特征在于,所述基于無標注語音數據建立深層神經網絡初級模型包括: 從無標注語音數據中提取無標注語音底層聲紋特征; 基于該無標注語音底層聲紋特征建立用于提取高層聲紋特征的深層神經網絡初級模型。
3.根據權利要求1所述的聲紋識別方法,其特征在于,所述基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型包括: 從有標注語音數據中提取有標注語音底層聲紋特征; 基于該有標注語音底層聲紋特征對深層神經網絡初級模型進行訓練,以獲取用于提取與說話人相關的高層聲紋特征的深層神經網絡二級模型。
4.根據權利要求1所述的聲紋識別方法,其特征在于,所述基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型包括: 應用稀疏編碼限制規則或最大交互熵規則,基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
5.根據權利要求1所述的聲紋識別方法,其特征在于,所述基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型包括: 基于相同說話人的不同語音數據所獲得的高層聲紋特征之間距離變小,以及不同說話人的相同語音數據所獲得的高層聲紋特征之間距離變大的方式,對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
6.根據權利要求1所述的聲紋識別方法,其特征在于,所述利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識包括: 從說話人注冊語音中提取說話人底層聲紋特征,利用該深層神經網絡二級模型從說話人底層聲紋特征中獲取說話人高層聲紋特征; 在說話人高層聲紋特征與說話人標識之間建立對應關系。
7.根據權利要求1所述的聲紋識別方法,其特征在于,所述基于該深層神經網絡二級模型從測試語音數據中提取高層聲紋特征,并且基于該高層聲紋特征確定說話人標識包括: 從測試語音數據中提取測試語音底層聲紋特征; 基于該深層神經網絡二級模型,根據測試語音底層聲紋特征獲取測試語音高層聲紋特征; 基于該測試語音高層聲紋特征確定說話人標識。
8.根據權利要求1所述的聲紋識別方法,其特征在于,所述基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識包括: 基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并建立該測試語音高層聲紋特征的高斯模型; 計算該測試語音高層聲紋特征的高斯模型與所注冊的高層聲紋特征的高斯模型之間的距離,并基于該距離確定說話人標識。
9.一種聲紋識別裝置,其特征在于,該裝置包括深層神經網絡二級模型獲取單元、注冊單元和聲紋識別單元,其中: 深層神經網絡二級模型獲取單元,用于基于無標注語音數據建立深層神經網絡初級模型,并且基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型; 注冊單元,用于利用該深層神經網絡二級模型注冊說話人高層聲紋特征與說話人標識; 聲紋識別單元,用于接收測試語音數據,基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征,并且基于該測試語音高層聲紋特征確定說話人標識。
10.根據權利 要求9所述的聲紋識別裝置,其特征在于, 深層神經網絡二級模型獲取單元,用于從無標注語音數據中提取無標注語音底層聲紋特征,基于無標注語音底層聲紋特征建立用于提取高層聲紋特征的深層神經網絡初級模型。
11.根據權利要求9所述的聲紋識別裝置,其特征在于, 深層神經網絡二級模型獲取單元,用于從有標注語音數據中提取有標注語音底層聲紋特征,基于該有標注語音底層聲紋特征對深層神經網絡初級模型進行訓練,以獲取用于提取與說話人相關的高層聲紋特征的深層神經網絡二級模型。
12.根據權利要求9所述的聲紋識別裝置,其特征在于, 深層神經網絡二級模型獲取單元,用于應用稀疏編碼限制規則或最大交互熵規則,基于有標注語音數據對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
13.根據權利要求9所述的聲紋識別裝置,其特征在于, 深層神經網絡二級模型獲取單元,用于基于相同說話人的不同語音數據所獲得的高層聲紋特征之間距離變小,以及不同說話人的相同語音數據所獲得的高層聲紋特征之間距離變大的方式,對該深層神經網絡初級模型進行訓練,以獲取深層神經網絡二級模型。
14.根據權利要求9所述的聲紋識別裝置,其特征在于, 注冊單元,用于從說話人注冊語音中提取說話人底層聲紋特征,利用該深層神經網絡二級模型從說話人底層聲紋特征中獲取說話人高層聲紋特征;在說話人高層聲紋特征與說話人標識之間建立對應關系。
15.根據權利要求9所述的聲紋識別裝置,其特征在于, 聲紋識別單元,用于從測試語音數據中提取測試語音底層聲紋特征;基于該深層神經網絡二級模型,根據測試語音底層聲紋特征獲取測試語音高層聲紋特征;基于該測試語音高層聲紋特征確定說話人標識。
16.根據權利要求9所述的聲紋識別裝置,其特征在于, 聲紋識別單元,用于基于該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特征, 并建立該測試語音高層聲紋特征的高斯模型;計算該測試語音高層聲紋特征的高斯模型與所注冊的高層聲紋特征的高斯模型之間的距離,并基于該距離確定說話人標識。
【文檔編號】G10L17/20GK103971690SQ201310032846
【公開日】2014年8月6日 申請日期:2013年1月28日 優先權日:2013年1月28日
【發明者】王爾玉, 盧鯉, 張翔, 劉海波, 李露, 饒豐, 陸讀羚, 岳帥, 陳波 申請人:騰訊科技(深圳)有限公司