<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種聲紋識別方法

文檔序號:2833337閱讀:860來源:國知局
專利名稱:一種聲紋識別方法
技術領域
本發明涉及一種生物特征識別領域中關于語音特征提取與識別技術領域,具體涉及一種聲紋識別方法。
背景技術
生物特征識別技術是指利用人類本身所擁有的、能夠標識其身份的生理特征或者行為特征進行身份驗證的技術。與傳統的身份驗證技術相比,生物特征識別技術能夠提供更方便的用戶服務、提供更高的安全等級、可靠性,越來越多的用于現代安全系統的身份認證。
所謂聲紋(Voiaprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以后,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終相同。基于聲紋的這兩個特征,偵查人員就可將獲取的犯罪分子的聲紋和嫌疑人的聲紋,通過聲紋鑒定技術進行檢驗對比,迅速認定罪犯,為偵查破案提供可靠的證據。聲紋識別,是從一段語音中分析和提取出說話人的個性特征,自動確定說話人的身份的過程。聲紋識別技術作為一種典型的生物特征識別技術,以其便捷、安全可靠等特點,在保安領域、公安司法領域、軍事領域、財經領域、信息服務領域以及醫學領域有廣泛的應用前景。自動聲紋識別的基本過程是對人類語音片段進行特征提取,用提取好的特征向量訓練分類器進行識別。一種常用的倒譜特征提取方法是對經過加窗、預加重的語音幀進行傅里葉變換,再對其濾波,然后進行離散余弦變換,若對語音幀用梅爾(Mel)濾波器進行濾波,貝1J提取出的語音特征稱為梅爾倒譜特征(MFCC, Mel-Frequency CepstrumCoefficients)。而常用的聲紋識別分類器模型有神經網絡模型、隱馬爾科夫模型、高斯混合模型(GMM, Gaussian Mixture Model)等。經對現有技術文獻的檢索發現,RedaJourani等在《Speaker verification usinglarge margin GMM discriminative training》中提出使用高維特征訓練高斯混合模型,顯然其付出的代價是昂貴的,且只比低維度的高斯混合模型提高了 O. 4%的等誤識率。在高斯混合模型中,其時間復雜度與特征維度平方成正比,特征維度每增加一倍,訓練模型所需的時間就變為四倍。普通的高斯混合模型無法滿足增量學習的要求,在需要間斷性學習的要求下,不得不每次重新學習所有的數據。

發明內容
發明目的本發明所要解決的技術問題是針對現有技術的不足,提供一種聲紋識別方法。為了解決上述技術問題,本發明公開了一種聲紋識別方法,包括以下步驟
步驟1,對訓練語音集內每個說話人的分段語音數據預處理,形成預處理后對應每個說話人的一組樣本集合,一個說話人的語音數據唯一對應一個樣本集合;步驟2,對所有樣本集合中每一個樣本進行提取梅爾倒譜系數;步驟3,逐一選定一個樣本集合并隨機選取其中部分樣本的梅爾倒譜系數,對該樣本集合訓練高斯混合模型,直到所有樣本集合都訓練得到高斯混合模型,將所有高斯混合模型組成一個模型庫;步驟4,將步驟3中未被選取訓練過的樣本,與其對應樣本集合的高斯混合模型逐個進行增量學習得到所有優化后的高斯混合模型,利用所有優化后的高斯混合模型優化模型庫;
·
步驟5,輸入并識別測試語音數據,利用步驟4中優化的模型庫識別測試語音數據對應的樣本集合的高斯混合模型,即確定對應說話人,將測試語音數據加入到該說話人對·應的樣本集合中。本發明所述語音數據預處理包括語音數據的加漢明窗分幀、計算每幀語音的短時能量和短時過零率,計算所有語音幀短時能量的算術平均值和所有幀短時過零率的算術平均值,將短時能量小于短時能量的算術平均值一半或短時過零率高于短時過零率的算術平均值的語音幀丟棄,剩下的語音數據作為預處理后的樣本集合。本發明步驟2中梅爾倒譜系數提取包括以下步驟1)對每幀語音進行傅里葉變換;2)對變換后的語音幀進行梅爾倒譜濾波;3)對濾波后的語音幀進行離散余弦變換;4)求取一階差分梅爾倒譜系數,將梅爾倒譜系數和一階差分梅爾倒譜系數合并作為模型訓練的特征參數。本發明步驟3中訓練單個初始高斯混合模型包括以下步驟1)從單個說話人的特征參數中隨機選取一部分梅爾倒譜系數,以k-均值方法求取初始聚類;2)以初始聚類均值、方差和權重為高斯混合模型的均值、方差和權重,利用期望最大化算法(EM,Expectation-Maximization)重新計算均值、方差和權重;3)利用期望最大化算法迭代計算均值、方差和權重,直到均值、方差和權重收斂或迭代次數達到預設值;4)將收斂后的均值、方差和權重參數作為此說話人的聲紋模型。步驟4中,對所述對應樣本集合中未被選取訓練過的樣本,以步驟3中高斯混合模型的均值、方差和權重為增量學習高斯混合模型初始均值、方差和權重,進行高斯混合模型增量學習,將增量學習所得到的高斯混合模型的均值、方差和權重組成對應樣本集合優化后的高斯混合模型。本發明所述增量學習包括以下步驟步驟41,以步驟3中對應樣本集合的當前高斯混合模型的均值、方差和權重作為初始值;步驟42,在該集合中未被選取訓練過的所有樣本中選取若干樣本的梅爾倒譜系數,組成增量學習樣本S ;步驟43,計算增量學習樣本S與對應樣本集合的當前高斯混合模型IHM1,M2,...,
MJ的相似度,其中M1, M2,......,Mn為高斯聚類,N的取值范圍為3(Γ60,將不與高斯混合
模型I中任何高斯聚類相似的樣本劃分為劣勢樣本點,組成劣勢樣本點集合S1,將其余的樣本點劃分為優勢樣本點,組成優勢樣本點集合S2,其中S2={S-Si};
將與高斯混合模型I中單個高斯聚類所匹配的樣本點個數小于增量學習樣本S的樣本點數1%的聚類劃分為劣勢聚類,組成劣勢聚類集合Ii={M' ,,Wk},k^N,高斯混合模型I中余下的聚類劃分為優勢聚類,組成優勢聚類集合I2,其中I2=I-I1 ;步驟44,根據當前高斯混合模型的均值、方差和權重,根據步驟43中優勢聚類集合I2和優勢樣本點集合S2計算新的高斯混合模型的均值、方差和權重;步驟45,若步驟43的劣勢樣本點集合S2中樣本點個數與增量學習樣本S中樣本點個數比值大于預設值,則用K均值方法進行聚類,選取一個密度最大的聚類,若該聚類的聚類密度大于當前高斯混合模型中的最小聚類密度,則將該聚類添加到當前高斯混合模型中,將該聚類中的樣本點劃分為優勢樣本點,添加到優勢樣本點集合S2中,并從劣勢樣本點集合S1中去除;步驟46,重復步驟43 步驟45,直到聚類均值、方差、權重和高斯聚類的個數達到迭代收斂或者迭代次數達到預設值停止,將此時的聚類均值、方差、權重和高斯聚類的個數 作為當前高斯混合模型參數;步驟47,根據步驟46中得到的當前高斯混合模型參數,重復步驟42 步驟46,直到所有樣本集合中的所有樣本都被選取訓練完,得到優化模型庫。本發明步驟5包括對測試語音數據的預處理、提取測試語音數據的梅爾倒譜系數,計算測試語音數據中每幀梅爾倒譜系數的幀置信度,將置信度大于預設值的幀與步驟4中所得到模型庫中的高斯混合模型進行相似度匹配,相似度最大的高斯混合模型所對應的說話人即為此幀的候選說話人,將測試語音數據中出現次數最多的候選說話人作為測試結果,將測試語音數據加入到該說話人對應的樣本集合中,預設值一般設定范圍是O. Γ0. 9。本發明公開了一種基于梅爾倒譜系數(Mel-FrequencyCepstrum Coefficients,MFCC)的增量學習高斯混合模型(Incremental Learning Gaussian Mixture Model,IL-GMM)的聲紋識別方法。包括以下步驟步驟一、語音數據預處理;步驟二、生成梅爾倒譜系數;步驟三、用增量高斯混合模型訓練梅爾倒譜系數,生成一組初始的訓練數據;步驟四、繼續輸入樣本進行增量學習,根據聚類情況決定是否增加新的高斯聚類;步驟五、將待測試語音經過預處理,生成梅爾倒譜系數,輸入增量高斯混合模型進行測試,并按測試結果進行增量學習。本發明在普通的高斯混合模型中融入了增量學習部分,其優點在于可以動態的改變高斯聚類的個數和實現了增量學習,可以更好地模擬語音特征的分布和更方便的進行數據的訓練。有益效果本發明能夠根據訓練數據自適應的改變模型階數。這種方法不僅能夠大大減少聲紋識別的特征維數,減少訓練時間,而且能夠滿足增量學習的要求。具體而言本發明具有以下優點1、實現了增量學習,在識別過程中能夠不斷根據人類語音的自然變化進行學習和調整;2、在增量學習時,能夠直接利用已經學習過的知識,不需要進行重復的訓練,在改進舊知識的同時學習到新的特征;3、在增量學習時,不會因為頻繁的學習需求而增加額外的存儲,也不會隨著不斷學習而加重運算負擔;4、在增量學習時,能夠根據樣本自適應的改變高斯混合模型的混合度,更好地模擬樣本的空間分布;5、根據已經學習的樣本數自適應地調整增量學習的學習率。


下面結合附圖和具體實施方式
對本發明做更進一步的具體說明,本發明的上述和/或其他方面的優點將會變得更加清楚。圖I為本發明系統模型圖。圖2為本發明系統流程圖。圖3為本發明實施例采用的梅爾倒譜濾波器示意圖。
具體實施例方式本發明公開了一種聲紋識別方法,包括以下步驟 步驟1,對訓練語音集內每個說話人的分段語音數據預處理,形成預處理后對應每個說話人的一組樣本集合,一個說話人的語音數據唯一對應一個樣本集合;步驟2,對所有樣本集合中每一個樣本進行提取梅爾倒譜系數;步驟3,逐一選定一個樣本集合并隨機選取其中部分樣本的梅爾倒譜系數,對該樣本集合訓練高斯混合模型,直到所有樣本集合都訓練得到高斯混合模型,將所有高斯混合模型組成一個模型庫;步驟4,將步驟3中未被選取訓練過的樣本,與其對應樣本集合的高斯混合模型逐個進行增量學習得到所有優化后的高斯混合模型,利用所有優化后的高斯混合模型優化模型庫;步驟5,輸入并識別測試語音數據,利用步驟4中優化的模型庫識別測試語音數據對應的樣本集合的高斯混合模型,即確定對應說話人,將測試語音數據加入到該說話人對應的樣本集合中。更具體地說,如圖I和圖2所示,本發明包括以下步驟。一、預處理階段首先將語音數據按16000Hz的采樣率從音頻文件中讀取出來,得到一個采樣點序列。對該序列進行預加重操作,目的是提升高頻信號,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中能用同樣的信噪比求得頻譜。預加重可通過預加重數字濾波器來實現,本發明使用的一階的數字濾波器如下H(Z)=I-CozT1其中ω為接近I的常量,在本發明中取O. 95。其次是使用漢明窗對語音數據加窗,目的是在加窗的過程中對語音進行分幀。將每256個采樣點分為一幀,為了保持幀與幀的連續性,采取128個點幀移,即前一幀和后一幀有128個采樣點重疊。漢明窗如下
[0.54-0.46 * QOSilnK!{H -1)) = 0.1 —Iw( ) = iH表示幀長,在本發明中H取256。加窗的過程就是用窗函數w (η)與語音信號s (η)進行加權的方式來實現的。加窗后的語音信號Sw(n) =S (n) (η)。然后計算語音巾貞的短時過零率Z (Short-term zero rate)和短時能量E (Short-term energy),對語音巾貞進行篩選。短時過零率表示一巾貞語音信號波形穿過橫軸的次數。可用于區分清音與濁音,清音的短時過零率分布的平均值高于濁音。短時平均過零率的計算如下
權利要求
1.一種聲紋識別方法,其特征在于,包括以下步驟 步驟1,對訓練語音集內每個說話人的分段語音數據預處理,形成預處理后對應每個說話人的一組樣本集合,一個說話人的語音數據唯一對應一個樣本集合; 步驟2,對所有樣本集合中每一個樣本進行提取梅爾倒譜系數; 步驟3,逐一選定一個樣本集合并隨機選取其中部分樣本的梅爾倒譜系數,對該樣本集合訓練高斯混合模型,直到所有樣本集合都訓練得到高斯混合模型,將所有高斯混合 模型組成一個模型庫; 步驟4,將步驟3中未被選取訓練過的樣本,與其對應樣本集合的高斯混合模型逐個進行增量學習得到所有優化后的高斯混合模型,利用所有優化后的高斯混合模型優化模型庫; 步驟5,輸入并識別測試語音數據,利用步驟4中優化的模型庫識別測試語音數據對應的樣本集合的高斯混合模型,即確定對應說話人,將測試語音數據加入到該說話人對應的樣本集合中。
2.根據權利要求I所述的一種聲紋識別方法,其特征在于,步驟4中,對所述對應樣本集合中未被選取訓練過的樣本,以步驟3中高斯混合模型的均值、方差和權重為增量學習高斯混合模型初始均值、方差和權重,進行高斯混合模型增量學習,將增量學習所得到的高斯混合模型的均值、方差和權重組成對應樣本集合優化后的高斯混合模型。
3.根據權利要求2所述的一種聲紋識別方法,其特征在于,步驟4中所述增量學習包括以下步驟 步驟41,以步驟3中對應樣本集合的當前高斯混合模型的均值、方差和權重作為初始值; 步驟42,在該集合中未被選取訓練過的所有樣本中選取若干樣本的梅爾倒譜系數,組成增量學習樣本S ; 步驟43,計算增量學習樣本S與對應樣本集合的當前高斯混合模型I={M1; M2, , MJ的相似度,其中M1, M2, · · ·…,Mn為高斯聚類,N的取值范圍為3(Γ60,將不與高斯混合模型I中任何高斯聚類相似的樣本劃分為劣勢樣本點,組成劣勢樣本點集合S1,將其余的樣本點劃分為優勢樣本點,組成優勢樣本點集合S2,其中S2={S-Si}; 將與高斯混合模型I中單個高斯聚類所匹配的樣本點個數小于增量學習樣本S的樣本點數1%的聚類劃分為劣勢聚類,組成劣勢聚類集合,,WK},k<N,高斯混合模型I中余下的聚類劃分為優勢聚類,組成優勢聚類集合I2,其中I2=I-I1 ; 步驟44,根據當前高斯混合模型的均值、方差和權重,根據步驟43中優勢聚類集合I2和優勢樣本點集合S2計算新的高斯混合模型的均值、方差和權重; 步驟45,若步驟43的劣勢樣本點集合S2中樣本點個數與增量學習樣本S中樣本點個數比值大于預設值,則用K均值方法進行聚類,選取一個密度最大的聚類,若該聚類的聚類密度大于當前高斯混合模型中的最小聚類密度,則將該聚類添加到當前高斯混合模型中,將該聚類中的樣本點劃分為優勢樣本點,添加到優勢樣本點集合S2中,并從劣勢樣本點集合31中去除; 步驟46,重復步驟43 步驟45,直到聚類均值、方差、權重和高斯聚類的個數達到迭代收斂或者迭代次數達到預設值停止,將此時的聚類均值、方差、權重和高斯聚類的個數作為當前高斯混合模型參數; 步驟47,根據步驟46中得到的當前高斯混合模型參數,重復步驟42 步驟46,直到所有樣本集合中的所有樣本都被選取訓練完,得到優化模型庫。
4.根據權利要求3所述的一種聲紋識別方法,其特征在于,步驟5包括對測試語音數據的預處理、提取測試語音數據的梅爾倒譜系數,計算測試語音數據中每幀梅爾倒譜系數的幀置信度,將置信度大于預設值的幀與步驟4中所得到模型庫中的高斯混合模型進行相似度匹配,相似度最大的高斯混合模型所對應的說話人即為此幀的候選說話人,將測試語音數據中出現次數最多的候選說話人作為測試結果,將測試語音數據加入到該說話人對應的樣本集合中。
5.根據權利要求I或4所述的一種聲紋識別方法,其特征在于,所述語音數據預處理包括語音數據的加漢明窗分幀、計算每幀語音的短時能量和短時過零率,計算所有語音幀短時能量的算術平均值和所有幀短時過零率的算術平均值,將短時能量小于短時能量的算術平均值一半或短時過零率高于短時過零率的算術平均值的語音幀丟棄,剩下的語音數據作為預處理后的樣本集合。
全文摘要
本發明公開了一種聲紋識別方法,包括以下步驟步驟1,對訓練語音集內每個說話人的分段語音數據預處理,形成預處理后對應每個說話人的一組樣本集合;步驟2,對所有樣本集合中每一個樣本進行提取梅爾倒譜系數;步驟3,逐一選定一個樣本集合并隨機選取其中部分樣本的梅爾倒譜系數,對該樣本集合訓練高斯混合模型;步驟4,將步驟3中未被選取訓練過的樣本,與其對應樣本集合的高斯混合模型逐個進行增量學習得到所有優化后的高斯混合模型,利用所有優化后的高斯混合模型優化模型庫;步驟5,輸入并識別測試語音數據,利用步驟4中優化的模型庫識別測試語音數據對應的樣本集合的高斯混合模型,將測試語音數據加入到該說話人對應的樣本集合中。
文檔編號G10L17/00GK102820033SQ20121029557
公開日2012年12月12日 申請日期2012年8月17日 優先權日2012年8月17日
發明者申富饒, 唐澤林, 趙金熙, 程佳 申請人:南京大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影