<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

說話人識別中不同語音編碼影響的補償方法

文檔序號:2830785閱讀:504來源:國知局
專利名稱:說話人識別中不同語音編碼影響的補償方法
技術領域
本發明涉及一種說話人識別技術領域的補償方法,具體是一種在因特網 上對說話人識別中語音編碼不匹配時的補償方法。
背景技術
說話人識別考指通過對說話人語音信號的分析處理,自動確認說話人是 否在所記錄的話者集合中,以及進一步確認說話人是誰。盡管在實驗室的干 凈語音環境下,說話人識別系統已經取得了比較好的效果,但是在現實應用 當中,說話人識別系統的性能要受到很多因素制約,系統的識別結果還不能 讓人滿意。其中影響性能的主要原因之一是由于各種因素而導致的訓練和測 試時語音信號編碼的不匹配問題。隨著現代網絡技術的發展,通過因特網傳 送語音信號的應用越來越多。網絡傳送中的語音多采用壓縮比相對較高的中、 低速率語音編碼或音頻編碼。低速率的語音(音頻)壓縮編碼雖然給信道的 傳輸帶來了方便,也節省了存儲空間,但是由于大部分語音(音頻)編碼都 是有損壓縮,語音質量勢必會受到損失,同時,更為突出的是,不同的編碼 方式其編碼機理并非一樣,尤其是采用流媒體編碼方式的情況。因此,采用 不同編碼方式后的語音信號存在著特征參數等方面的不匹配問題,而往往我 們在進行網絡下說話人識別時,所能獲得的訓練數據是采用某種語音(音頻) 編碼方式下的信號,而在實際使用時,待測語音信號為其他編碼方式的信號, 這時的說話人識別就面臨著訓練和測試語音由于編碼不同而產生的不匹配問 題,這將影響說話人識別的性能,為此,需要研究有效克服不同語音編碼影 響的補償方法。

發明內容
本發明為解決在說話人識別過程中,訓練語音和測試語音編碼不匹配時 造成的說話人識別性能下降的問題,提供一種說話人識別中不同語音編碼影 響的補償方法。本發明由以下步驟實現-
步驟一、采用某種編碼方式作為標準編碼方式,將N個說話人在標準編 碼方式下的語音信號依次進行特征處理和最大期望算法訓練得到的N個標準編碼方式下的說話人模型^丄作為匹配對象庫,其中N表示自然數;
步驟二、輸入待識別說話人的語音信號s(n),對輸入的語音信號進行特 征提取得到特征矢量序列X: {Xl,x2,...,Xs},其中S代表自然數;
步驟三、在特征矢量序列X中選其前T幀得到序列XT^ {Xl,X2,...,xT}, 用此T幀序列Xt迸行MAP算法自適應獲得當前編碼和標準編碼的偏差^^ , 其中T代表自然數;
步驟四、用獲得的當前編碼和標準編碼偏差^^對特征矢量序列X作調 整補償,得到新特征矢量序列又,其中X"
步驟五、用新特征矢量序列^分別和N個標準編碼方式下的說話人模型
Kd進行匹配和判決獲得識別結果。
有益效果本發明通過調整說話人識別時所采用的編碼下的特征,使其
接近匹配對象庫中的語音特征,并采用高斯分布估計編碼偏差,減小編碼引 起的說話人語音特征失真,從而降低說話人語音編碼不匹配造成的識別率降
低的問題,使編碼不匹配時的系統平均識別率提高了7.1%。


圖1是當調整因子"的取值從0到0.9時系統識別率的變化圖;圖2是 分別采用基線系統和最大后驗概率算法進行編碼補償時系統識別率的變化 圖,其中"—"表示采用MAP算法得到的系統識別率的變化線,i'表示采 用基線系統得到的系統識別率的變化線。
具體實施例方式
具體實施方式
一參見圖1和圖2,本實施方式由以下步驟組成
步驟一、采用未編碼、mp3編碼、rm編碼或wma編碼其中一種編碼方 式作為標準編碼方式,將N個說話人在標準編,方式下的語音信號依次進行 特征處理和最大期望算法訓練得到的N個標準編碼方式下的說話人高斯混合 模型^丄作為匹配對象庫,其中N表示自然數;
步驟二、輸入待識別說話人的語音信號s(n),對輸入的語音信號進行特 征提取得到特征矢量序列X- {Xl,x2,...,xs},其中S代表自然數;
步驟三、在特征矢量序列X中選其前T幀得到序列XT- {Xl,x2,...,XT}, 用此T幀序列Xt迸行MAP算法自適應獲得當前編碼和標準編碼的偏差,其中T代表自然數;
步驟四、用獲得的當前編碼和標準編碼偏差S^P對特征矢量序列X作調 整補償,得到新特征矢量序列5,其中又—x,-S,,X2-5,,…,Xs-5,h
步驟五、用新特征矢量序列又分別和N個標準編碼方式下的說話人模型 ^丄進行匹配和判決獲得識別結果。
在本實施方式中步驟二中的特征提取的過程為對說話人信號s(n)進行
采樣量化和預加重處理,假設說話人信號是短時平穩的,所以說話人信號可 進行分幀處理,具體分幀方法是采用可移動的有限長度窗口進行加權的方法
來實現的,對加權后的語音信號Sw(n)計算線性預測編碼(LPC),然后根據LPC 和線性預測倒譜系數(LPCC)之間的關系得到特征矢量序列X—x,,、,…,x^, LPC與LPCC之間的關系如下
<formula>formula see original document page 5</formula>
其中,^(")代表LPCC的第"維分量," 為LPC的第"維分量,p為 LPC的維數,"代表自然數。
步驟三和四的計算過程為假設測試語音所屬編碼與訓練語音所屬編碼 之間存在編碼偏差A,該偏差A可以用一個均值為/v協方差矩陣為&的單 高斯分布iV(/^2J來表示,根據MAP估計準則,L^的MAP估計為
^麼=arg max{; (/z 1X, A)} (1)
其中,義為參考說話人模型,X代表選取的前T幀序列XT;
根據貝葉斯公式以及對數函數的單調性,公式(l)等價于
= arg max{log p(X | /z,義)+ log / (/z》 (2)
其中,/7(/0為編碼偏差^的先驗知識。
為了限制在自適應數據量不同時編碼偏差A的先驗知識所占比重,在公
式(2)中加入調整因子",得到下式
5鮮=argmax{alog/ (X|/ ,;i) + (l-a)logp(/z)} (3)其中,p(II/z,A)滿足混合高斯分布形式,艮口
;K単;i)-Z;7(UI/a) = (4)
M為64, !'表示第/個混合分量,c,表示各個混合分量所占的權重。 求解式(3),用最大期望(Expectation Maximum)算法在T幀自適應數據集
中估計當前編碼偏差,對于高斯混合模型的隱狀態序列e經過一系列公式變 化后得到的函數為
,,;)="力£ 〈) log水,,I U) + (1 - )r log 4) (5) 其中,//為前一次的迭代結果;5為當前的迭代結果。x,為第/幀的語音特
征;p(x,,/IA,;i)表示用偏差/;調整第f幀語音后,在模型A的第/個混合分量上 的概率;p(x,l/z,A)為用偏差/a周整第f幀語音后,在模型義的所有混合分量上
的概率;p(x,,/^,;i)為用偏差^調整第^幀語音后,在模型;i的第/個混合分
量上的概率;/H&為編碼偏差Z/前一次的的先驗知識。
假設編碼偏差/z的協方差矩陣、取對角陣,則令,=0,有
"》f W")xA] + (1-")4 ; O, ct々
(6)
其中,g為當前的迭代結果向量5的第y維的值,y=i,2,...,£,丄為特征矢量
的維數;~為測試語音的第r幀特征向量的第J'維的值;^ ^ 、 c^分別為標準 編碼下說話人模型的第/個混合分量的第y個均值和第y個方差; 、《分
別為編碼偏差A均值A的第y維的值和協方差矩陣;的第/個值。
在上面對編碼偏差的估計公式中,關于編碼偏差的先驗知識的 、《是
未知量,因而在進行MAP估計之前,首先需要獲得編碼偏差/2的先驗知識。 為了獲得編碼偏差A的先驗知識,令公式(6)中因子"為1,這時最大后驗 概率估計方法變為極大似然估計方法,相應的迭代公式如下所示<formula>formula see original document page 7</formula>如果有/Z類編碼,由公式(7)可以獲得7/類編碼偏差/;的估計值,表示為 ^,,^,...,^^,最后利用公式(8)和(9)可以估計出^和^的值。
<formula>formula see original document page 7</formula>在公式(7)中存在編碼偏差//初始值設定的問題,這里用當前非標準編碼 下的語音與標準編碼下的參考話者模型的均值之間的差值累計作為A的初始 值^,如下公式所示,其中c,為參考說話人模型GMM第/個混合分量的權 值;
<formula>formula see original document page 7</formula>有了偏差A的估計值,可以將當前編碼的原始語音特征空間經過補償映
射到標準編碼的特征空間,具體補償策略為
X = X —5w尸 (11) 步驟五中匹配和判決過程為對于特征矢量序列X,公式中X代表補償 后的新特征矢量序列^ ,該人為第N個說話人的后驗概率
(12)
潮 1>, 風)
其中,P(;i")為第N個人說話的先驗概率;p(X)為匹配對象庫中N個說話
人條件下特征矢量序列X的概率密度;p(義I義 )為第N個人產生特征矢量序列
義的類條件概率。識別結果的最大后驗概率準則
"* =argmax/ (^ |X) (13)
其中"'表示識別判決結果。假設每個人說話的先驗概率相等得到
<formula>formula see original document page 7</formula>此外對于每個說話人,式(12)中的p(;o都相等。這樣,式(13)可以寫成 <formula>formula see original document page 8</formula>(15)
這時,最大后驗概率準則就轉化成了極大似然準則。
通常為了簡化計算, 一般采用對數似然函數,判決結果為<formula>formula see original document page 8</formula> (16)
式(16)就是閉集測試判決準則。這里只討論閉集測試,避免開集測試閾 值對識別率的影響,突出編碼不匹配的影響,以降低問題復雜度。
權利要求
1、說話人識別中不同語音編碼影響的補償方法,其特征在于它由以下步驟實現步驟一、采用某種編碼方式作為標準編碼方式,將N個說話人在標準編碼方式下的語音信號依次進行特征處理和最大期望算法訓練得到的N個標準編碼方式下的說話人模型{λn}n=1N作為匹配對象庫,其中N表示自然數;步驟二、輸入待識別說話人的語音信號s(n),對輸入的語音信號進行特征提取得到特征矢量序列X={x1,x2,...,xS},其中S代表自然數;步驟三、在特征序列X中選其前T幀得到序列XT={x1,x2,...,xT},用此T幀序列XT進行MAP算法自適應獲得當前編碼和標準編碼的偏差hMAP,其中T代表自然數;步驟四、用獲得的當前編碼和標準編碼偏差hMAP對特征序列X作調整補償,得到新特征矢量序列X,其中X={x1-hMAP,x2-hMAP,...,xS-hMAP};步驟五、用新特征矢量序列X分別與N個標準編碼方式下的說話人模型{λn}n=1N進行匹配和判決獲得識別結果。
2、 根據權利要求1所述的說話人識別中不同語音編碼影響的補償方法, 其特征在于根據步驟三中所述的MAP算法,S協p的MAP估計為K層-argma^P^IXJ)} (1)其中,A為參考說話人模型,Z代表選取的前T幀序列XT;根據貝葉斯公式以及對數函數的單調性,公式(l)等價于5鮮=虹g max{log 1 / ,義)+ log岸)} (2)其中,p(/0為編碼偏差A的先驗知識;為了限制在自適應數據量不同時編碼偏差A的先驗知識所占比重,在公式 (2)中加入調整因子",得到下式5縱=argmax{alog/ (Jn&A) + (l-")l。g岸" (3)其中,/7(1l力,/l)滿足混合高斯分布形式,艮口似 Afp(xi/ah2M義"i^a)-2;c,A(zi/a) (4) 其中,/表示第/個混合分量,c,表示各個混合分量所占的權重。
全文摘要
說話人識別中不同語音編碼影響的補償方法,它涉及一種在因特網上對說話人識別語音編碼不匹配時的補償方法,以解決在說話人識別中,訓練語音和測試語音編碼不匹配造成說話人識別性能下降的問題。本方法將說話人在標準編碼方式下的語音信號進行特征處理和最大期望算法訓練得到的標準編碼方式下的說話人模型作為匹配對象庫;輸入待識別說話人的語音信號,進行特征提取得到特征矢量序列;在特征序列中選其前T幀得到序列進行MAP算法自適應獲得當前編碼和標準編碼的偏差;用獲得的當前編碼和標準編碼偏差對原特征序列作調整補償,得到新特征矢量序列;用新特征矢量序列分別與標準編碼方式下的說話人模型進行匹配和判決獲得識別結果。
文檔編號G10L17/00GK101315771SQ200810064669
公開日2008年12月3日 申請日期2008年6月4日 優先權日2008年6月4日
發明者李雪林, 韓紀慶 申請人:哈爾濱工業大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影