專利名稱:用于生成語音譜的方法
技術領域:
本發明通常涉及一種語音合成。具體來說,但并不是排他的,本發明涉及使用與語音識別系統關聯的、諸如隱馬爾可夫模型(HMM) 狀態的模型狀態來提供合成的語音反饋。
背景技術:
許多語音識別系統將輸入言語匹配于存儲在數據庫中的聲學模 型。其后,匹配的聲學模型與詞典數據庫中的條目關聯,從而完成文 字和語句識別。聲學模型通常包括隱馬爾可夫模型(HMM) 。 HMM 是統計描述,包括均值和方差矢量,其描述諸如文字和音素的語音單 元。其后,HMM模式匹配用于確定語音識別數據庫中的聲學模型是 否匹配于輸入言語。HMM通常是基于包括被稱為高斯混合的一些復 高斯概率分布函數(PDF)的概率函數的。因此,HMM模式匹配可 包括匹配高斯混合的處理。通常將語音識別系統分類為與揚聲器無關的或與揚聲器相關的。 揚聲器無關系統被設計為識別許多揚聲器的語音;而揚聲器相關系統 被訓練為識別一個揚聲器或僅少量揚聲器的語音。揚聲器無關系統通 常包括包含從多個訓練揚聲器的語音得到的HMM的聲學數據庫。從 訓練揚聲器的語音得到的HMM期望表示在較大的一組揚聲器中發現 的語音模式。這樣的系統通常比揚聲器相關系統的精度低,因為必須 在語音模型中進行折衷以容納大量語音屬性,并且揚聲器無關系統沒 有被調諧到任意特定揚聲器的特有語音屬性上。揚聲器相關系統被調諧為識別特定語音模式和各個揚聲器的特 有語音屬性。通常揚聲器在訓練程序期間將包括各種語音模式的腳本 讀入系統。其后,訓練語音與腳本進行調準(align),從而系統可調
諧到揚聲器的特有語音屬性,因此,系統將在語音識別期間更精確的 識別揚聲器的語音。然而,在許多人可能需要使用特定語音識別系統 的情況下,揚聲器相關系統通常是不期望的。例如,揚聲器無關語音 識別系統可以是在諸如移動電話的電子設備中是優選的,以使多個用 戶能發布口頭命令,從而呼叫特定電話號碼,或指示其后由電話識別 的口語消息。存在用于改進揚聲器無關語音識別系統的性能的各種技術。例 如,在線揚聲器適配技術使揚聲器無關聲學模型能夠在用于特定個人 的語音特性期間被調諧。在使用期間的在線揚聲器適配可與離線揚聲 器適配對照,例如揚聲器相關系統的上述訓練處理,其中,用戶將預 先定義的腳本寫入系統,從而在使用之前訓練系統來識別其語音。然而,在運行在移動電話中的語音識別系統的上述示例中,因為 用戶可使用僅用于非常簡短的周期的電話的語音識別特征,例如發布 短的口頭命令或指示單個短文本消息,所以在線揚聲器視頻可能是無 效的。在這樣的情況下,在線揚聲器適配處理在完成識別任務之前可 能沒有時間進行收斂。因此,在線揚聲器適配處理沒有改進移動電話 的語音識別系統。此外,諸如交通和人群噪聲的、通常與移動電話關 聯的噪聲背景環境可使得在線揚聲器適配處理難以收斂。用于改善揚聲器無關語音識別系統的另 一技術涉及聽覺反饋處 理,其中,用戶可聽見由語音識別系統識別的說出的文字或短語的合 成的語音回放。因此,用戶能夠立即得知系統是否已經精確地接收并 識別語音輸入。這些聽覺反饋處理通常涉及將用于語音識別的隱馬爾可夫模型(HMM)轉換為可在揚聲器上播放的合成語音譜。然而, 為了通過使用諸如移動電話的最緊致的電子設備的有限處理和存儲能 力來有效地進行工作,聽覺反饋處理需要高效且低復雜性的算法。發明內容根據一方面,本發明是一種用于從輸入文字生成語音謙的方法, 該方法包括:將與輸入文字關聯的音素的長度與多個模型狀態相調準。 其后,通過為所述多個模型狀態中的每一狀態從多混合高斯密度模型 狀態中選擇混合來生成狀態序列。接下來,通過使用狀態序列為輸入 文字生成語音參數序列。其后,將語音參數序列轉換為語音謙。因此,本發明的實施例用于通過啟用涉及輸入文字的有效音頻反 饋來改進語音識別系統的值和語音識別精度。本發明的實施例例如可 結合到各種類型的語音識別系統中,并且在結合有語音識別能力的、諸如揚聲器無關移動電話或個人數字助理(PDA)的手持電子設備中 尤其有用。高效算法的使用節約了手持電子設備的有限的電源、存儲 器和處理器資源。
為了容易理解本發明并將其付諸實踐效果,現將對參照附圖示出 的示例性實施例進行描述,其中,在所有的各個示圖中,相同的標號 指的是相同或功能相似的部件。根據本發明,以下的附圖和詳細描述 被合并到此并形成說明書的一部分,并用于進一步示出實施例并解釋 各種原理和優點,其中圖1是示出根據本發明的一些實施例的用于從輸入文字生成語音 謙的方法的復合流程圖;圖2是示出根據本發明的一些實施例的將語音參數序列轉換為語 音謙的一般流程圖;以及圖3是示出根據本發明的一些實施例的從輸入文字生成語音謙的 方法一般流程圖。本領域技術人員應理解,為了簡單和簡明而示出附圖中的部件, 所述部件無需按比例繪制。例如,可將附圖中的一些部件的尺寸相對 于其它部件進行放大,以有助于增進對本發明的實施例的理解。
具體實施方式
在詳細描述根據本發明的實施例之前,應注意,實施例主要在于 涉及從輸入文字生成語音謙的方法步驟和裝置組件的組合。因此,已
經通過附圖中的傳統符號適當地表示裝置組件和方法步驟,僅示出與 理解本發明的實施例有關的那些具體細節,從而不會因為對于受益于 此處的描述的本領域普通技術人員顯而易見的細節而使該公開模糊。在該文檔中,諸如左和右、第一和第二等的關系術語可僅用于對 一個實體或行動與另一實體或行動進行區分,而無需要求或暗示在這 些實體或行動之間的任何實際的這種關系或順序。術語"包括"或其任 意其它變化傾向于覆蓋非排他的包含,從而包括一列元素的處理、方 法、物品或設備不僅包括那些元素,而且可包括對于這些處理、方法、 物品或設備來說未明顯列出或固有的其它元素。在沒有更多約束的情 況下,在"包括......,,之后的元素并不排除在包括該元素的處理、方法、物品或設備中的其它相同元素的存在。本發明提供一種可將從模型狀態生成的語音參數序列轉換為可 用于生成可理解的合成語音的逐幀謙的低復雜性算法。該算法可包括用于對與隱馬爾可夫模型(HMM)狀態關聯的數據進行操作的逆快 速傅立葉變換(IFFT)。合成的語音例如可播放為對電子設備的用戶 的反饋,以確認語音識別系統的精度。本發明的一些實施例還包括比 現有技術更少處理器強度的高效算法,因此節約了諸如移動電話、個 人數字助理(PDA)和筆記本計算機的手持電子設備的有限的功率、 存儲器和處理器資源。高效算法用于將與輸入文字關聯的音素的長度 與多個隱馬爾可夫模型(HMM)狀態進行調準,從多混合高斯密度 HMM狀態中選擇合適的混合,并將語音參數序列轉換為語音謙,該 算法使得本發明的實施例能夠提供比現有技術改進的性能。下面詳細 描述該算法的元素。參照圖l,這是根據本發明一些實施例示出用于從輸入文字生成 語音譜的方法100的復合流程圖。首先,在步驟105,將輸入文字轉 換為諸如HMM序列的模型序列。可從語音識別聲學模型中選擇合適 的HMM。基于在輸入文字中的每一音素的持續時間,可將HMM逐 幀擴展為HMM序列,例如,考慮文字"Mary",可將其劃分為以下音素/m eh r iy/,可7
從諸如"k-m+ih"、 "m-eh+r"、 "r+iy"、 "r-iy,,的聲學模型中選擇涉及 文字Mary的合適的HMM。其后確定每一音素的持續時間。例如, 音素"m"具有九幀的持續時間,以及音素"eh,,具有十一幀的持續時間。 因此,可構造逐幀HMM序列,例如"k-m+ih"、 "k-m+ih"、 "k-m+ih"、 "k-m+ih"、 "k畫m+ih,'、 "k-m+ih"、 "k-m+ih"、 "k-m+ih"、 "k-m+ih"、 "m-eh+r"、等,其中,與音素"eh"關聯的HMM"m-eh+r"重復11幀。 其后,HMM序列提供用于生成語音謙的算法的輸入。在步驟110,將與輸入文字關聯的音素的長度與多個HMM狀態 相調準。例如,可在揚聲器無關語音識別(SISR)聲學模型中使用簡 單的左到右(left-to-right)模型。通常,關于依賴于上下文的音素 HMM,"狀態2"可表示從左音素到當前音素的過渡狀態,"狀態4"可 表示從當前音素到右音素的過渡狀態。圖1中以圃團115示出這些狀 態。HMM的狀態2或狀態4的持續時間可取決于左清晰度或右清晰 度。例如,"k-m+ih,,可用于輸入文字Mary中的當前音素"m"。在當 前音素"m"之前的左上下文與當前音素"m"有很大不同,在當前音素 "m,,之后的右上下文與當前音素"m,,相似。因此,狀態2可比正常長 度短,而狀態4可等于正常長度。因此,HMM"k-m+ih,,三個狀態的 可以分別是一幀、五幀和三幀。其后,可將逐幀HMM序列如下轉換 為HMM狀態序列"k-m+ih,,狀態2; "k-m+ih,,狀態3; "k-m+ih,,狀態3; "k-m+ih,,狀態3; "k-m+ih"狀態3; "k-m+ih,,狀態3; "k-m+ih,,狀態4; "k-m+ih,,狀態4; "k-m+ih,,狀態4; "m-eh+r,,狀態2;......在步驟120,為每一多混合高斯密度HMM狀態選擇混合。HMM 狀態通常包括六個或十二個混合。在HMM中,每一混合例如表示不 同的揚聲器、不同的環境、不同的上下文或其它類型的變量。通常, 僅有一些混合可合成可接受的質量的語音。因此,本發明的實施例為 每一 HMM狀態從數據庫125中預先選擇默認的混合以保證有可接受 的質量的合成語音。例如,基于經驗數據,具有最大混合權重的混合 可被選擇用于狀態3。對于狀態2和狀態4,可在大的文字語彬corpus) 中通過自動計算為每一狀態2和狀態4定義默認狀態。狀態2和狀態4分別定義從左音素到當前音素的過渡狀態和從當 前音素到右音素的狀態。為了實現可接受的質量的合成的語音,對于 某些HMM,不同的狀態2和狀態4混合可用于不同的上下文。它們 被稱為例外狀態2和例外狀態4混合。通過使用在大的文字語料中的 自動計算,可為各個HMM對定義例外狀態2和例外狀態4混合。圖 1中以圓團130示出這些混合。在步驟135 ,在HMM狀態序列中為每一 HMM選擇合適的HMM 狀態和適合的混合之后,從單個高斯密度混合中通過使用統計特性為 輸入文字生成諸如Mel頻率倒謙系數(MFCC )序列的語音參數序列。 如本領域所知,MFCC序列是表示聲音的特征,圖1中以矩形140示 出該情況。在步驟145,通過使用逐幀音調和能量信息將語音參數序列轉換 為語音i普。圖1示出語音謙的曲線表示150。下面提供涉及語音參數 序列的的轉換的進一步的細節。參照圖2,根據本發明一些實施例,普通流程圖示出用于將語音 參數序列轉換為語音譜的步驟145的細節。在步驟205,使用先前幀 的相位以及當前幀的音調來合成與諧波頻率對應的諧波相位。在步驟 210,根據當前幀的MFCC序列以及根據當前幀的音調來估計諧波幅 度。使用對數和離散余弦變換(DCT)運算的數學逆運算(即反對數 和逆離散余弦變換(IDCT)運算)來估計幅度。可由預先定義的韻律 (prosodic)模型來提供諸如音素持續時間、逐幀音調以及逐幀能量 的韻律信息。在步驟215,使用與來自步驟205和210的相位和幅度結合的復 諧波來得到線性預測編碼(LPC)模型。在步驟220,使用從全極點 (all-pole)謙包絡建模輸出的LPC模型參數將后濾波應用于當前幀
的諧波幅度。可將LPC譜平滑用于移除多個模型狀態中的狀態之間的 不連續性。在步猓225,使用來自從全極點謙包絡建模輸出的當前楨的LPC 模型參數的線性插值,并使用來自先前幀的LPC模型參數,而生成經 插值和平滑的LPC參數。在步驟230,經插值和平滑的LPC參數用 于生成平滑的復諧波。在步驟235,確定當前幀是否是狀態邊界幀,例如在處于狀態3 的幀之前的處于狀態2的最后的幀,或在處于狀態3的幀之后的處于 狀態4的第一幀。在步驟240,根據幀能量對諧波幅度進行比例調整 和歸一化。如果在步驟235確定當前幀是狀態邊界幀,則在步驟240, 對從步驟230輸出的平滑的復諧波進行比例調整和歸一化。然而,如 果在步驟235確定當前幀不是狀態邊界幀,則在步驟240,對從步驟 220輸出的復諧波進行比例調整和歸 一化。在步驟245,使用具有漢明(Hamming)窗的巻積從由步驟240 輸出的經比例調整和歸一化的復諧波的正弦波來構造短時傅立葉變換 (STFT)鐠。其后,可在諸如移動電話、個人數字助理(PDA)或筆 記本計算機的電子設備的揚聲器上播放得到的STFT謙,從而生成合 成的語音信號。參照圖3,根據本發明的一些實施例,普通流程圖示出用于從輸 入文字生成語音謙的方法。在步驟305,基于在電子設備的麥克風處 接收的說出的言語生成輸入文字。例如,在諸如移動電話的手持電子 設備中使用揚聲器無關語音識別(SISR)系統來生成輸入文字。在步驟310,使用本領域公知的傳統語音識別技術將輸入文字轉 換為模型序列。例如,基于輸入文字中的每一音素的持續時間,可將 HMM逐幀擴展為HMM序列。在步驟315,將與輸入文字關聯的音素的長度與多個模型狀態相 調準。例如,如上所述,簡單左到右模型可用于將輸入文字與多個 HMM狀態相調準的SISR聲學模型。在步驟320,通過從多混合高斯密度模型狀態中為多個模型狀態
中的每一狀態選擇混合來生成狀態序列。例如,可為每一HMM狀態 從數據庫中預先選擇具有特定混合權重的默認混合,從而確保合成的語音有可接受的質量。在步驟325,通過使用狀態序列為輸入文字生成語音參數序列。 例如,在為HMM狀態序列中的每一 HMM選擇合適的HMM狀態和 合適的混合之后,通過使用來自單個高斯密度混合的統計特性為輸入 文字生成諸如MFCC序列的語音參數序列。在步驟330,將語音參數序列轉換為語音謙。例如,根據以上描 述的步驟145使用逐幀音調和能量信息將語音參數序列轉換為語音 鐠o最后,在步驟335,在電子設備的揚聲器上播放語音謙。例如, 在移動電話上將輸入文字播放為對語音識別應用的用戶的反饋,從而 改善并確認語音識別精度。因此,本發明的實施例可用于通過能夠進行涉及輸入文字的有效 音頻反饋來改進語音識別系統的值和語音識別精度。本發明的實施例 例如可合并到各種類型的語音識別系統中,并且對于結合揚聲器無關 語音識別能力的、諸如移動電話和個人數字助理(PDA)的手持電子 設備尤其有用。使用在此描述的有效算法節約了手持電子設備的有限 功率、存儲器和處理器資源。以上的詳細描述僅提供示例性實施例,并非期望限制本發明的范 圍、應用性或配置。此外,示例性實施例的詳細描述向本領域技術人 員提供能夠用于實現本發明示例性實施例的描述。應理解,在不脫離 所附權利要求闡述的本發明的精神和范圍的情況下,可在元件和步驟 的功能和布置上進行各種改變。應理解,在此描述的本發明的實施例 可包括一個或多個傳統的處理器和結合特定非處理器電路控制一個或 多個處理器的唯一存儲的程序,從而實現在此描述的從輸入文字生成 語音譜的一些、大部分或所有功能。非處理器電路可包括無線電接收 機、無線地發送器、信號驅動器、時鐘電路、電源電路以及用戶輸入 設備,但不限于此。這樣,這些功能可解釋為用于從輸入文字生成語 音鐠的方法的步驟。此外,可由不具有存儲的程序指令的狀態機或以 一個或多個專用集成電路來實現一些或全部功能,在所述集成電路中, 將特定功能中的每一功能或某些組合實現為用戶邏輯。當然,可使用 兩種方法的組合。因此,已經在此描述了用于這些功能的方法和裝置。 此外,雖然例如可能由可用時間、當前技術和經濟考慮來激發可能重 大的努力和許多設計選擇,但期望本領域技術人員當由在此公開的概 念和原理教導時能夠容易地以最少的實驗生成這些軟件指令。在前述說明書中,已經描述了本發明的特定實施例.然而,本領 域技術人員應理解,在不脫離在下面的權利要求中闡述的本發明的范 圍的情況下,可進行各種修改和改變。因此,說明書和附圖將被看作 是示例性的,而不是限制性的,所有這些修改都期望被包括在本發明 的范圍中。可導致任何利益、優點或解決方案產生或變得更加明確的 利益、優點、問題解決方案以及任何元素都不應理解為是對于任意或 所有權利要求的關鍵的、要求的或必需的特征或元素。本發明僅由包 括在該申請的未決期間進行的任意修改的所附權利要求以及權利要求的等同物來限定。
權利要求
1、一種用于從輸入文字生成語音譜的方法,該方法包括將與輸入文字關聯的音素的長度與多個模型狀態相調準;通過為所述多個模型狀態中的每一狀態從多混合高斯密度模型狀態中選擇混合來生成狀態序列;通過使用狀態序列為輸入文字生成語音參數序列;以及將語音參數序列轉換為語音譜。
2、 如權利要求1所述的方法,其中,所述模型狀態包括隱馬爾 可夫模型狀態。
3、 如權利要求1所述的方法,其中,將語音參數序列轉換為語 音諍的步驟包括使用線性預測編碼謙平滑來消除所述多個模型狀態 中的狀態之間的不連續性。
4、 如權利要求1所述的方法,其中,為所述多個模型狀態中的 每一狀態從多混合高斯密度模型狀態中選擇混合的步驟包括為使用 文字語料所計算的每一模型狀態定義默認混合。
5、 如權利要求1所述的方法,其中,所述語音參數序列是Mel 頻率倒謙系數序列。
6、 如權利要求1所述的方法,其中,將語音參數序列轉換為語 音謙的步驟包括使用逐幀音調和能量信息。
7、 如權利要求1所述的方法,其中,將語音參數序列轉換為語 音謙的步驟包括得到線性預測編碼模型。
8、 如權利要求1所述的方法,其中,將語音參數序列轉換為語 音讒的步驟包括處理先前幀的相位、當前幀的音調以及當前幀的 Mel頻率倒謙系數。
9、 如權利要求1所述的方法,其中,從多混合高斯密度模型狀 態中選擇的混合包括最大混合權重。
10、 如權利要求l所述的方法,還包括基于在電子設備的麥克風處接收的話語發音生成輸入文字;將輸入文字轉換為模型序列;以及 在電子設備的揚聲器上播放語音謙。
全文摘要
一種用于從輸入文字生成語音譜的方法可用于有效地提供涉及話音識別處理的音頻反饋。該方法包括將與輸入文字關聯的音素的長度與多個模型狀態相調準(步驟315)。其后,通過為所述多個模型狀態中的每一狀態從多混合高斯密度模型狀態中選擇混合來生成狀態序列(步驟320)。接下來,通過使用狀態序列為輸入文字生成語音參數序列(步驟325)。其后,將語音參數序列轉換為語音譜(步驟330)。
文檔編號G10L13/00GK101165776SQ20061013566
公開日2008年4月23日 申請日期2006年10月20日 優先權日2006年10月20日
發明者曹振海, 祖漪清 申請人:摩托羅拉公司