專利名稱:對寬帶聲碼器的幀進行時間彎曲的制作方法
技術領域:
本發明大體來說涉及對聲碼器中的幀進行時間彎曲(即,擴展或壓縮),且更特 定而言涉及對寬帶聲碼器中的幀進行時間彎曲。
背景技術:
時間彎曲在包交換網絡中具有若干應用,其中聲碼器包可不同步地到達。盡管時 間彎曲可在聲碼器內部或外部執行,但在聲碼器中執行時間彎曲可提供若干優點,例 如,經彎曲幀的質量更好且計算負載減小。
發明內容
本發明包括一種通過操縱語音信號來對語音幀進行時間彎曲的設備及方法。在一
個方面中,揭示一種對第四代聲碼器(4GV)寬帶聲碼器的碼激勵線性預測(CELP) 及噪聲激勵線性預測(NELP)幀進行時間彎曲的方法。更具體來說,對于CELP幀, 所述方法通過分別添加或刪除音調周期以擴展或壓縮語音來維持語音階段。借助此方 法,可在殘余中(即在合成之前)對低頻帶信號進行時間彎曲,而可在合成之后在8 kHz域中對高頻帶信號進行時間彎曲。所揭示的方法可應用于將CELP及/或NELP 用于低頻帶且/或使用分頻帶技術以對低頻帶及高頻帶進行單獨編碼的任何寬帶聲碼 器。應注意,4GV寬帶的標準名稱為EVRC-C。
鑒于以上所述,本發明所揭示的特征大體來說涉及用于傳送語音的一個或一個以 上經改善系統、方法及/或設備。在一個實施例中,本發明包括一種傳送語音的方法, 其包括將殘余低頻帶語音信號時間彎曲至所述殘余低頻帶語音信號的經擴展或經壓 縮版本;將高頻帶語音信號時間彎曲至所述高頻語音信號的經擴展或經壓縮版本;及 合并所述經時間彎曲的低頻帶及高頻帶語音信號以給出完整的經時間彎曲的語音信 號。在本發明一個方面中,所述殘余低頻帶語音信號在所述殘余低頻帶信號的時間彎 曲后合成,而在高頻帶中,合成在高頻帶語音信號的時間彎曲之前執行。所述方法可 迸一步包括對語音段進行分類及對所述語音段進行編碼。對所述語音段的編碼可以是 碼激勵線性預測、噪聲激勵線性預測或1/8 (寂靜)幀編碼中的一者。所述低頻帶可 表示高達約4 kHz的頻帶,且所述高頻帶可表示從約3.5 kHz到7 kHz的頻帶。
在另一實施例中,揭示一種具有至少一個輸入及至少一個輸出的聲碼器,所述聲 碼器包括編碼器,其包括濾波器,所述濾波器具有可操作地連接到所述聲碼器的輸入的至少一個輸入及至少一個輸出;及解碼器,其包括合成器,所述合成器具有可操 作地連接到所述編碼器的至少一個輸出的至少一個輸入及可操作地連接到所述聲碼 器的至少一個輸出的至少一個輸出。在此實施例中,所述解碼器包括存儲器,其中所 述解碼器適于執行所述存儲器中所存儲的軟件指令,所述軟件指令包括將殘余低頻 帶語音信號時間彎曲至所述殘余低頻帶語音信號的經擴展或經壓縮版本;將高頻帶語 音信號時間彎曲至所述高頻帶語音信號的經擴展或經壓縮版本;及合并所述經時間彎 曲的低頻帶及高頻帶語音信號以給出完整的經時間彎曲的語音信號。所述合成器可包 括用于合成經時間彎曲的殘余低頻帶語音信號的裝置;及用于在對其進行時間彎曲 之前合成所述高頻帶語音信號的裝置。所述編碼器包括存儲器且可適于執行所述存儲 器中所存儲的軟件指令,所述指令包括將語音段分類為1/8 (寂靜)幀、碼激勵線 性預測或噪聲激勵線性預測。
根據以下詳細說明、權利要求書及圖式,本發明的其它適用范圍將變得明顯。然 而,應了解,盡管所述詳細說明及具體實例指示本發明的優選實施例,但其僅以圖解 說明的方式給出,因為所屬領域的技術人員將明了歸屬于本發明精神及范圍內的各種 變化及修改。
根據下文給出的詳細說明、所附權利要求書及附圖,可更加完整地理解本發明, 其中
圖1為線性預測編碼(LPC)聲碼器的方塊圖; 圖2A為含有濁音語音的語音信號; 圖2B為含有清音語音的語音信號; 圖2C為含有瞬態語音的語音信號;
圖3為圖解說明對低頻帶及高頻帶的時間彎曲的方塊圖; 圖4A描繪通過內插來確定音調延遲; 圖4B描繪識別音調周期;
圖5A表示呈音調周期形式的原始語音信號; 圖5B表示使用重疊/添加來擴展的語音信號;且
圖5C表示使用重疊/添加來壓縮的語音信號。
具體實施例方式
本文中使用"說明性"一詞來意指"用作實例、示例、或圖解說明"。本文中描 述為"說明性"的任何實施例未必解釋為比其它實施例更優選或有利。
時間彎曲在包交換網絡中具有若干應用,其中聲碼器包可不同步地到達。盡管時 間彎曲可在聲碼器內部或外部執行,但在聲碼器中執行時間彎曲可提供若干優點,例如,經彎曲幀的質量更好且計算負載減小。本文中所描述的技術可容易地應用于使用
類似技術(例如,4GV-寬帶,其標準名稱為EVRC-C)來對話音數據進行聲編碼的其 它聲碼器。
聲碼器功能性的說明
人類話音由兩個分量構成。 一個分量包括對音調敏感的基波,且另一個是對音調 不敏感的固定諧波。所感知的聲音的音調是耳朵對頻率的響應,S口,對于大多數實際 用途來說,音調即是頻率。諧波分量使個人話音具有獨特的特性。其隨聲帶及隨聲道 實際形狀而改變,且被稱為共振峰。
人類話音可由數字信號s(n) IO來表示(參見圖l)。假定s(n) IO是在典型談話
期間獲得的數字語音信號,其包含不同的口聲及寂靜周期。可如圖2A-2C中所示將語 音信號s(n)10分成若干幀20。在一個方面中,以8kHz對s(n)10進行數字取樣。在 其它方面中,可以16 kHz或32 kHz或某一其它取樣頻率對s(n) 10進行數字取樣。
當前的編碼方案通過移除語音中所固有的所有自然冗余(即,相關的元素)將數 字化語音信號IO壓縮成低位速率信號。語音通常表現出由唇及舌頭的機械動作而引 起的短期冗余,且表現出由聲帶的顫動而引起的長期冗余。線性預測編碼(LPC)通 過移除所述冗余來對語音信號IO進行濾波,從而產生殘余語音信號。然后,其將所 形成的殘余信號模擬成白高斯(Gaussian)噪聲。可通過對若干過去樣本的和進行加 權來預測語音波形的取樣值,所述若干過去樣本中的每一者均被線性預測系數所乘。 因此,線性預測編碼器通過傳輸濾波系數及量化噪聲而非傳輸完整的帶寬語音信號 IO來實現減小的位速率。
圖1中圖解說明LPC聲碼器70的一個實施例的方塊圖。LPC的功能是使有限持
續時間內原始語音信號與所估計語音信號之間的平方差的和最小化。此可產生唯一一
組預測系數,在正常情況下每一幀20地對所述預測系數進行估計。幀20通常為20 ms
長。時變數字濾波器75的轉移函數可由下式給出
G
其中預測系數可由ak表示且增益由G表示。
所述求和從k-l計算到k-p。如果使用LPC-10方法,則p-10。此意味著僅 前10個系數被傳輸到LPC合成器80。最常用來計算所述系數的兩種方法是(但不限 于)協方差方法及自相關方法。
典型聲碼器產生20微秒持續時間的幀20,其中包含160個優選的8 kHz速率下 的樣本或320個16 kHz速率下的樣本。此幀20的經時間彎曲壓縮版本具有小于20 微秒的持續時間,而經時間彎曲擴展版本則具有大于20微秒的持續時間。當在包交 換網絡上發送話音數據(其會將延遲抖動引入話音包的傳輸中)時,話音數據的時間 彎曲具有顯著優點。在此類網絡中,可使用時間彎曲來減輕此延遲抖動的影響并產生 看似"同步"的話音流。本發明的實施例涉及一種用于通過操縱語音殘余來對聲碼器70內的幀20進行時 間彎曲的設備及方法。在一個實施例中,本方法及設備用于4GV寬帶中。所揭示的 實施例包括用來擴展/壓縮使用碼激勵線性預測(CELP)或噪聲激勵線性預測(NELP) 編碼的不同類型的4GV寬帶語音段的方法及設備或系統。
術語"聲碼器"70通常是指通過提取基于人類語音產生模型的參數來壓縮濁音 語音的裝置。聲碼器70包含編碼器204及解碼器206。編碼器204對傳入語音進行 分析并提取相關的參數。在一個實施例中,編碼器包括濾波器75。解碼器206使用 其經由傳輸通道208從編碼器204接收的參數來合成所述語音。在一個實施例中,所 述解碼器包括合成器80。語音信號10常常被劃分成若干數據幀20并由聲碼器70進 行塊處理。
所屬領域的技術人員應認識到,人類語音可以許多不同的方式來分類。三種常規 語音分類為濁音、清音聲音及瞬態語音。
圖2A為濁音語音信號s(n) 402。圖2A顯示濁音語音中一個可測量的普通性質, 其被稱為音調周期100。
圖2B為清音語音信號s(n) 404。清音語音信號404類似有色噪聲。
圖2C描繪瞬態語音信號s(n)406, g卩,既不是濁音也不是清音的語音。圖2C中 所示的瞬態語音406的實例可表示清音語音與濁音語音之間的s(n)過渡。這三種分類 并非涵蓋所有的情況。存在許多不同的語音分類,可根據本文中所描述的方法采用不 同的語音分類來實現相當的結果。
4GV寬帶聲碼器
第四代聲碼器(4GV)為在無線網絡上的使用提供了吸引人的特征,此進一步描述 于在2005年5月5日提出申請的名稱為"通過修改殘余對聲碼器內的幀進行時間彎 曲(Time Warping Frames Inside the Vocoder by Modifying the Residual)"的序歹ll號為 11/123,467的共同待決的專利申請案中,所述專利申請案的整體內容以引用方式并入 本文中。這些特征中的某些特征包含在質量與位速率之間進行折衷的能力、當面對 增加的包錯誤率(PER)時更為彈性的聲編碼、更好的擦除隱匿等。在本發明中,揭 示使用分頻帶技術(即,低頻帶及高頻帶單獨地被編碼)對語音進行編碼的4GV寬 帶聲碼器。
在一個實施例中,輸入信號表示以16kHz取樣的寬帶語音。提供分析濾波器組, 以產生以8kHz取樣的窄頻帶(低頻帶)信號及以7kHz取樣的高頻帶信號。此高頻 帶信號表示所述輸入信號中從約3.5 kHz到約7 kHz的頻帶,而低頻帶信號則表示高 達約4kHz的頻帶,且最終的經重構寬帶信號將在帶寬上限制到約7kHz。應注意, 低頻帶與高頻帶之間存在約為500 Hz的重疊,從而允許所述頻帶之間更為漸進的過 渡。
在一個方面中,使用窄頻帶EVRC-B語音編碼器的經修改版本(其為具有20微 秒幀大小的CELP編碼器)來對所述窄頻帶信號進行編碼。來自所述窄頻帶編碼器的幾個信號由高頻帶分析及合成所使用;這些信號為(1)來自窄頻帶編碼器的激勵 (即,量化殘余)信號;(2)經量化的第一反射系數(作為窄頻帶信號的頻譜傾斜 的指示符)(3)經量化的自適應碼本增益;及(4)經量化的音調滯后。
4GV寬帶中所使用的經修改EVRC-B窄頻帶編碼器對如下三種不同幀類型中的
一種類型的每一幀話音數據進行編碼碼激勵線性預測(CELP);噪聲激勵線性預
測(NELP);或寂靜第l/8速率幀。
CELP用來對大多數的語音進行編碼,其中包含周期性的語音及具有差周期性的 語音。通常,由經修改EVRC-B窄頻帶編碼器使用CELP對約75%的非寂靜幀進行編 碼。
NELP用來對特性類似于噪聲的語音進行編碼。可通過在所述解碼器處產生隨機 信號并向其施加適當的增益來重構此類語音段的類似于噪聲的特性。
第l/8th速率幀用來對背景噪聲進行編碼,g卩,使用者不在談話的周期。 時間彎曲4GV寬帶幀
由于4GV寬帶聲碼器對低頻帶及高頻帶單獨地進行編碼,因此在對所述幀進行 時間彎曲時遵循同一原理。使用如上文提及的名稱為"通過修改殘余對聲碼器內的幀 進行日寸間彎曲(Time Warping Frames Inside the Vocoder by Modifying the Residual)" 的共同待決的專利申請案中所描述的類似技術來對所述低頻帶進行時間彎曲。
參照圖3,其中顯示應用于殘余信號30的低頻帶彎曲32。在殘余域中進行時間 彎曲32的主要原因是此可允許對經時間彎曲的殘余信號應用LPC合成34。所述 LPC系數在語音效果如何方面起到重要作用,且在彎曲32之后應用合成34可確保正 確的LPC信息維持在所述信號中。如果在所述解碼器之后完成時間彎曲,則另一方 面,LPC合成已在時間彎曲之前執行。因此,所述彎曲程序可改變所述信號的LPC 信息,尤其是在音調周期估計尚未極為準確的情況下。
當語音段為CELP時對殘余信號的時間彎曲
為彎曲所述殘余,所述解碼器使用所述已編碼幀中含有的音調延遲信息。所述音 調延遲實際上是所述幀末尾處的音調延遲。此處應注意,即使在周期性幀中,所述音 調延遲也會稍微地變化。可通過在最后一個幀末尾的音調延遲與當前幀末尾處的音調 延遲之間進行內插來估計所述幀中任何點處的音調延遲。此顯示于圖4中。 一旦已知 所述幀中所有點處的音調延遲,即可將所述幀劃分成若干音調周期。可使用所述幀中 各個點處的音調延遲來確定音調周期的邊界。
圖4A顯示如何將所述幀劃分成其音調周期的實例。例如,第70號樣本具有約 為70的音調延遲且第142號樣本具有約為72的音調延遲。因此,音調周期為從[l-70] 及從[71-142]。此圖解說明于圖4B中。
一旦所述幀已被劃分成若干音調周期,即可接著重疊/添加這些音調周期以增大/ 減小所述殘余的大小。所述重疊/添加技術為已知技術,且圖5A-5C顯示如何使用其 來擴展/壓縮所述殘余。或者,如果需要擴展所述語音信號,則可重復所述音調周期。例如,在圖5B中, 可重復音調周期PP1 (而不是與PP2重疊-添加)來產生額外的音調周期。
此外,可與產生所需量的擴展/壓縮所需次數相同地完成音調周期的重疊/添加及 /或重復。
參照圖5A,圖中顯示由4個音調周期(PP)構成的原始語音信號。圖5B顯示 可如何使用重疊/添加來擴展此語音信號。在圖5B中,對音調周期PP2及PP1進行重 疊/添加,以使PP2的影響繼續減少而PP1的影響不斷增加。圖5C圖解說明如何使用 重疊/添加來壓縮所述殘余。
在音調周期不斷變化的情形下,所述重疊-添加技術可需要合并兩個長度不相等 的音調周期。在此情形下,可通過在對兩個音調周期進行重疊/添加之前對準其峰值 來實現更好的合并。
最后,通過所述LPC合成發送所述經擴展/壓縮殘余。
一旦所述低頻帶被彎曲,即需要使用來自所述低頻帶的音調周期來彎曲所述高頻 帶(即,以供擴展),添加由若干樣本構成的音調周期,同時移除音調周期以進行壓 縮。
用于彎曲所述高頻帶的程序不同于所述低頻帶。返回參照圖3,所述高頻帶并非 在所述殘余域中彎曲,而是,彎曲38在高頻帶樣本的合成36之后完成。之所以如此 是因為所述高頻帶以7kHz取樣,而所述低頻帶以8kHz取樣。因此,當所述取樣速 率如在所述高頻帶中那樣為7kHz時,所述低頻帶(以8kHz取樣)的音調周期可變 為分數數目的樣本。作為一實例,如果所述音調周期在低頻帶中為25,則在高頻帶 的殘余域中,此將需要從高頻帶的殘余中添加/移除25*7/8 = 21.875個樣本。很明顯, 由于無法產生分數數目的樣本,因此在將高頻帶重新取樣到8kHz之后對其進行彎曲 38,這是在合成36之后的情形。
一旦所述低頻帶被彎曲32,則可將未經彎曲的低頻帶激勵(由160個樣本組成) 傳遞到所述高頻帶解碼器。使用此未經彎曲的低頻帶激勵,所述高頻帶解碼器產生 140個7 kHz的高頻帶樣本。然后,通過合成濾波器36傳遞這140個樣本并將其重新 取樣到8 kHz,從而給出160個高頻帶樣本。
然后,使用來自所述低頻帶的音調周期及用于彎曲低頻帶CELP語音段的重疊/ 添加技術對160個8 kHz的樣本進行時間彎曲38。
最后,添加或合并所述高頻帶及低頻帶以給出完整的經彎曲的信號。
當語音段為NELP時對殘余信號的時間彎曲
對于NELP語音段,所述編碼器僅對LPC信息及低頻帶的語音段的不同部分的 增益進行編碼。可采用各自為16個PCM樣本的"段"對所述增益進行編碼。因此, 可將所述低頻帶表示為IO個己編碼的增益值(每16個語音樣本具有一個增益值)。
所述解碼器通過產生隨機值來產生所述低頻帶殘余信號,且然后對其施加相應的 增益。在此情形下,不存在音調周期的概念,且同樣,所述低頻帶擴展/壓縮并非必須為音調周期的粒度。
為擴展/壓縮經NELP編碼的幀的低頻帶,所述解碼器可產生多于/少于10的數 目的段。在此情形下,所述低頻帶擴展/壓縮是依照16個樣本的倍數,從而導致N =16*n 個樣本,其中n為段的數目。在擴展的情況下,所述額外添加的段可采用由前10個 段構成的某一函數的增益。作為一實例,所述額外段可采用第IO段的增益。
或者,所述解碼器可通過對若干組y個(而不是16個)樣本施加10個已解碼增 益來擴展/壓縮經NELP編碼幀的低頻帶,以產生經擴展(y〉16)或經壓縮(y<16) 的低頻帶殘余。
然后,通過所述LPC合成發送所述經擴展/壓縮殘余,以產生所述低頻帶彎曲信
號
一旦所述低頻帶被彎曲,即將所述未彎曲的低頻帶激勵(其由160個樣本構成) 傳遞到所述高頻帶解碼器。使用此未經彎曲的低頻帶激勵,所述高頻帶解碼器產生 140個7 kHz的高頻帶樣本。然后,通過合成濾波器傳遞這140個樣本并將其重新取 樣到8kHz,從而給出160個高頻帶樣本。
然后,以類似于CELP語音段的高頻帶彎曲的方式(即,使用重疊/添加)來對 這160個8 kHz的樣本進行時間彎曲。當對NELP的高頻帶使用重疊/添加時,壓縮/ 擴展的量與用于低頻帶的量相同。換句話說,假定用于重疊/添加方法的"重疊"為 所述低頻帶中擴展/壓縮的量。作為一實例,如果所述低頻帶在彎曲之后產生192個 樣本,則在重疊/添加方法中所使用的重疊周期為192- 160 = 32個樣本。
最后,添加所述高頻帶及低頻帶以給出完整的經彎曲的NELP語音段。
所屬領域的技術人員將了解,可使用各種不同技術及技法中的任一者來表示信息 及信號。例如,整個上述說明中可能提及的數據、指令、命令、信息、信號、位、符 號及碼片可由電壓、電流、電磁波、磁場或磁粒子、光場或光粒子或其任何組合來表 示。
所屬領域的技術人員將進一步了解,結合本文所揭示實施例而描述的各種說明性 邏輯塊、模塊、電路及算法步驟可實施為電子硬件、計算機軟件或二者的組合。為清 晰地圖解說明硬件與軟件的此可互換能力,上文就其功能性大體描述了各種說明性組 件、塊、模塊、電路及步驟。此功能性實施為硬件還是軟件取決于特定應用及施加在 整個系統上的設計約束條件。所屬領域的技術人員可針對每一特定應用以不同方式實 施所描述的功能性,但不應將此類實施方案決定解釋為導致背離本發明的范圍。
結合本文中所揭示實施例所描述的各種說明性邏輯塊、模塊及電路可由如下裝置 來實施或執行通用處理器、數字信號處理器(DSP)、專用集成電路(ASIC)、現 場可編程門陣列(FPGA)或其它可編程邏輯裝置、離散門或晶體管邏輯、離散硬件 組件或經設計以執行本文中所描述功能的其任何組合。通用處理器可以是微處理器, 但另一選擇為,所述處理器還可以是任何常規處理器、控制器、微控制器或狀態機。 處理器還可實施為計算裝置的組合,例如,DSP與微處理器的組合、多個微處理器、一個或一個以上微處理器與DSP核心的聯合,或任何其它此類配置。
結合本文中所揭示實施例所描述的方法或算法的步驟可直接實施在硬件中、由處
理器執行的軟件模塊中或兩者的組合中。軟件模塊可駐留在隨機存取存儲器(RAM)、 快閃存儲器、只讀存儲器(ROM)、電可編程ROM (EPROM)、電可擦除可編程 ROM (EEPROM)、寄存器、硬盤、可抽換式磁盤、CD-ROM或所屬技術領域中已 知的任何其它形式的存儲媒體中。說明性存儲媒體耦合到處理器,以使所述處理器可 從所述存儲媒體讀取信息或將信息寫入其中。在替代方案中,所述存儲媒體可以是所 述處理器的組成部分。所述處理器及存儲媒體可駐留在ASIC中。所述ASIC則可駐 留在用戶終端中。在替代方案中,所述處理器及存儲媒體可作為離散組件駐留在用戶 終端中。
提供上文對所揭示實施例的說明以使所屬領域的技術人員均能夠制作或使用本 發明。所屬領域的技術人員將易于明了對這些實施例的各種修改,且本文所界定的通 用原理可在不背離本發明的精神或范圍的情況下應用于其它實施例。因此,本發明不 希望限定于本文所示實施例,而應賦予其與本文所揭示原理及新穎特征相一致的最寬 廣范圍。
權利要求
1、一種傳送語音的方法,其包括將殘余低頻帶語音信號時間彎曲至所述殘余低頻帶語音信號的經擴展或經壓縮版本;將高頻帶語音信號時間彎曲至所述高頻帶語音信號的經擴展或經壓縮版本;及合并所述經時間彎曲的低頻帶與高頻帶語音信號,以給出完整的經時間彎曲的語音信號。
2、 如權利要求l所述的方法,其進一步包括合成所述經時間彎曲的殘余低頻帶語首f目號o
3、 如權利要求2所述的方法,其進一步包括在對所述高頻帶語音信號進行時間 彎曲之前對其進行合成。
4、 如權利要求3所述的方法,其進一步包括 對語音段進行分類;及 對所述語音段進行編碼。
5、 如權利要求4所述的方法,其中對所述語音段進行編碼包括使用碼激勵線性 預測、噪聲激勵線性預測或1/8幀編碼。
6、 如權利要求4所述的方法,其中所述編碼為碼激勵線性預測編碼。
7、 如權利要求4所述的方法,其中所述編碼為噪聲激勵線性預測編碼。
8、 如權利要求7所述的方法,其中所述編碼包括將線性預測編碼信息編碼為語 音幀的不同部分的增益。
9、 如權利要求8所述的方法,其中針對若干組語音樣本對所述增益進行編碼。
10、 如權利要求9所述的方法,其進一步包括通過產生隨機值且接著將所述增益 應用于所述隨機值來產生殘余低頻帶信號。
11、 如權利要求9所述的方法,其進一步包括將所述線性預測編碼信息表示為所述殘余低頻帶語音信號的IO個經編碼增益值,其中每一經編碼增益值表示16個語音 樣本。
12、 如權利要求7所述的方法,其進一步包括從一未經彎曲的低頻帶激勵信號中 產生所述高頻帶語音信號的140個樣本。
13、 如權利要求7所述的方法,其中所述低頻帶語音信號的所述時間彎曲包括 產生較高/較低數目的樣本,及將語音幀的若干部分的經解碼增益的某一函數應用于 所述殘余且接著對其進行合成。
14、 如權利要求13所述的方法,其中所述將所述語音幀的若干部分的經解碼增 益的某一函數應用于所述殘余包括當擴展所述低頻帶時,將最后一個語音段的增益 應用于額外樣本。
15、 如權利要求7所述的方法,其中所述高頻帶語音信號的所述時間彎曲包括如果壓縮所述高頻帶語音信號,則重疊/添加曾在所述低頻帶中壓縮的相同數目的樣本;及如果擴展所述高頻帶語音信號,則重疊/添加曾在所述低頻帶中擴展的相同數目 的樣本。
16、 如權利要求6所述的方法,其中所述殘余低頻帶語音信號的所述時間彎曲包括估計至少一個音調周期;及在接收所述殘余低頻帶語音信號之后,添加或減去所述音調周期中的至少一者。
17、 如權利要求16所述的方法,其中所述高頻帶語音信號的所述時間彎曲包括 使用來自所述低頻帶語音信號的所述音調周期;如果壓縮所述高頻帶語音信號,則重疊/添加一個或一個以上音調周期;及 如果擴展所述高頻帶語音信號,則重疊/添加或重復一個或一個以上音調周期。
18、 如權利要求6所述的方法,其中所述殘余低頻帶語音信號的所述時間彎曲包括估計音調延遲;將一語音幀劃分成若干音調周期,其中使用所述語音幀中各個點處的所述音調延遲來確定所述音調周期的邊界;如果壓縮所述殘余低頻帶語音信號,則重疊/添加所述音調周期;及如果擴展所述殘余低頻帶語音信號,則重疊/添加或重復一個或一個以上音調周期。
19、如權利要求18所述的方法,其中所述高頻帶語音信號的所述時間彎曲包括: 使用來自所述低頻帶語音信號的所述音調周期; 如果壓縮所述高頻帶語音信號,則重疊/添加所述音調周期;及 如果擴展所述高頻帶語音信號,則重疊/添加或重復一個或一個以上音調周期。
20、如權利要求18所述的方法,其中對所述音調延遲的所述估計包括在最后一 個幀末尾的音調延遲與當前幀的末尾之間進行內插。
21、如權利要求18所述的方法,其中所述重疊/添加或重復所述音調周期中的一者或一者以上包括合并所述語音段。
22、如權利要求18所述的方法,其中所述如果擴展所述殘余低頻帶語音信號則 重疊/添加或重復所述音調周期中的一者或一者以上包括添加由第一音調段與第二音調周期段形成的額外音調周期。
23、 如權利要求21所述的方法,其進一步包括選擇類似語音段,其中合并所述 類似語音段。
24、 如權利要求21所述的方法,其進一步包括使所述語音段相關,借此選擇類 似語音段。
25、 如權利要求22所述的方法,其中所述添加由第一音調段與第二音調周期段 形成的額外音調周期包括添加所述第一及第二音調段,以使所述第一音調周期段的 影響增大且所述第二音調周期段的影響減小。
26、 如權利要求l所述的方法,其中所述低頻帶表示高達及包含4kHz的頻帶。
27、 如權利要求l所述的方法,其中所述高頻帶表示從約3.5kHz到約7kHz的頻帶。
28、 一種聲碼器,其具有至少一個輸入及至少一個輸出,所述聲碼器包括編碼器,其包括濾波器,所述濾波器具有可操作地連接到所述聲碼器的所述輸入 的至少一個輸入及至少一個輸出;及解碼器,其包括合成器,所述合成器具有可操作地連接到所述編碼器的所述至少 一個輸出的至少一個輸入及可操作地連接到所述聲碼器的所述至少一個輸出的至少 一個輸出。
29、 如權利要求28所述的聲碼器,其中所述解碼器包括存儲器,其中所述解碼器適于執行存儲在所述存儲器中的軟件指令,所述軟件指令包括將殘余低頻帶語音信號時間彎曲至所述殘余低頻帶語音信號的經擴展或經壓縮 版本;將高頻帶語音信號時間彎曲至所述高頻帶語音信號的經擴展或經壓縮版本;及 合并所述經時間彎曲的低頻帶與高頻帶語音信號,以給出完整的經時間彎曲的語 音信號。
30、 如權利要求29所述的聲碼器,其中所述合成器包括用于合成所述經時間彎 曲的殘余低頻帶語音信號的裝置。
31、 如權利要求30所述的聲碼器,其中所述合成器進一步包括用于在對所述高 頻帶語音信號進行時間彎曲之前對其進行合成的裝置。
32、 如權利要求28所述的聲碼器,其中所述編碼器包括存儲器,且所述編碼器 適于執行存儲在所述存儲器中的軟件指令,所述軟件指令包括將語音段分類成1/8幀、 碼激勵線性預測或噪聲激勵線性預測。
33、 如權利要求31所述的聲碼器,其中所述編碼器包括存儲器,且所述編碼器 適于執行存儲在所述存儲器中的軟件指令,所述軟件指令包括使用碼激勵線性預測編 碼來對語音段進行編碼。
34、 如權利要求31所述的聲碼器,其中所述編碼器包括存儲器,且所述編碼器 適于執行存儲在所述存儲器中的軟件指令,所述軟件指令包括使用噪聲激勵線性預測 編碼來對語音段進行編碼。
35、 如權利要求34所述的聲碼器,其中所述使用噪聲激勵線性預測編碼軟件指 令對所述語音段進行編碼包括將線性預測編碼信息編碼為語音段的不同部分的增
36、如權利要求35所述的聲碼器,其中針對若干組語音樣本對所述增益進行編碼。
37、 如權利要求36所述的聲碼器,其中所述對所述殘余低頻帶語音信號進行時間彎曲的指令進一步包括通過產生隨機值且接著將所述增益應用于所述隨機值來產 生殘余低頻帶語音信號。
38、 如權利要求36所述的聲碼器,其中所述對所述殘余低頻帶語音信號進行時間彎曲的指令進一步包括將所述線性預測編碼信息表示為所述殘余低頻帶語音信號的IO個經編碼增益值,其中每一經編碼增益值表示16個語音樣本。
39、 如權利要求34所述的聲碼器,其進一步包括從一未經彎曲的低頻帶激勵信 號中產生所述高頻帶語音信號的140個樣本。
40、 如權利要求34所述的聲碼器,其中所述對所述低頻帶語音信號進行時間彎 曲的軟件指令包括產生較高/較低數目的樣本,及將語音幀的若干部分的經解碼增 益的某一函數應用于所述殘余且接著對其進行合成。
41、 如權利要求40所述的聲碼器,其中所述將所述語音幀的若干部分的經解碼增益的某一函數應用于所述殘余包括當擴展所述低頻帶時,將最后一個語音段的增益應用于額外樣本。
42、 如權利要求33所述的聲碼器,其中所述對所述高頻帶語音信號進行時間彎 曲的軟件指令包括-如果壓縮所述高頻帶語音信號,則重疊/添加曾在所述低頻帶中壓縮的相同數目 的樣本;及如果擴展所述高頻帶語音信號,則重疊/添加曾在所述低頻帶中擴展的相同數目 的樣本。
43、 如權利要求33所述的聲碼器,其中所述對所述殘余低頻帶語音信號進行時 間彎曲的軟件指令包括估計至少一個音調周期;及在接收所述殘余低頻帶語音信號之后,添加或減去所述至少一個音調周期。
44、 如權利要求43所述的聲碼器,其中所述對所述高頻帶語音信號進行時間彎 曲的軟件指令包括使用來自所述低頻帶語音信號的所述音調周期;如果壓縮所述高頻帶語音信號,則重疊/添加一個或一個以上音調周期;及 如果擴展所述高頻帶語音信號,則重疊/添加或重復一個或一個以上音調周期。
45、 如權利要求33所述的聲碼器,其中所述對所述殘余低頻帶語音信號進行時 間彎曲的軟件指令包括估計音調延遲;將一語音幀劃分成若干音調周期,其中使用所述語音幀中各個點處的所述音調延 遲來確定所述音調周期的邊界;如果壓縮所述殘余語音信號,則重疊/添加所述音調周期;及 如果擴展所述殘余語音信號,則重疊/添加或重復一個或一個以上音調周期。
46、 如權利要求45所述的聲碼器,其中所述對所述高頻帶語音信號進行時間彎 曲的軟件指令包括使用來自所述低頻帶語音信號的所述音調周期; 如果壓縮所述高頻帶語音信號,則重疊/添加所述音調周期;及 如果擴展所述高頻帶語音信號,則重疊/添加或重復一個或一個以上音調周期。
47、 如權利要求45所述的聲碼器,其中所述如果壓縮所述殘余低頻帶語音信號則重疊/添加所述音調周期的指令包括將一輸入樣本序列分段成若干樣本塊; 以規則的時間間隔移除所述殘余信號的段; 合并所述移除的段;及 用經合并的段來替換所述移除的段。
48、 如權利要求45所述的聲碼器,其中所述估計所述音調延遲的指令包括在 最后一個幀的末尾的音調延遲與當前幀的末尾之間進行內插。
49、 如權利要求45所述的聲碼器,其中所述重疊/添加或重復所述音調周期中的 一者或一者以上的指令包括合并所述語音段。
50、 如權利要求45所述的聲碼器,其中所述如果擴展所述殘余低頻帶語音信號 則重疊/添加或重復所述音調周期中的一者或一者以上的指令包括添加由第一音調 周期段與第二音調周期段形成的額外音調周期。
51、 如權利要求47所述的聲碼器,其中所述合并所述移除的段的指令包括增 加第一音調周期段的影響并減少第二音調周期段的影響。
52、 如權利要求49所述的聲碼器,其進一步包括選擇類似語音段,其中合并所 述類似語音段。
53、 如權利要求49所述的聲碼器,其中所述對所述殘余低頻帶語音信號進行時 間彎曲的指令進一步包括使所述語音段相關,借此選擇類似語音段。
54、 如權利要求50所述的聲碼器,其中所述添加由所述第一與第二音調周期段 形成的額外音調周期的指令包括添加所述第一及第二音調周期段,以使所述第一音 調周期段的影響增加且所述第二音調周期段的影響減少。
55、 如權利要求29所述的聲碼器,其中所述低頻帶表示高達及包含4kHz的頻帶。
56、 如權利要求29所述的聲碼器,其中所述高頻帶表示從約3.5kHz到約7kHz的頻帶。
全文摘要
本發明揭示一種傳送語音的方法,其包括將殘余低頻帶語音信號時間彎曲至所述殘余低頻帶語音信號的經擴展或經壓縮版本;將高頻帶語音信號時間彎曲至所述高頻帶語音信號的經擴展或經壓縮版本;及合并所述經時間彎曲的低頻帶與高頻帶語音信號,以給出完整的經時間彎曲的語音信號。在所述低頻帶中,在對所述殘余低頻帶信號進行時間彎曲之后合成所述殘余低頻帶語音信號,而在所述高頻帶中,在對所述高頻帶語音信號進行時間彎曲之前合成未經彎曲的高頻帶信號。所述方法可進一步包括對語音段進行分類及對所述語音段進行編碼。對所述語音段的所述編碼可以是碼激勵線性預測、噪聲激勵線性預測或1/8幀(寂靜)編碼中的一者。
文檔編號G10L21/04GK101506877SQ200780030812
公開日2009年8月12日 申請日期2007年8月6日 優先權日2006年8月22日
發明者塞拉芬·斯平多拉·迪亞斯, 羅希特·卡普爾 申請人:高通股份有限公司