專利名稱:用于實時地頻域水印處理多聲道音頻信號的方法和裝置的制作方法
技術領域:
本發明涉及用于實時地頻域水印處理多聲道音頻信號的方法和裝置,其中對于水印處理音頻信號的當前輸入部分的全部聲道,在任何情況下,都沒有足夠處理能力可用,并且其中,對于水印處理,以重疊/相加方式每個聲道地處理音頻信號。
背景技術:
實時數字音頻信號水印在處理能力有限的環境下是困難的。這是例如嵌入式平臺的情況,其中,由于成本、熱量和音量原因而通常使用低功率處理單元,或者是服務器的情況,在其中強力的處理器必須平行地實時水印多個數據流。通常,音頻水印系統基于如下的基于塊的方式操作,水印(WM)嵌入器取得N個輸入信號樣本的塊,WM處理此塊并返回N個改進輸出信號樣本的塊。實時意味著用于信號數據塊的WM處理的時間周期小于用來獲得 下一個信號數據塊的時間周期。如果WM處理時間較長,則違背了實時的限制并且在嵌入器的輸入將發生緩沖溢出,這導致樣本的丟失和可聽假象(audible artefact)以及音頻質量的退化。此外,嵌入水印所要求的處理時間經常是取決于音頻信號內容的。
發明內容
所以,確保音頻數據流的水印處理而不違背實時限制是重要的。一方面,這意味著在絕大多數情況下不是全部多聲道數據流的聲道都可以被標記。另一方面,水印盡可能多的音頻數據流的聲道以便于增加水印的魯棒性和安全性是有利的。在5. I聲道音頻中,例如,如果僅中央聲道被水印而不是左、中央和右聲道或全部6個聲道,則WM的魯棒性和安全性大幅降低。為了在上述受限環境中保證實時處理,必須找到對于其水印嵌入器將需要最長的處理時間的最壞情況輸入信號。基于這樣的時間周期,可以計算可以實時標記的最大數量的聲道。但是,這樣的解決方案的缺點是,絕大多數輸入信號可以比上述最壞情況輸入信號更快地被處理,并且絕大多數時候,嵌入器水印比可以水印的聲道更少的聲道,而這降低魯棒性和安全性。本發明要解決的問題是,提供具有實時限制的水印處理,在其中可以水印盡可能多的音頻輸入信號聲道。用權利要求I中公開的方法解決此問題。在權利要求4中公開利用此方法的裝置。根據本發明,關于水印重要性將在基于數據塊的音頻多聲道信號中的聲道優先級化,從而對于不同的輸入信號數據塊可以改變聲道優先級。對于當前輸入信號塊,水印最重要的聲道,例如5. I設置中的中央聲道,并且確定所要求的處理時間。如果,此所要求的處理時間比預定的取決于應用的閾值小,則標記次重要的聲道(例如,左聲道),且確定額外要求的處理時間。以此方式,為當前輸入信號塊連續標記重要性降序的聲道,直到總的所要求的處理時間大于預定處理時間閾值。此后,不水印剩余的聲道,而僅進行必須的音頻處理,從而不發生塊假象(blocking artifact)。這樣的“抗塊處理”(參見下面的描述)通常遠快于完全WM嵌入處理,并且因而此例程的方式將保證遵守實時限制。由于音頻編碼和水印基于塊的本質并由于與對抗塊假象產生的音頻質量的敏感度,所以必須解決若干問題以便于引向可接受的性能和質量。本發明最優化一方面的WM魯棒性和安全性與另一方面的實時處理限制之間的折中。大體上,本發明方法適用于實時地頻域水印處理多聲道音頻信號,其中對于水印處理所述音頻信號的當前輸入部分的全部聲道,在任何情況下都沒有足夠的處理能力,并且其中,對于所述水印處理,對所述音頻信號的當前輸入部分和所述音頻信號的隨后的輸入部分,以重疊/相加方式每個聲道地處理所述音頻信號,所述方法包括如下步驟a)對于所述音頻信號的所述當前輸入部分,確定或考慮聲道優先級列表;b)如果有足夠的處理能力可用于水印處理所述聲道優先級列表的第一聲道,則水·印所述第一聲道的音頻內容,其中該水印處理包括-級聯所述音頻信號的所述當前輸入部分的此聲道的輸入數據塊和所述音頻信號的隨后的數據塊;-幅度加權、頻率變換、水印和逆頻率變換所述級聯的輸入數據塊;-幅度加權并相加兩個產生的數據塊,其中對于所述音頻信號的數據流的全部聲道的第一部分,將對應的數據塊幅度加權并且相加而沒有先前水印處理;否則,不水印此聲道的音頻內容,并略過對應的數據塊;c)對所述音頻信號的所述當前輸入部分的剩余聲道重復步驟b),并對所述音頻信號的隨后的輸入部分繼續用步驟b)和第一聲道。大體上,發明性的裝置適用于實時地頻域水印處理多聲道音頻信號,其中,對于水印處理音頻信號的當前輸入部分的全部聲道,在任何情況下都沒有足夠處理能力可用,并且其中對所述音頻信號的當前輸入部分和所述音頻信號的隨后輸入部分以重疊方式/相加方式每個聲道地處理所述水印處理所述音頻信號,所述裝置包括適配用于以下的部件a)對于所述音頻信號的所述當前輸入部分,確定或考慮聲道優先級列表;b)如果有足夠的處理能力可用于水印處理所述聲道優先級列表的第一聲道,則水印所述第一聲道的音頻內容,其中該水印處理包括-級聯所述音頻信號的所述當前輸入部分的此聲道的輸入數據塊和所述音頻信號的隨后的數據塊;-幅度加權、頻率變換、水印和逆頻率變換所述級聯的輸入數據塊;-幅度加權并相加兩個產生的數據塊,其中對于所述音頻信號的數據流的全部聲道的第一部分,將對應的數據塊幅度加權并且相加而而沒有先前水印處理;否則,不水印此聲道的音頻內容,并略過對應的數據塊;c)對所述音頻信號的所述當前輸入部分的剩余聲道重復步驟b),并對所述音頻信號的隨后的輸入部分繼續用處理b)和第一聲道。本發明的有利的、額外的實施例在各自的獨立權利要求中公開。
參考所附附圖描述本發明的示例性實施例,所附附圖如下示出
圖I加權重疊-相加處理的示例;圖2隨著時間推移,周期中每個音頻信號數據塊使用的平均、最大和當前處理器負載;圖3發明性處理的流程圖;圖4標記聲道(MarkChannel)步驟的更具體的流程圖;圖5不標記聲道(NotMarkChannel)步驟的更具體的流程圖;圖6從狀態“處理(PROCESS)”到狀態“略過(PASSTHROUGH)”的轉變圖7從狀態“略過”到狀態“處理”的逆轉變
具體實施方式
絕大多數音頻處理算法,無論是音頻編碼還是音頻水印,都是基于塊的,其中,在相同的時間處理N個輸入信號樣本的塊并生成N個輸出樣本。這樣的基于塊的處理的原因是,在頻域實現部分處理而輸入樣本在時域,其中典型地用快速傅里葉變換(FFT)或改進離散余弦變換(MDCT)變換N個時域樣本的塊并將其在頻域處理并使用對應的逆變換將其變換回時域。因為這樣的變換對于二的指數的長度是非常高效的,所以512或1024大小的樣本最常使用。基于塊的音頻處理的直接方式是從包含k*N到(k+l)*N-l的輸入樣本的大小N的第k個輸入塊Ik中直接生成包含k*N到(k+1 )*N-1的輸出樣本的大小N的第k個輸出塊0k。但是,輸入音頻信號在塊邊界是連續的,即,在輸入塊Ik和Ik+1之間的界線,并且如果獨立地處理塊Ik和Ik+1的內容,則將發生的是輸出塊Ok和0,+1之間的轉變不是連續的,引起可聽的微響假象。此問題的熟知解決方案是使用加權重疊-相加(WOLA)變換,其中,加權和重疊、變換、逆變換原始音頻信號輸入塊,并且當形成輸出信號時加權并相加該原始音頻信號輸入塊,參見 J. B. Alien 的 “Short Term Spectral Analysis, Synthesis, and Modificationby Discrete Fourier Transform,,,IEEE Transactions on Acoustics, Speech, and SignalProcessing, vol. ASSP-25, no. 3, pp. 235 - 238, 1977 年 6 月。圖I描繪了用于典型重疊N的發明性水印處理結構,其中Jk是大小N的原始音頻信號輸入塊。在步驟或階段CC中級聯每兩個連續的塊Jk和Jk+1,引起長度2N和以N重疊的塊Ik,從而在I個塊中總計包含每個原始輸入音頻信號樣本兩次。取代級聯長度N的完整的塊,長度N/2的一半塊可以以連續方式級聯(例如,塊Jk的第二個半塊和塊Jk+1的第一個半塊,塊Jk+1的第一個半塊和塊Jk+1的第二個半塊,塊Jk+1的第二個半塊和塊Jk+2的第一個半塊等等),并且對應的重疊是N/2。圖I不描繪相同的多聲道音頻信號部分的連續聲道,而是用于多聲道音頻信號的連續部分的相同聲道。在步驟或階段WTk,大體上塊Ik幅度加權并變換,在頻域內施加水印改進k,并且逆變換所產生的塊,產生大小2N的輸出塊0k。變換可以是FFT,其從每2N個輸入值中生成2N個變換的輸出值,并且對應的逆變換IFFT從每2N個輸入值中生成2N個逆變換的輸出值,或者該變換可以是MDCT,其從每2N個輸入值中生成N個變換的輸出值,并且對應的逆變換MDCT從每N個輸入值中生成2N個逆變換輸出值。
在步驟或階段WA中,當前輸出塊對ok/ok+1的第一塊Ok與先前輸出塊對(V1A)k的第二塊Ok幅度加權并相加,以產生大小為N的最終輸出塊Pk。在WTk的輸入并在WA中,進行兩個塊的兩個幅度加權從而存在總體平坦的響應。例如,幅度加權使用正弦和余弦函數從而sin2+cos2=常數,例如I。音頻數據流的第一原始輸出塊Jtl不根據上述處理產生輸出塊。反而,第一最終輸出塊Po是第一輸出塊Otl和原始輸入塊J0的組合。這意味著相對于對應的輸入塊Jk,以一個塊延遲最終輸出塊Pk: 時間步驟原始輸入±夾原始輸出塊
toJ0無無
~WT^
~ J2WT\
tkJkWTk_iPk-I如上所述,在一些應用中,沒有足夠的處理能力可以實時地水印多聲道音頻數據流的全部聲道。這例如在類似用于TV信號接收的機頂盒的嵌入式平臺上發生,但是也在同時處理很多數據流的大型服務器上發生。此外,負責進行水印的處理器可能也實現其他類似音頻編碼的任務,并從而該處理的當前負載可以隨時間變化。不標記全部聲道可能使水印(WM)系統的安全性降級,因為這可能移除水印的聲道而不使用戶體驗降級太多。如果例如在5. I音頻數據流中,僅標記左聲道,取決于內容,可能基于除左聲道以外的全部聲道生成新的2. I音頻數據流。當然,在這樣的流中,不能檢測到水印。不標記全部聲道還將使魯棒性降級,該魯棒性對抗例如在電影院中麗系統音頻輸出的未授權話筒捕獲,因為在話筒階段,自動地將全部聲道混合在一起。通常,以相同的方式標記全部聲道,這意味著在此混音中添加水印。另一方面,如果一些聲道未標記,則它們可以簡單地作為對WM檢測器的額外噪聲,這可能引起水印的不可檢測性。嵌入水印所需的時間經常取決于內容的事實甚至使情況更復雜,如圖2所示,其中,描繪了隨著時間變化每個塊使用的最大值、平均值和當前處理器周期。本發明性動態聲道標記提供了在實時要求、魯棒性和安全性之間的最優的折中。如上所述,在一些應用中,不可能水印音頻數據流的全部聲道。所以,將聲道優先級化。例如,在5. I設置上絕大多數音頻信號內容或能量在左、右和/或中央聲道。低頻效果(LFE)聲道和環繞聲道通常不攜帶大量信息。所以,5. I音頻數據流的優先級可以被設置為I.中央、2.左、3.右、4.左環繞、5.右環繞、6. LFE。對于動態聲道標記中的每個連續信號輸入塊,以優先級降序盡可能多地水印聲道,而不違背實時處理能力限制并且不損害由于塊假象的音頻質量。
將音頻聲道的發明性水印處理的三個狀態定義為INIT是音頻數據流的第一塊的處理的狀態(圖I中的塊J。)。“處理”是正常的處理操作狀態(圖I中的塊Jp J2和J3X在狀態“略過”中,不進行水印處理,而僅返回對應的輸入塊(圖6中的塊Jk和Jk+i以及圖7中的塊Jk_3和Jk_2)以便于維持數據連續性。在示出通用發明性處理的流程圖的圖3中,在步驟31啟動計時器,并且通過設置當前音頻聲道數m以標記為“0” (如果聲道優先級列表從零開始,或者如果聲道優先級列表從“I”開始,則m設為“I”)來在步驟32中選擇當前音頻信號塊或部分的聲道優先級列表的第一聲道。在步驟33中讀取當前計時器值,并在步驟34中以整體的實時處理要求的角度檢查是否還存在足夠的時間以水印處理音頻聲道優先級列表的下一個聲道。
一旦在水印處理當前音頻信號輸入塊或部分期間,由上述無水印處理任務導致的處理器負載下降或增加,則不僅在步驟/階段33和34中評估允許時間周期,還評估剩余的當前音頻信號輸入塊或部分的可用處理能力。如果當前剩余的處理能力對水印處理是可用的,則在步驟35中水印優先級列表的當前音頻聲道m并且在步驟36中以“ I”遞增優先級列表聲道數m,即,m — m+1。如果不可用,則在步驟39中不水印當前音頻聲道m并且在步驟36中以“I”遞增聲道優先級列表數m。步驟37檢查在聲道優先級列表中是否存在更多剩余的聲道。如果是存在,則在步驟38中選擇聲道優先級列表的下一個音頻聲道m,讀取步驟33中的當前計時器值并且如上所述地繼續處理。如果不存在,則當前音頻信號塊或部分的水印處理結束并且對隨后的音頻信號塊或部分的第一優先級列表聲道繼續處理。聲道計數器m與當前聲道是否被水印無關地增加。這確保了不論一些聲道是否已經處于狀態“略過”都獨立地應用相同的修改(或類似的改進,因為該改進可以是取決于內容的)到一個音頻信號塊或部分的全部聲道。在圖4和圖5中描繪用于圖3的步驟35的“標記聲道”和步驟39的“不標記聲道”的更詳細的流程圖。在圖4中,在步驟41中檢查當前狀態是否為“處理”。如果是,則在步驟42中進行當前聲道m的正常處理。如果不是,則在步驟43中進行向處理當前通道m的狀態“處理”的轉變,如同聯系圖1、6和7而描述的。在圖5中,在步驟51中檢查當前狀態是否是“略過”。如果是,則在步驟52中進行當前聲道m的正常“略過”處理。如果不是,則在步驟53中進行向處理當前通道m的狀態“略過”的轉變,如同聯系圖1、6和7所描述的。在對于當前音頻信號塊或部分的其它聲道沒有剩余水印處理能力的情況下,則如圖6所描繪的,對于剩余聲道水印處理狀態從狀態“處理”變為狀態“略過”。在該圖中,輸出塊Pk和Pk+1的內容分別對應于輸入塊Jk和Jk+1的內容。在在當前輸入信號塊或部分的處理期間對于當前音頻信號塊或部分的其它聲道存在意料之外的水印處理能力(例如,由于不同的任務要求較少的處理能力)的情況下,則如圖7所描繪的,對于當前音頻信號塊或部分的剩余聲道水印處理狀態可以從狀態“處理”變為狀態“略過”。在結束當前音頻信號塊或部分的處理或檢查并且繼續處理隨后的音頻信號塊或部分的聲道優先級列表的第一聲道的水印處理的情況下,這也是正確的。在該圖中,輸出塊Pk_3和Pk_2的內容分別對應于輸人塊Jk_3和Jk_2的內容。
有利地,隨著時間推移聲道的優先級化不需要是恒定的。例如,如果在5. I設置中僅水印 兩個聲道,從而最重要的聲道是中央聲道,左聲道和右聲道可能是同等重要的。為了使攻擊者的行為更加困難,有利的是,在這種情況下在第一時間周期標記中央和左聲道并此后在第二時間周期標記中央和右聲道,并重復此交替直到音頻數據流的結束。
權利要求
1.一種用于實時地頻域水印處理(CC、WT、WA、35)多聲道音頻信號的方法,其中對于水印處理所述音頻信號的當前輸入部分的全部聲道,在任何情況下都沒有足夠的處理能力,并且其中,對于所述水印處理,對所述音頻信號的當前輸入部分和所述音頻信號的隨后的輸入部分,以重疊/相加方式每個聲道地處理所述音頻信號,所述方法包括如下步驟 a)對于所述音頻信號的所述當前輸入部分,確定或考慮聲道優先級列表; b)如果有足夠的處理能力可用于水印處理所述聲道優先級列表的第一聲道(32),則水印(35)所述第一聲道的音頻內容,其中該水印處理包括 -級聯(CC)所述音頻信號的所述當前輸入部分的此聲道的輸入數據塊(J0, J1)和所述音頻信號的隨后的數據塊; -幅度加權、頻率變換、水印和逆頻率變換(WTtl)所述級聯的輸入數據塊; -幅度加權并相加(WA)兩個產生的數據塊,其中對于所述音頻信號的數據流的全部聲道的第一部分,將對應的數據塊(Jtl)幅度加權并相加而沒有先前水印處理; 否則,不水印(39)此聲道的音頻內容,并略過(PASSTHROUGH)對應的數據塊; c)對所述音頻信號的所述當前輸入部分的剰余聲道重復步驟b),并對所述音頻信號的隨后的輸入部分繼續用步驟b)和第一聲道。
2.根據權利要求I的方法, 其中,在存在從水印處理(“處理”)向無水印處理(“略過”)的切換的情況下,則在所述幅度加權和相加(WA)中,最后的數據塊是對應的輸入數據塊,并且其中,一旦存在從無水印處理(“略過”)向水印處理(“處理”)的切換,則在所述幅度加權和相加(WA)中,第一數據塊是對應的輸入數據塊。
3.根據權利要求I或2的方法,其中,對所述音頻信號的每個輸入部分確定所述聲道優先級列表。
4.用于實時地頻域水印處理(CC、WT、WA、35)多聲道音頻信號的裝置,其中對于水印處理所述音頻信號的當前輸入部分的全部聲道U),在任何情況下都沒有處理能力可用,并且其中,對于所述水印處理,對所述音頻信號的當前輸入部分和所述音頻信號的隨后的輸入部分,以重疊/相加方式每個聲道地處理所述音頻信號,所述裝置包括如下步驟 a)對于所述音頻信號的所述當前輸入部分,確定或考慮聲道優先級列表; b)如果有足夠的處理能力可用于水印處理所述聲道優先級列表的第一聲道(32),則水印(35)所述第一聲道的音頻內容,其中該水印處理包括 -級聯(CC)所述音頻信號的所述當前輸入部分的此聲道的輸入數據塊(ふ,J1)和所述音頻信號的隨后的數據塊; -幅度加權、頻率變換、水印和逆頻率變換(WTtl)所述級聯的輸入數據塊; -幅度加權并相加(WA)兩個產生的數據塊,其中對于所述音頻信號的數據流的全部聲道的第一部分,將對應的數據塊(Jtl)幅度加權并相加而沒有先前水印處理; 否則,不水印(39)此聲道的音頻內容,并略過(“略過”)對應的數據塊; c)對所述音頻信號的所述當前輸入部分的剰余聲道重復步驟b),并對所述音頻信號的隨后的輸入部分繼續用步驟b)和第一聲道。
5.根據權利要求4的裝置, 其中,在存在從水印處理()向無水印處理()的切換的情況下,則在所述幅度加權和相カロ(WA)中,最后的數據塊是對應的輸入數據塊,并且其中,一旦存在從無水印處理(“略過”)向水印處理(“處理”)的切換,則在所述幅度加權和相加(WA)中,第一數據塊是對應的輸入數據塊。
6.根據權利要求4或5的裝置,其中,對所述音頻信號的每個輸入部分確定所述聲道優先級列表。
7.根據權利要求I到3之一的方法處理的數字多聲道音頻信號。
8.一種其上包含或存儲、或記錄入權利要求7所述的多聲道音頻信號的存儲介質。
全文摘要
數字音頻信號實時水印在具有有限處理能力的環境下是困難的。根據本發明,關于水印重要性將在基于數據塊的音頻多聲道信號中的聲道優先級化,從而聲道優先級可以為不同的輸入信號數據塊而改變。對于當前輸入信號塊,水印最重要的聲道并確定要求的處理時間。如果此要求的處理時間短于預定的取決于應用的閾值,則標記次重要的聲道并且確定額外要求的處理時間等等。由于包括塊重疊/相加的音頻水印基于塊的本質并且由于對抗塊假象的產生的音頻質量的敏感度,解決若干個問題以便于引向可接受的性能和質量。本發明最優化一方面的水印魯棒性和安全性和另一方面的實時處理限制之間的折中。
文檔編號G10L19/018GK102956234SQ20121030251
公開日2013年3月6日 申請日期2012年8月23日 優先權日2011年8月23日
發明者P.G.鮑姆, U.格里斯, M.阿諾德, 陳曉明 申請人:湯姆森特許公司