專利名稱:基于幀間信息的視頻文字處理方法
技術領域:
本發明屬于視頻圖像處理應用領域,具體涉及一種基于幀間信息的視頻文字處理方法。
背景技術:
視頻圖像處理中,文字提取以及圖像信息修復都有著十分廣泛的應用前景,因此, 近年來也越來越受到人們的重視。然而目前自動定位圖像中文本區域的方法對于某些復雜背景中的文字也很難做到完整的檢測與提取。目前的圖像修復算法主要可以分成兩大類基于PDE的修復方法和基于紋理的修復方法。主要分別體現了推測與尋優兩種不同的思路。這些方法往往基于圖像處理,忽略了視頻幀在時間上的相關性,從而導致修復結果不準確,且修復結果在播放時容易出現閃爍,跳變等現象。
發明內容
本發明的目的在于提供一種基于幀間信息的視頻文字處理方法,其能夠解決現有方法中修復結果不準確、且修復結果在播放時容易出現閃爍,跳變等問題。本發明是通過以下技術方案實現的一種基于幀間信息的視頻文字處理方法,包括如下步驟(1)檢測當前圖像的文本區域R(x,y,t),設當前圖像為f (x,y,t),其前面的N 幅圖像依次為f(x,y,t-1),…,f(x, y,t-N),這N幅圖像對應的文本區域分別為R(x,y, t-1),…,R(x,y,t-N),其中χ代表當前圖像的橫坐標,y代表當前圖像的縱坐標,t代表當前圖像的幀數;(2)對當前圖像f(x,y,t)的文本區域R(x,y,t)進行校驗,具體包含以下子步驟(21)判斷文本區域RU J, it中的子區域是否在文本區域
y,-t ,…,A(UJ-^V)中出現過;(22)若沒有出現過,則可確定該子區域是虛警區域,并將該子區域排除,并將文本區域R(X,y,t)更新為Rnew(X,y,t),其中Rnew(x,y,t)為當前圖像中的待修復區域;(23)若出現過,則繼續對文本區域R(x,y,t)中其他子區域進行校驗;(3)從前往后對文本區域R(x,y,t)進行背景修復,具體包含以下子步驟(31)分析當前圖像f(x,y,t)及其前N幀的運動偏移,如果運動較大,直接對下一幀進行處理;如果運動較小,則進行步驟(32);(32)將當前圖像的文本區域RnOT(x,y,t)及其前N幀的文本區域R(x,y,t-1),···, R(x,y,t-N)進行比較,得到當前圖像中可利用幀間信息修復的區域為RnOT(x,y,t)-R(x,y, t-1), ···, Rnew(χ, y, t)-R(x, y, t-N);(33)對當前圖像f(x,y,t)中的&丄U,句尺(,WiXW-AO區域,在前N幀中搜索最佳匹配塊完成修復,并更新Rnew(x,y,t);(34)重復步驟C3)對后面一幀進行處理,直至處理完整段視頻。(4)從最后一幀開始往前進行背景修復,具體包含以下子步驟(41)分析當前圖像f(x,y,t)與后N幀的運動偏移,如果運動較大,直接對前面一幀進行處理,如果運動較小,則進行步驟G2);02)將當前圖像的文本區域Rnew(x,y,t)與后N幀的文本區域R(x,y,t+1),…, R(x, y,t+N)進行比較,得到當前圖像中可利用幀間信息修復的區域為Rmw(χ,y,t)-R(x, y, t+1),···, Rnew (χ, y, t)-R(x, y, t+N);03)對當前圖像f(x,y,t)中的Ke“ y,A,….,
+ 區域,在后N幀中搜索最佳匹配塊完成修復,并更新Rnew(X,y,t);(44)如果此時#0,那么對剩余的文本區域,在本幀中搜索最佳的匹配塊進行修復;否則重復步驟(4)對前面一幀進行處理,直到處理完整段視頻。本發明的方法具有以下優點(1)基于視頻文字字幕的連續性,本發明方法提出利用幀間信息校驗檢測區域,來提高區域定位的準確性;( 基于視頻內容的連續性,本發明方法利用幀間可用信息來完成修復,這樣既能既能快速的找到最佳匹配信息,又保證了修復結果的正確性;(3)本發明方法將每次修復的結果都作為下一次修復的可用信息,不斷累積和延續修復結果的連續性,可以很大程度上減少圖像處理方法所產生的幀間閃爍和跳變。總而言之,本發明可保證檢測定位的準確性,保證修復結果的正確性,保證視頻結果的時間連續性。
圖1(a)為原始圖像。圖1 (b)示出經過現有技術方法處理后的圖像。圖1 (c)示出經過本發明方法處理后的圖像。圖2為本發明基于幀間信息的視頻文字處理方法的流程圖。圖3為本發明方法中步驟O)的細化流程圖。圖4為本發明方法中步驟(3)的細化流程圖。圖5為本發明方法中步驟的細化流程圖。
具體實施例方式下面結合附圖和具體實施案例對本發明作進一步描述。以下首先對本發明的一些用語用于進行解釋圖像的文本區域圖像中文本所在區域。虛警區域圖像中被檢測為文本區域的非文本區域。背景修復去除文本區域,修復并還原被文本區域遮擋的背景。運動偏移某一區域在前后幀中位置的變化量。最佳匹配塊在搜索范圍內與待修復區域在某度量方式上最相近的區域。如圖2、3、4、5所示,本發明基于幀間信息的視頻文字處理方法包括以下步驟(1)檢測當前圖像的文本區域R(x,y,t),設當前圖像為f (x,y,t),其前面的N幅圖像依次為f(x,y,t-l),…,f(x, y,t-N),這N幅圖像對應的文本區域分別為R(x,y, t-1),…,R(x,y,t-N),其中χ代表當前圖像的橫坐標,y代表當前圖像的縱坐標,t代表當前圖像的幀數;(2)對當前圖像f(x,y,t)的文本區域R(x,y,t)進行校驗,具體包含以下子步驟(21)判斷文本區域R(x,兄i中的子區域是否在文本區域 X, ,…,^Λ;^—中出現過;(22)若沒有出現過,則可確定該子區域是虛警區域,并將該子區域排除,并將文本區域R(x,y,t)更新為Rnew(X,y,t),其中Rnew(x,y,t)為當前圖像中的待修復區域;(23)若出現過,則繼續對文本區域R(x,y,t)中其他子區域進行校驗;(3)從前往后對文本區域R(x,y,t)進行背景修復,具體包含以下子步驟(31)分析當前圖像f(x,y,t)及其前N幀的運動偏移;如果運動較大,直接對下一幀進行處理;如果運動較小,則進行步驟(32);(32)將當前圖像的文本區域RnOT(x,y,t)及其前N幀的文本區域R(x,y,t-1),···, R(x,y,t-N)進行比較,得到當前圖像中可利用幀間信息修復的區域為RnOT(x,y,t)-R(x,y, t-l), ···, Rnew(χ, y, t)-R(x, y, t-N);(33)對當前圖像f(x,y,t)中的凡丄1兄句,…,
WiXW-AO區域,在前N幀中搜索最佳匹配塊完成修復,并更新Rnew(x,y,t);(34)重復步驟( 對后面一幀進行處理,直至處理完整段視頻。(4)從最后一幀開始往前進行背景修復,具體包含以下子步驟(41)分析當前圖像f(x,y,t)與后N幀的運動偏移;如果運動較大,直接對前面一幀進行處理;如果運動較小,則進行步驟G2);02)將當前圖像的文本區域Rnew(x,y,t)與后N幀的文本區域R(x,y,t+1),…, R(x, y,t+N)進行比較,得到當前圖像中可利用幀間信息修復的區域為Rmw(χ,y,t)-R(x, y, t+1),···, Rnew (χ, y, t)-R(x, y, t+N);(43)對當前圖像f(x,y,t)中的&丄U,句 K ^y,,…,
+ 區域,在后N幀中搜索最佳匹配塊完成修復,并更新Rnew(X,y,t);(44)如果此時凡_(4義0#0,那么對剩余的文本區域,在本幀中搜索最佳的匹配塊進行修復;否則重復步驟(4)對前面一幀進行處理,直到處理完整段視頻。為了對基于幀間信息的視頻文字處理方法的有效性進行分析,發明者分別從文字類型,背景復雜程度,背景運動快慢,字幕文字是否出現長短變化這4個方面入手制作視頻測試序列;其中文字類型的不同表示文字特征不同,主要影響算法在檢測部分的普適性; 背景復雜程度不同,主要影響算法在檢測部分的準確性和排除虛警區域機制的正確性;背景運動快慢,影響到算法的修復部分能否使用幀間信息;字幕文字是否出現長短變化,影響到算法的修復部分能夠利用的幀間信息的多少。根據獨立成份分析可知,這4個因素在視頻中都是彼此獨立;它們分別反映了算法檢測和修復各個環節的性能,而且視頻的這4個特征能直接在視覺上進行區分,因此對于選擇和制作視頻測試序列都很有益。實驗中根據4個因素的不同組合制作了 7個視頻測試序列,根據對大量視頻的統計驗證,這7個視頻中的獨立因素符合普通視頻的組合邏輯,并且組合方式涵蓋了常見視頻的大部分種類,其組合方式如表1所示。每一個測試序列時間長度均為10分鐘,幀率均為對幀/秒。表17個視頻測試序列的特征
權利要求
1.一種基于幀間信息的視頻文字處理方法,包括以下步驟(1)檢測當前圖像的文本區域R(x,y,t),設所述當前圖像為f(X,y,t),其前面的N幅圖像依次為f(x,y,t-1),…,f(x, y,t-N),所述N幅圖像對應的文本區域分別為R(x,y, t-1),…,R(x,y,t-N),其中χ代表所述當前圖像的橫坐標,y代表所述當前圖像的縱坐標, t代表所述當前圖像的幀數;(2)對所述當前圖像f(x,y,t)的所述文本區域R(x,y,t)進行校驗,具體包含以下子步驟判斷所述文本區域R(x,y,t)中的子區域是否在文本區域R(x,y,t-1),…,R(x, y,t-N)中出現過;(22)若沒有出現過,則可確定所述子區域是虛警區域,將所述子區域排除,并將所述文本區域R(x,y,t)更新為Rnew(X,y,t),其中Rmw(x,y,t)為所述當前圖像中的待修復區域;(23)若出現過,則繼續對所述文本區域R(x,y,t)中其他子區域進行校驗;(3)從前往后對所述文本區域R(X,y,t)進行背景修復,具體包含以下子步驟(31)分析所述當前圖像f(x,y,t)及其前N幀的運動偏移,如果運動較大,則直接對下一幀進行處理,如果運動較小,則進行步驟(32);(32)將所述當前圖像的文本區域Rnrat(x,y,t)及其前N幀的文本區域R(x,y,t-1),···, R(χ, y,t-N)進行比較,得到所述當前圖像中可利用幀間信息修復的區域為Rnrat(x,y, t)-R(x, y, t-1),…,Rnew(x,y,t)_R(x,y,t-N);(33)對所述當前圖像f(x,y,t) *&Rnew(X,y,t)-R(X,y,t-l),···, Rnew(x, y, t)-R(x, y,t-N)區域,在所述前N幀中搜索最佳匹配塊完成修復,并更新Rmw (x,y,t);(34)重復步驟C3)對后面一幀進行處理,直至處理完整段視頻。(4)從最后一幀開始往前進行背景修復,具體包含以下子步驟(41)分析所述當前圖像f(x,y,t)與后N幀的運動偏移;如果運動較大,直接對前面一幀進行處理;如果運動較小,則進行步驟G2);(42)將所述當前圖像的文本區域Rmw(X,y,t)與后N幀的文本區域R(x,y,t+1),…, R(χ, y,t+N)進行比較,得到當前圖像中可利用幀間信息修復的區域為Rmw(χ,y,t)-R(x, y, t+1), ···, Rnew(χ, y, t)-R(x, y, t+N);(43)對所述當前圖像f(x,y,t) *&Rnew(X,y,t)-R(X,y,t+l),···, Rnew(x, y, t)-R(x, y,t+N)區域,在后N幀中搜索最佳匹配塊完成修復,并更新Rnrat (x,y,t);(44)如果此時U^J,O#0,那么對剩余的文本區域,在本幀中搜索最佳的匹配塊進行修復;否則重復步驟(4)對前面一幀進行處理,直到處理完整段視頻。
2.根據權利要求1所述的視頻文字處理方法,其特征在于步驟O) 中利用幀間信息完成區域校驗和背景修復。
全文摘要
本發明公開了一種基于幀間信息的視頻文字處理方法,包括以下步驟檢測當前圖像的文本區域R(x,y,t),對當前圖像f(x,y,t)的文本區域R(x,y,t)進行校驗,從前往后對文本區域R(x,y,t)進行背景修復,從最后一幀開始往前進行背景修復。本發明的可保證檢測定位的準確性,保證修復結果的正確性,保證視頻結果的時間連續性。
文檔編號G06T5/00GK102521805SQ20111039147
公開日2012年6月27日 申請日期2011年11月30日 優先權日2011年11月30日
發明者孫福生, 文灝, 田巖, 許毅平, 陳柱 申請人:華中科技大學