文本檢測方法和設備與流程

文檔序號：11231253閱讀：2496來源：國知局

導航： X技術> 最新專利>計算;推算;計數設備的制造及其應用技術

本發明涉及文本檢測技術，更具體地，涉及一種從自然場景圖像中檢測文本的方法和設備，能夠支持多語言，且能夠檢測水平行和垂直行。

背景技術：

隨著信息技術的發展，電子設備(例如，個人數字助理、手持電腦、手機)等的使用在人們的生活中越來越普及。配備有攝像裝置的電子設備的使用也越來越普及。當人們通過攝像裝置拍攝自然場景圖像時，可能需要對所拍攝的圖像中的文本行進行識別。

中國專利申請201410334436.4提出了一種中文文本定位設備，其可以從自然場景圖像中提取文本。其中，通過最大穩定極值區域mser方法對圖像進行二值化，并根據中文字符的特征來檢測文本。但是，所提取的文本局限于中文字符。

現有的文本檢測方法局限于一種或某幾種特定語言，而無法普適于所有語言。當在圖像中出現未知語言時，得到的結果非常差。

此外，現有的文本檢測方法通常僅能夠處理水平行，而無法同時處理水平行和垂直行。

以高精度來檢測自然場景圖像中的文本非常困難。一方面，在圖像中可能存在非常多的非文本內容，而這些內容可能導致大量噪聲并降低檢測精度。另一方面，真實世界中的文本具有各種各樣的布局和大小，這種復雜的情況非常難以處理。

因此，需要一種能夠支持多語言且能夠檢測水平行和垂直行的文本檢測機制。

技術實現要素：

本公開提出了一種文本檢測方法和設備，能夠支持多語言，且能夠檢測水平行和垂直行。

根據本發明的一個方面，提出了一種文本檢測方法，包括：對待檢測的圖像進行二值化，以得到二值化圖像并提取連通域，得到連通域的特征；對提取的連通域進行組合，以檢測水平行和垂直行；以及針對檢測到的結果進行濾波，以消除噪聲。

優選地，通過最大穩定極值區域mser方法對待檢測的圖像進行二值化。

優選地，所述連通域的特征至少包括以下之一：外界矩形；前景面積；前景面積與外界矩形的面積之比；筆畫粗細；以及連通域的顏色。

優選地，在提取連通域之后，所述方法還包括：從提取的連通域中移除具有明顯不屬于文本的特征的連通域。

優選地，檢測水平行和垂直行包括：先檢測水平行，然后檢測垂直行。

優選地，檢測水平行包括：根據連通域的特征，將水平相距小于第一閾值的相鄰的連通域組合為一個候選水平子行；根據第二閾值，將水平相距小于第二閾值的相鄰的候選水平子行組合為一個候選水平行；將候選水平行中連通域的數量大于2的行作為水平行，并將剩余的行作為垂直行候選項。

優選地，檢測垂直行包括：將垂直距離小于第三閾值的相鄰的垂直行候選項組合為一個候選垂直子行；根據第四閾值，將垂直距離小于第四閾值的相鄰的候選垂直子行組合為一個候選垂直行；將候選垂直行中連通域的數量大于或等于3的行作為垂直行。

優選地，針對檢測到的結果進行濾波，以消除噪聲包括：根據預設的噪聲特征，識別檢測到的結果中存在的具有預設的噪聲特征的行，并從結果中移除所識別的行。

根據本發明的另一方面，提出了一種文本檢測設備，包括：文本提取模塊，被配置為對待檢測的圖像進行二值化，以得到二值化圖像并提取連通域，得到連通域的特征；行檢測模塊，被配置為對提取的連通域進行組合，以檢測水平行和垂直行；以及后處理模塊，被配置為針對檢測到的結果進行濾波，以消除噪聲。

與現有技術不同，根據本發明實施例的文本檢測方法和設備在多個方面改善了文本檢測的性能，至少包括：

1.不局限于某種或某些特定語言，而可以識別任何語言的文本行；

2.能夠同時檢測存在的水平行和垂直行；

3.可以以高精度定位文本行。

附圖說明

通過下面結合附圖說明本發明的優選實施例，將使本發明的上述及其它目的、特征和優點更加清楚，其中：

圖1是示出了根據本發明實施例的文本檢測設備的示意框圖。

圖2示出了一個示例的待檢測的圖像。

圖3示出了圖2所示的待檢測的圖像的二值化結果和連通域。

圖4示出了圖3所示的二值化結果中移除了明顯不屬于文本的特征的連通域后的結果。

圖5示出了圖2所示的待檢測的圖像的行檢測結果。

圖6示出了另一個示例的待檢測的圖像和行檢測結果。

圖7示出了根據本發明實施例的文本檢測方法的流程圖。

圖8示出了利用根據本發明實施例的文本檢測方法的一個應用示例。

具體實施方式

以下參照附圖，對本發明的示例實施例進行詳細描述。在以下描述中，一些具體實施例僅用于描述目的，而不應該理解為對本發明有任何限制，而只是本發明的示例。在可能導致對本發明的理解造成混淆時，將省略常規結構或構造。

圖1是示出了根據本發明實施例的文本檢測設備100的示意框圖。該文本檢測設備100包括：輸入模塊110，被配置為輸入待檢測的圖像；文本提取模塊120，被配置為對待檢測的圖像進行二值化，以得到二值化圖像并提取連通域，得到連通域的特征；行檢測模塊130，被配置為對提取的連通域進行組合，以檢測水平行和垂直行；以及后處理模塊140，被配置為針對檢測到的結果進行濾波，以消除噪聲。

根據本實施例的文本檢測設備100可以在諸如智能電話、寫字板、筆記本或其他手持電子設備上實現。

輸入模塊110用于輸入待檢測的圖像。例如，輸入模塊110可以是智能電話上的攝像機，用于拍攝自然場景圖像，作為待檢測的圖像。又例如，輸入模塊110可以是筆記本上的通信模塊，用于從外部接收待檢測的圖像。圖2示出了一個示例的待檢測的圖像。

文本提取模塊120被配置為通過從待檢測的圖像中提取連通域，來進行文本提取。根據一個實施例，文本提取模塊120被配置為通過最大穩定極值區域mser方法對待檢測的圖像進行二值化，得到二值化的圖像。然后從圖像中提取連通域，并得到連通域的特征。圖3示出了圖2所示的待檢測的圖像的二值化結果和連通域。連通域的特征至少包括以下之一：外界矩形；前景面積；前景面積與外界矩形的面積之比；筆畫粗細；以及連通域的顏色。

外界矩形是能夠將一個連通域包圍起來的最小矩形區域。前景面積是一個連通域的面積。筆畫粗細表示連通域中的筆畫的粗細。連通域的顏色表示該連通域在原始圖像中的顏色。這些特征并不與特定的語言類型相關，因此文本檢測設備100可以普適于多種語言。

這些連通域的特征可用于進行行的檢測和噪聲消除。

文本檢測模塊120還被配置為：從提取的連通域中移除具有明顯不屬于文本的特征的連通域。

例如，當檢測到一條直線時，其高寬比明顯與其它的連通域的寬高比不同。因此，可以將其從提取的連通域中刪除。再例如，當檢測到一個噪聲點時，其所占像素數目明顯小于其他的連通域所占的像素數目。因此，可以將其從提取的連通域中刪除。移除這些連通域以提高檢測精度。圖4示出了圖3所示的二值化結果中移除了明顯不屬于文本的特征的連通域后的結果。

可以預先設置文本的特征，以便在提取到連通域之后對提取的連通域進行過濾。當然，例如作為輸入模塊的攝像機可以輸入所拍攝的圖像的信息，文本檢測模塊可以根據圖像的信息對提取的連通域進行過濾。圖像的信息包括例如圖像的像素數目、圖像的寬度、高度等。

行檢測模塊130被配置為對提取的連通域進行組合，以檢測水平行和垂直行。可以分別處理水平行和垂直行。在現實世界中，水平行出現的概率遠高于垂直行出現的概率。因此，可以首先檢測水平行以確保水平行檢測相比于垂直行檢測具有較高的優先級。

針對水平行檢測，其算法如下。根據連通域的特征，將水平距離小于第一閾值的相鄰的連通域組合為一個候選水平子行；根據第二閾值，將水平距離小于第二閾值的相鄰的候選水平子行組合為一個候選水平行；將候選水平行中連通域的數量大于2的行作為水平行，并將剩余的行作為垂直行候選項。

假定提取的連通域表示為call，所有連通域可以組合為組。組合方法是根據連通域的水平位置關系和其他特征，例如筆畫粗細、筆畫顏色等。僅將水平距離很近的相鄰連通域組合到相同的組中。例如，根據連通域的特征，假定連通域的外界矩形的平均大小是10*10，則可以將第一閾值設置為5，并將水平距離小于第一閾值的相鄰的連通域組合到相同的組中，作為一個候選水平子行。假定chgroup1是組合后的結果，其中該組可以具有一個或多個連通域。然后，根據較大的水平距離再次對chgroup1進行組合。例如，假定連通域的外界矩形的平均大小是10*10，則可以將第二閾值設置為10，將水平距離小于第二閾值的相鄰候選水平子行組合為一個候選水平行。假定結果是chgroup2。由于亞洲語言的一些字符具有左右部分，因此可以僅將在每一個chgroup2中的連通域的數量大于2的chgroup2選擇為水平行。因此，chgroup2將分為兩個部分lhor和crest，lhor是檢測到的水平行，crest將作為垂直行候選項，參與垂直行檢測。

針對垂直行檢測，其算法如下。將垂直距離小于第三閾值的相鄰的垂直行候選項組合為一個候選垂直子行；根據第四閾值，將垂直距離小于第四閾值的相鄰的候選垂直子行組合為一個候選垂直行；將候選垂直行中連通域的數量大于或等于3的行作為垂直行。

例如，根據垂直位置關系對crest進行組合。僅將垂直距離很近的垂直行候選項組合到相同的組中。例如，根據連通域的特征，假定連通域的外界矩形的平均大小是10*10，則可以將第三閾值設置為5，并將垂直距離小于第三閾值的相鄰的垂直行候選項組合到相同的組中，作為一個候選垂直子行。假定cvgroup1是組合結果。然后，根據較大的垂直距離再次對cvgroup1進行組合。例如，假定連通域的外界矩形的平均大小是10*10，則可以將第四閾值設置為10，將垂直距離小于第四閾值的相鄰候選垂直子行組合為一個候選垂直行。假定最終組合結果是cvgroup2。僅將在每一組cvgroup2中的連通域的數量大于3的cvgroup2選擇為垂直行lverolhor和lver是檢測到的水平行和垂直行。圖5示出了圖2所示的待檢測的圖像的行檢測結果。圖6示出了另一個示例的待檢測的圖像和行檢測結果，其中圖6(a)示出了待檢測的圖像，圖6(b)示出了行檢測結果。

后處理模塊140被配置為針對檢測到的結果進行濾波，以提高檢測的精度。實際上，可能會提取出一些噪聲行，因為根據本發明實施例的文本檢測設備不局限于特定的語音類型。例如，可能會將墻壁上的磚塊識別為文本行。根據本發明實施例，可以通過以下步驟濾除噪聲：1)提取行的特征，這些特征包括字符的平均大小、前景面積與外界矩形的面積的平均填充比等。2)根據行特征識別噪聲，然后從結果中移除噪聲。例如，可以預設噪聲特征。例如，可以預設可能識別的窗、墻壁、書本頁面等的噪聲對象的特征。根據預設的噪聲特征，識別檢測到的結果中存在的具有預設的噪聲特征的行，并從結果中移除所識別的行。

圖1還示出了，根據本發明實施例的文本檢測設備100還包括顯示器150，用于顯示文本檢測結果。

圖7示出了根據本發明實施例的文本檢測方法700的流程圖。根據本發明實施例的文本檢測方法應用于電子設備，能夠對電子設備上的待檢測的圖像進行文本設備。當需要識別文本行時，根據本發明實施例的文本識別方法啟動。首先，在步驟s710處，對待檢測的圖像進行二值化，以得到二值化圖像并提取連通域，得到連通域的特征。然后，在步驟s720處，對提取的連通域進行組合，以檢測水平行和垂直行。在步驟s730處，針對檢測到的結果進行濾波，以消除噪聲。

步驟s710中得到的連通域的特征至少包括以下之一：外界矩形；前景面積；前景面積與外界矩形的面積之比；筆畫粗細；以及連通域的顏色。

在步驟s710中，在提取連通域之后，還包括：從提取的連通域中移除具有明顯不屬于文本的特征的連通域。

在步驟s720中，先檢測水平行，然后檢測垂直行。具體地，檢測水平行包括：根據連通域的特征，將水平相距小于第一閾值的相鄰的連通域組合為一個候選水平子行；根據第二閾值，將水平相距小于第二閾值的相鄰的候選水平子行組合為一個候選水平行；將候選水平行中連通域的數量大于2的行作為水平行，并將剩余的行作為垂直行候選項。檢測垂直行包括：將垂直距離小于第三閾值的相鄰的垂直行候選項組合為一個候選垂直子行；根據第四閾值，將垂直距離小于第四閾值的相鄰的候選垂直子行組合為一個候選垂直行；將候選垂直行中連通域的數量大于或等于3的行作為垂直行。

在步驟s730中，可以根據預設的噪聲特征，識別檢測到的結果中存在的具有預設的噪聲特征的行，并從結果中移除所識別的行。

根據本發明實施例的文本檢測方法和設備可以應用于各種電子設備，包括智能電話、寫字板、筆記本或其他手持電子設備。用戶可以在這種電子設備上輸入待檢測的圖像。電子設備可以高效且高精確地對圖像中的文本行進行識別。通過提取連通域并根據提取的連通域的特征來進行行的檢測，所以對于文本的語言沒有限制，而可以支持各種語言。此外，由于在執行了水平行檢測之后進行垂直行檢測，可以同時檢測水平行和垂直行。由于在檢測到行之后進行噪聲移除處理，可以以高精度進行行檢測。

圖8示出了利用根據本發明實施例的文本檢測方法的一個應用示例。如圖8所示，在智能電話上運行根據本發明實施例的文本檢測方法。當用戶在外旅行時，需要識別他看到的文字。假定該智能電話具有攝像頭。首先，利用攝像機捕獲現實世界的圖像，得到待檢測的圖像。然后，根據本發明實施例的文本檢測方法對待檢測的圖像進行文本識別，得到一個水平行和一個垂直行。然后，可以在該智能電話上運行光學字符識別ocr方法，識別水平行和垂直行中的文本。可以在該智能電話上運行翻譯程序，以將識別的文本翻譯為用戶所需的語言，從而該用戶可以方便地了解所看到的文字內容。

這里所公開的本發明實施例的其他設置包括執行在先概述的方法實施例的步驟和操作的軟件程序。更具體地，計算機程序產品是如下的一種實施例：具有計算機可讀介質，計算機可讀介質上編碼有計算機程序邏輯，當在計算設備上執行時，計算機程序邏輯提供相關的操作，從而提供上述技術方案。當在計算系統的至少一個處理器上執行時，計算機程序邏輯使得處理器執行本發明實施例所述的操作(方法)。本發明的這種設置典型地提供為設置或編碼在例如光介質(例如cd-rom)、軟盤或硬盤等的計算機可讀介質上的軟件、代碼和/或其他數據結構、或者諸如一個或多個rom或ram或prom芯片上的固件或微代碼的其他介質、或專用集成電路(asic)、或一個或多個模塊中的可下載的軟件圖像、共享數據庫等。軟件或固件或這種配置可安裝在計算設備上，以使得計算設備中的一個或多個處理器執行本發明實施例所述的技術。結合諸如一組數據通信設備或其他實體中的計算設備進行操作的軟件過程也可以提供根據本發明的設備。根據本發明的設備也可以分布在多個數據通信設備上的多個軟件過程、或者在一組小型專用計算機上運行的所有軟件過程、或者單個計算機上運行的所有軟件過程之間。

應該理解，嚴格地講，本發明的實施例可以實現為計算機設備上的軟件程序、軟件和硬件、或者單獨的軟件和/或單獨的電路。

應當注意的是，在以上的描述中，僅以示例的方式，示出了本發明的技術方案，但并不意味著本發明局限于上述步驟和單元結構。在可能的情形下，可以根據需要對步驟和單元結構進行調整和取舍。因此，某些步驟和單元并非實施本發明的總體發明思想所必需的元素。因此，本發明所必需的技術特征僅受限于能夠實現本發明的總體發明思想的最低要求，而不受以上具體實例的限制。

至此已經結合優選實施例對本發明進行了描述。應該理解，本領域技術人員在不脫離本發明的精神和范圍的情況下，可以進行各種其它的改變、替換和添加。因此，本發明的范圍不局限于上述特定實施例，而應由所附權利要求所限定。

完整全部詳細技術資料下載

當前第1頁1 2