本發明涉及一種數字化漢子拼字實現方法和裝置,屬于數字化漢子拼字技術領域。
背景技術:
現有的漢字構型的表示方法,多是以漢字的筆畫輸入為目標,在這類表示方法中,沒有漢字各個組成部分空間結構的完整信息,不能實現對漢字任意拆分方式的還原。例如,很多這類構型方法中,僅能表示出“思”這樣的合體字為上“田”下“心”結構,不能進一步表示“田”這樣的單體字。或者雖然能表示“田”這樣的單體字是3橫3豎結構,卻不能表示橫豎之間的空間位置關系,因此無法區分“田”、“由”、“甲”這類同樣由3橫3豎構成的字。
另一類漢字構型的表示方法,則主要針對構建漢字的字體庫,這類表示中漢字各個組成部分的空間位置是固定的,因此如果顯示的漢字在相對位置上構成漢字,但是各個筆畫的具體位置不同,用這種表示方法就無法區分了。如圖1所示,這兩個“思”字在人來看是一個字,但是右邊的字明顯和左邊根據字庫中生成的字有差別。
在識字教育中,往往需要讓使用者自己通過筆畫或部首拼合出漢字,然后再對漢字的具體讀音、字義、用法等進行詳細的解釋。目前基于數字化設備的拼字游戲往往是通過對所能處理的漢字的個數加以限制,或者對于使用者拼合過程中漢字組成部分的空間位置加以限定來實現拼字游戲的。這樣就不能對任意漢字通過任意組成部分進行拼字。例如:有些拼字游戲僅能實現用3個“口”拼合成“品”,不能進一步用6橫6豎拼合成“品”,或者需要先將6橫6豎拼合成3個“口”,再進一步拼合成“品”。有些拼字游戲需要把6橫6豎精確地放到某一個限定區域才能識別出拼出來的字是“品”。
另一種可能的實現方法是對于拼合以后的字通過模式識別的方法進行漢字識別,這種方法盡管識別率高,但是也難免會存在識別錯誤,甚至無法識別的情況。
總之,在目前的基于數字化設備的拼字游戲中,對于任何漢字,通過任何組成部分進行拼字,僅通過拼合后漢字各個組成部分的空間的相對位置來判斷是不是一個字是難以做到的。
技術實現要素:
為解決上述現有技術中存在的技術問題,本發明提出了一種數字化漢子拼字實現方法和裝置。
一種數字化漢字品字實現裝置,其特征在于,所述裝置包括:
用漢字的最小組成部件的相對位置空間表示漢字的表示模塊;
識別所述最小組成部件在相對空間位置上拼合成字的識別模塊;
顯示所述漢字相關信息的顯示模塊。
進一步地,所述裝置還包括:
對組成漢字的基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字建立索引表的索引建立模塊;
將漢字拆分為代表基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字的最小組成部件的漢字拆分模塊;
確定所述最小組成部件的最小矩形的矩形確定模塊;
確定所述最小矩形四個邊沿的相對空間位置關系的空間位置關系確定模塊。
進一步地,所述裝置還包括:
將漢字的所有最小部件進行編碼的字內編碼模塊;
根據索引表和字內編碼建立最小部件表的最小部件表建立模塊;
根據漢字所有最小矩形的相對空間位置關系建立位置關系表的位置關系表建立模塊;
將所述索引表、最小部件表和位置關系表進行儲存的數據存儲模塊。
進一步地,所述索引表包括索引編號和索引編號所代表的基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字;所述最小部件表用于記錄字內編號中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各編號與索引表中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各索引編號之間的對應關系。
進一步地,所述字內編碼模塊按照從左到右、從上到下的順序對漢字的最小部件進行編碼。
一種數字化漢字品字實現方法,其特征在于,所述方法包括:
用漢字的最小組成部件的相對位置空間表示漢字的表示步驟;
識別所述最小組成部件在相對空間位置上拼合成字的識別步驟;
顯示所述漢字相關信息的顯示步驟。
進一步地,所述方法還包括:
對組成漢字的基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字建立索引表的索引建立步驟;
將漢字拆分為代表基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字的最小組成部件的漢字拆分步驟;
確定所述最小組成部件的最小矩形的矩形確定步驟;
確定所述最小矩形四個邊沿的相對空間位置關系的空間位置關系確定步驟。
進一步地,所述方法還包括:
將漢字的所有最小部件進行編碼的字內編碼步驟;
根據索引表和字內編碼建立最小部件表的最小部件表建立步驟;
根據漢字所有最小矩形的相對空間位置關系建立位置關系表的位置關系表建立步驟;
將所述索引表、最小部件表和位置關系表進行儲存的數據存儲步驟。
進一步地,所述索引表包括索引編號和索引編號所代表的基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字;所述最小部件表用于記錄字內編號中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各編號與索引表中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各索引編號之間的對應關系。
進一步地,所述字內編碼步驟按照從左到右、從上到下的順序對漢字的最小部件進行編碼。
本發明有益效果:
本發明提供的數字化漢子拼字實現方法和裝置能夠精準的識別一個拼出的漢字,實現對任意漢字通過任意組成部分進行拼字,沒有空間區域上的限制,且只要在漢字表示中無差錯,拼合后的漢字不存在識別錯誤的問題,準確率達到100%。解決了目前的基于數字化設備的拼字游戲中,對于任何漢字,通過任何組成部分進行拼字,僅通過拼合后漢字各個組成部分的空間的相對位置來判斷不能判斷漢字的問題。
附圖說明
圖1為通過字庫生成的固定筆畫空間位置的漢字和拼字游戲中相對空間位置漢字對比的示意圖;
圖2為本發明所述裝置的結構示意圖;
圖3為索引表示意圖;
圖4為漢字“八”的拆分及每一個最小部件的最小矩形示意圖;
圖5為漢字“八”的字內編號和統一編號對應關系表示意圖;
圖6為最小部件的最初顯示和移動后的顯示效果示意圖;
圖7為漢字的相關信息的顯示示意圖。
具體實施方式
下面結合具體實施例對本發明做進一步說明,但本發明不受實施例的限制。
實施例1
一種數字化漢字品字實現裝置,其特征在于,所述裝置包括:
用漢字的最小組成部件的相對位置空間表示漢字的表示模塊;
識別所述最小組成部件在相對空間位置上拼合成字的識別模塊;
顯示所述漢字相關信息的顯示模塊。
進一步地,所述裝置還包括:
對組成漢字的基本筆畫(如:橫、豎、撇、捺、點等)、難以用基本筆畫來構建的偏旁部首(如:乙、阝、廴)和單體字(如:一九〇〇年的“〇”)建立索引表的索引建立模塊;
將漢字拆分為代表基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字的最小組成部件的漢字拆分模塊;
確定所述最小組成部件的最小矩形的矩形確定模塊;
確定所述最小矩形四個邊沿的相對空間位置關系的空間位置關系確定模塊。
進一步地,所述裝置還包括:
將漢字的所有最小部件進行編碼的字內編碼模塊;
根據索引表和字內編碼建立最小部件表的最小部件表建立模塊;
根據漢字所有最小矩形的相對空間位置關系建立位置關系表的位置關系表建立模塊;
將所述索引表、最小部件表和位置關系表進行儲存的數據存儲模塊。
其中,所述索引表包括索引編號和索引編號所代表的基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字;所述最小部件表用于記錄字內編號中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各編號與索引表中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各索引編號之間的對應關系。所述字內編碼模塊按照從左到右、從上到下的順序對漢字的最小部件進行編碼。
一種數字化漢字品字實現方法,其特征在于,所述方法包括:
用漢字的最小組成部件的相對位置空間表示漢字的表示步驟;
識別所述最小組成部件在相對空間位置上拼合成字的識別步驟;
顯示所述漢字相關信息的顯示步驟。
進一步地,所述方法還包括:
對組成漢字的基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字建立索引表的索引建立步驟;
將漢字拆分為代表基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字的最小組成部件的漢字拆分步驟;
確定所述最小組成部件的最小矩形的矩形確定步驟;
確定所述最小矩形四個邊沿的相對空間位置關系的空間位置關系確定步驟。
進一步地,所述方法還包括:
將漢字的所有最小部件進行編碼的字內編碼步驟;
根據索引表和字內編碼建立最小部件表的最小部件表建立步驟;
根據漢字所有最小矩形的相對空間位置關系建立位置關系表的位置關系表建立步驟;
將所述索引表、最小部件表和位置關系表進行儲存的數據存儲步驟。
其中,所述索引表包括索引編號和索引編號所代表的基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字;所述最小部件表用于記錄字內編號中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各編號與索引表中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各索引編號之間的對應關系。所述字內編碼步驟按照從左到右、從上到下的順序對漢字的最小部件進行編碼。
本發明提出的數字化漢字拼字實現方法利用漢字的最小組成部件的相對位置空間表示漢字,然后識別所述最小組成部件在相對空間位置上拼合成字;最后顯示所述漢字相關信息。
本發明所述數字化漢字拼字實現方法的具體工作過程為:首先,對于組成漢字的基本筆畫(如:橫、豎、撇、捺、點等)和難以用筆畫來構建的部首(如:乙、阝、廴)、單體字(如:一九〇〇年的“〇”)建立一個索引表,索引表中的編號即代表編號后面的筆畫、部首或單體字(圖3),下稱統一編號。然后,對于每一個漢字,分拆組成這個漢字的筆畫或者難以用筆畫表示的部首、單體字,直到不能進一步分拆為止,對于分拆出來的不能進一步分拆的筆畫或者部首、單體字,稱為最小部件。對每一個最小部件確定能夠包圍這個最小部件的最小矩形。其中,最小矩形的定義是恰好包圍住這個最小部件(即最小部件沒有任何部分超出這個矩形)的橫邊最短且豎邊也最短的矩形。隨后,按照一定的順序對于從一個漢字拆分出來每一個最小部件進行編號(下稱字內編號),并建立字內編號和最小部件代表的筆畫或者部首、單體字在步驟一中索引表統一編號的對應關系,形成最小部件表;
再此之后,對于從一個漢字拆分出來任意兩個最小部件,確定它們最小矩形4個邊沿的相對空間位置關系;根據相對空間位置關系建立了組成該字的所有最小部件的所有相對空間位置關系的關系表,即位置關系表。
最后,將索引表、每一個漢字的最小部件表和位置關系表存儲在處理設備中(例如處理設備的隨機存儲器中);漢字由字符編碼(例如GB18030、UTF-8等)表示,同時存儲該漢字對應的相關信息,如讀音、字義、組詞、例句等。
實施例2:
一種數字化漢字品字實現裝置,其特征在于,所述裝置包括:
用漢字的最小組成部件的相對位置空間表示漢字的表示模塊;
識別所述最小組成部件在相對空間位置上拼合成字的識別模塊;
顯示所述漢字相關信息的顯示模塊。
所述裝置還包括:
對組成漢字的基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字建立索引表的索引建立模塊;
將漢字拆分為代表基本筆畫、難以用基本筆畫來構建的偏旁部首和單體字的最小組成部件的漢字拆分模塊;
確定所述最小組成部件的最小矩形的矩形確定模塊;
確定所述最小矩形四個邊沿的相對空間位置關系的空間位置關系確定模塊。
將漢字的所有最小部件進行編碼的字內編碼模塊;
根據索引表和字內編碼建立最小部件表的最小部件表建立模塊;
根據漢字所有最小矩形的相對空間位置關系建立位置關系表的位置關系表建立模塊;
將所述索引表、最小部件表和位置關系表進行儲存的數據存儲模塊。
其中,所述索引表包括索引編號和索引編號所代表的基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字;所述最小部件表用于記錄字內編號中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各編號與索引表中表示基本筆畫、難以用基本筆畫來構建的偏旁部首或單體字的各索引編號之間的對應關系。所述字內編碼模塊按照從左到右、從上到下的順序對漢字的最小部件進行編碼。
一種數字化漢字品字實現方法,其特征在于,所述方法包括:
第一步、表示模塊用精確到筆畫的漢字組成部分的相對空間位置來表示漢字;
第二步、當漢字的組成部件在相對空間位置上能夠拼合成一個字的時候,識別模塊識別拼合出來的漢字;
第三步、顯示模塊顯示該漢字的相關信息,如讀音、字義、組詞、例句等。
其中,所述方法還包括:
步驟一、索引建立模塊對于組成漢字的基本筆畫(如:橫、豎、撇、捺、點等)和難以用筆畫來構建的部首(如:乙、阝、廴)、單體字(如:一九〇〇年的“〇”)建立一個索引表,下稱統一編號。
步驟二、漢字拆分模塊對于每一個漢字,分拆組成這個漢字的筆畫或者難以用筆畫表示的部首、單體字,直到不能進一步分拆為止,對于分拆出來的不能進一步分拆的筆畫或者部首、單體字,稱為最小部件。矩形確定模塊對每一個最小部件確定能夠包圍這個最小部件的最小矩形。最小矩形的定義是恰好包圍住這個最小部件(即最小部件沒有任何部分超出這個矩形)的橫邊最短且豎邊也最短的矩形。圖4給出了漢字“八”的拆分及每一個最小部件的最小矩形示意圖,其中最小矩形的邊用虛線表示。由于這是漢字的抽象表示,因此筆畫沒有寬度,這意味著筆畫“橫”的最小矩形的上邊沿和下邊沿相重合,實際上是一個橫線,為了統一稱謂,也把這種特殊情況稱為最小矩形(看成左右邊沿長度為零,上下邊沿重合的矩形)。
步驟三、字內編碼模塊按照一定的順序對于從一個漢字拆分出來每一個最小部件進行編號(下稱字內編號),并通過最小部件表建立模塊建立字內編號和最小部件代表的筆畫或者部首、單體字在步驟一中索引表統一編號的對應關系,圖5左邊為以從左到右順序給漢字“八”做字內編號,右邊為字內編號和統一編號對應關系表,即最小部件表。
步驟四、空間位置關系確定模塊對于從一個漢字拆分出來任意兩個最小部件,確定它們最小矩形4個邊沿的相對空間位置關系。例如,對于“八”字,撇的最小矩形的右邊沿應該在捺的最小矩形左邊沿的左側且不重合,捺的最小矩形上邊沿應該在撇的最小矩形的上邊沿的上邊。在位置關系表建立模塊中,用0表示左邊沿,1表示上邊沿,2表示右邊沿,3表示下邊沿,按照圖5中漢字“八”的字內編號,并按照從左到右,從上到下的順序,這個關系應該表示為{(001/2<002/0),[001/0>002/0]},其中,“/”前面的部分是最小部件的字內編號,后面的部分是邊沿的表示數字,大于和小于號表示空間位置關系,圓括號表示從左到右的空間位置關系,方括號表示從上到下的空間位置關系,逗號隔開每一個關系,花括號內是表示組成該字的所有最小部件的所有空間位置關系。這樣就建立了組成該字的所有最小部件的所有相對空間位置關系的關系表,下稱位置關系表。
步驟五、數據存儲模塊將步驟一的索引表、每一個漢字的最小部件表和位置關系表存儲在處理設備中(例如處理設備的隨機存儲器中);漢字由字符編碼(例如GB18030、UTF-8等)表示,同時存儲該漢字對應的相關信息,如讀音、字義、組詞、例句等。
實施例3
根據圖6具體說明本實施例,本實施例所述為在顯示設備上拖拽漢字的組成部件的方法,本實施例中的顯示設備優選為具有觸摸功能的顯示設備,即觸摸顯示屏,該方法包括以下步驟:
A1、選取一個漢字,從具體實施方式一步驟五存儲的最小部件表中查出組成該漢字的最小部件的統一編碼,根據統一編碼在具體實施方式一步驟一的索引表中查出對應的筆畫、部首、獨體字,在顯示設備的觸摸顯示屏上顯示這些最小部件(圖6左邊),同時記錄每一個最小部件的位置(用最小矩形各邊沿的絕對坐標表示,絕對坐標可以是以像素為單位的矩形各邊沿距離觸摸顯示屏左邊沿和上邊沿的距離)。
A2、當手指觸摸到觸摸顯示屏時,計算手指觸碰到觸摸顯示屏的點和每一個最小部件的最小矩形的關系,如果在最小矩形內則該最小部件被拾取,隨手指移動而移動。
A3、當手指離開觸摸顯示屏時,更新所拾取的最小部件的位置(圖6右邊)。
實施例4
本實施例所述為當漢字的組成部件在相對空間位置上能夠拼合成一個字的時候,識別拼合出來的漢字的方法,該方法包括以下步驟:
B1、對觸摸顯示屏上顯示的所有最小部件,按照與具體實施方式一步驟三相同的順序進行編號,并按照具體實施方式一步驟三的方法生成最小部件表A,然后按照具體實施方式一步驟四的方法生成位置關系表X。
B2、對于存儲在處理設備中的每一個漢字的最小部件表B,如果B和A完全相同,則將該漢字的位置關系表Y和X進行比較,如果也完全相同,則判定該漢字就是拼合出來的漢字。
B3、如果存儲在處理設備中的所有漢字,其最小部件表B都不同于A,或者雖然B和A完全相同,但Y和X不相同,則顯示“這不是一個漢字”或“系統中未查到”或其它提示信息。
B4、對于步驟二識別出來的漢字,采用具體實施方式一步驟五存儲的字符編碼表示。
實施例5
參照圖7具體說明本實施例,本實施例所述為顯示該漢字的相關信息,如讀音、字義、組詞、例句等的方法,該方法包括以下步驟:
C1、根據具體實施例3中B4識別出來的漢字的字符編碼,查找存儲在處理設備中的該漢字對應的相關信息,如讀音、字義、組詞、例句等。
C2、將C1查找到的相關信息顯示在觸摸顯示屏上(圖7)。
雖然本發明已以較佳的實施例公開如上,但其并非用以限定本發明,任何熟悉此技術的人,在不脫離本發明的精神和范圍內,都可以做各種改動和修飾,因此本發明的保護范圍應 該以權利要求書所界定的為準。