專利名稱:源語言改寫處理方法和設備及機器翻譯系統的制作方法
源語言改寫處理方法和設備及機器翻譯系統技術領域
本發明總體上涉及自然語言處理領域,具體來說涉及一種可用于輔助機器翻譯的 源語言改寫處理方法和設備,以及一種包括該設備的機器翻譯系統。
背景技術:
機器翻譯是利用計算設備把一種自然語言(即,源語言)轉換為另一種自然語言 (即,目標語言)的過程,是自然語言處理(Natural Language Processing)的一個分支。 機器翻譯通常利用詞典和訓練語料來學習獲得源語言和目標語言的詞匯、語法及其對應特 征。一般來說,在源語言和目標語言之間在詞匯和語序等方面往往存在一些差異,使得對于 存在此類差異的語句的翻譯成為機器翻譯過程中的難點,由此導致機器翻譯的精度較低。 如何更好地提高機器翻譯的精度一直是迫切要解決的問題。改寫是一種服務于提高機器翻 譯精度的方法,可以通過詞典、源語言和目標語的對應關系、語料庫等多種資源和手段將源 語言改變為易于機器反應系統理解和處理的形式。
發明人發現,根據源語言自身的語法特點進行改寫可以在不依賴外部資源支持的 情況下,化繁為簡,變難為易,將源語言改寫為一種機器翻譯系統易于理解和處理的形式, 顯著提高機器翻譯系統的速度和精度。如果在機器翻譯前預先對源語言的文字符號序列進 行處理,將源語言語句中復雜的語句(多個謂詞嵌套的復合句)拆分重構為簡單的單謂詞 非嵌套子句的句子,使其成為易于翻譯的文字符號序列,將能夠大幅度地降低機器翻譯的 難度,提高翻譯的精度和質量。基于這個認識,發明人做出了本發明。發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本 理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的 關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概 念,以此作為稍后論述的更詳細描述的前序。
鑒于現有技術的上述缺陷,本發明的目的之一是提供一種源語言改寫處理方法和 設備,其能夠在進行傳統的機器翻譯之前對要翻譯的源語言語句進行改寫處理,將復雜的 難翻譯的語句轉換為簡單的易于翻譯的語句,從而能夠部分解決傳統的機器翻譯過程中存 在的翻譯精度低的問題。
本發明的另一個目的是提供包括上述源語言改寫處理設備的機器翻譯系統,以及 相應的計算機可讀存儲介質和程序產品。
根據本發明的一個實施例,提供了一種源語言改寫處理方法,該源語言改寫處理 方法包括對源語言語句中的待處理語句進行語法分析;根據語法分析結果確定待處理語 句中的包含子句嵌套結構的語句;基于語法分析結果對所確定的包含子句嵌套結構的語句 進行重構,以獲得至少一個包含非嵌套子句的語句;以及用所獲得的至少一個包含非嵌套 子句的語句中的、含有最多非嵌套子句的語句來替換上述包含子句嵌套結構的語句。
根據本發明的另一個實施例,提供了一種源語言改寫處理設備,該源語言改寫處 理設備包括語法分析單元,被配置用于對源語言語句中的待處理語句進行語法分析,并根 據語法分析結果確定待處理語句中的包含子句嵌套結構的語句;以及語句重構單元,被配 置用于基于語法分析結果對所確定的包含子句嵌套結構的語句進行重構,以獲得至少一個 包含非嵌套子句的語句,并用上述至少一個包含非嵌套子句的語句中的含有最多非嵌套子 句的語句來替換上述包含子句嵌套結構的語句。
根據本發明的又一個實施例,提供了一種機器翻譯系統,該機器翻譯系統包含上 述的源語言改寫處理設備。
通過將根據本發明實施例的上述處理方法和設備應用到傳統的機器翻譯過程中, 能夠實現以下益處通過在傳統的機器翻譯之前對源語言的語句進行處理,將源語言語句 中的包含子句嵌套結構的復雜語句轉換成不包含子句嵌套結構的簡單語句,使得處理后的 源語言語句在后續進行的機器翻譯過程中的翻譯難度降低,從而能夠提高機器翻譯過程的 翻譯精度和翻譯效率。
通過以下結合附圖對本發明的最佳實施例的詳細說明,本發明的這些以及其他優 點將變得更加明顯。
本發明可以通過參考下文中結合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的 詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本 發明的優選實施例和解釋本發明的原理和優點。在附圖中
圖1是根據本發明實施例的源語言改寫處理方法的流程圖2是根據本發明實施例的圖1中的步驟S140的具體處理過程的流程圖3是示出根據本發明實施例的源語言改寫處理方法的示例性處理流程的示意 圖4A是以語法分析樹形式表示的拆分前語句的語法分析結果;
圖4B-4D分別為以語法分析樹形式表示的第一、第二和第三候選語句的語法分析結果;
圖5是根據本發明實施例的處理方法的另一種具體實現方式中包括的語義搭配 異常處理過程的流程圖6是示出語句“他總是吃父母”的語義角色自動標注的分析樹的示意圖7是示意性地示出根據本發明實施例的處理設備的結構的框圖8是示出如圖7中示出的語句重構單元的一個具體例子的結構的示意圖;以及
圖9是示出了在其中可以實現根據本發明實施例的方法和/或設備的通用個人計 算機的示例性結構的框圖。
本領域技術人員應當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以 便有助于提高對本發明實施例的理解。
具體實施方式
在下文中將結合附圖對本發明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施 例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符 合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有 所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開 內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。
在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中 僅僅示出了與根據本發明的方案密切相關的設備結構和/或處理步驟,而省略了與本發明 關系不大的其他細節。
圖1是根據本發明實施例的源語言改寫處理方法的流程圖。
如圖1所示,根據本發明實施例的源語言改寫處理方法100開始于步驟S110,然后 在步驟S120中對待處理語句進行語法分析。
在此所提及的待處理語句可以是要進行機器翻譯的源語言語句本身,也可以是對 上述源語言語句進行初步篩選后得到的語句,例如可以是從上述源語言語句中篩選出的滿 足一定條件的語句。其中,上述“滿足一定條件的語句”例如可以是其中所包含的謂詞總數 和總詞數均分別高于預設值的語句。這里,所說的“謂詞”包括動詞和形容詞。
具體地,在本發明實施例的方法的一個具體示例中,可以通過下述方式確定將要 利用本發明實施例的處理方法進行處理的待處理語句對等待進行機器翻譯的源語言語句 進行分詞和詞性標注處理,然后根據分詞和詞性標注處理的結果,從上述源語言語句中篩 選得到滿足以下兩個條件的語句語句中包含的謂詞總數高于第一預設閾值;且語句中包 含的總詞數高于第二預設閾值。
這樣篩選出的語句是存在較高的翻譯難度的一類長的、復雜的句子,由此能夠進 一步縮小處理對象的范圍,進而可以提高處理速度和處理效率。此外,在如上的篩選過程中 被濾除的是包含的謂詞總數少或包含的總詞數少的簡單句子,這樣的簡單句子中的大部分 通常不包含嵌套結構,而且即使是包含嵌套結構的小部分此類句子,它們通常在機器翻譯 過程中具有較低的翻譯難度,所以可以不經過根據本發明實施例的方法處理而直接進行機 器翻譯。
在步驟S120中對待處理語句所進行的語法分析可以是短語結構語法分析或依存 關系語法分析中的任一種,也可以是現有的其他任意一種語法分析。
然后,在步驟S130中,根據語法分析的結果確定待處理語句中的、包含子句嵌套 結構的語句。
在通過對待處理語句進行語法分析而得到的語法分析結果中,除包含語句的文字 符號序列外還包含其他更多的語法知識(包括詞性信息、非嵌套子句的句法結構等語法信 息),因此能夠根據語法分析結果確定待處理語句中的哪些語句是包含子句嵌套結構的語 句。并且這些語法知識是之后進行重組工作的重要依據和參考信息。
在此所提及的“包含子句嵌套結構的語句”是指其中嵌套有子句的語句,這類語句 通常至少包含兩套主謂關系。其中,這里所說的“子句”可以是嵌套子句,也可以是非嵌套 子句,且“子句”至少包含一套主謂關系。嵌套子句是包含子句嵌套結構的子句,并且,嵌套子句也可進一步包含有嵌套子句。非嵌套子句則不包含任何子句嵌套結構。
接下來,在步驟S140中,基于語法分析結果對步驟S130中確定的包含子句嵌套結 構的語句進行重構,以獲得至少一個包含非嵌套子句的語句。為了簡單起見,以下將重構后 的包含非嵌套子句的語句稱為語句候選。下面將結合圖2對根據本發明實施例的步驟S140 的具體處理過程進行詳細描述。
在步驟S150中,從步驟S140中獲得的上述至少一個包含非嵌套子句的語句(即, 語句候選)中選取一個適當的語句來替換步驟S130中確定的包含子句嵌套結構的語句。為 了簡單起見,以下將步驟S130中確定的包含子句嵌套結構的語句簡稱為待替換語句。
在根據本發明實施例的方法中,可以從語句候選中選擇包含最多數目的非嵌套子 句的語句作為所述適當的語句,來替換步驟S130中確定的包含子句嵌套結構的語句。然 而,在語句候選中包含最多數目的非嵌套子句的語句可能不只一個。在這種情況下,可以通 過諸如N元語法等的語言模型對每個含有最多非嵌套子句的語句進行評分,并選擇其中得 分最高的語句作為所述適當的語句。
然后,方法100在步驟S160結束。
圖2示出了根據本發明實施例的、圖1中的步驟S140的具體處理過程的流程圖。
如圖2所示,在步驟S210中,基于所述語法分析結果,將步驟S130中確定的、包含 子句嵌套結構的語句(即,待替換語句)拆分為非嵌套子句和剩余的多個句子成分,其中句 子成分可以是詞,也可以是由至少兩個詞構成的、包含語法關系的短語。
具體地,由于根據所述語法分析結果可以確定待替換語句中包含的非嵌套子句, 因此可以通過破壞待替換語句中的、除非嵌套子句之外的語法關系,以及保留非嵌套子句 的語法關系,而得到非嵌套子句和剩余的多個句子成分及其詞性信息,此時,各個句子成分 均是單獨的詞語。
此外,也可以在保留待替換語句中的非嵌套子句的語法關系之外,并保留待替換 語句中除非嵌套子句之外的、由至少兩個詞構成的短語所對應的語法關系,而破壞待替換 語句中的、除上述非嵌套子句和短語之外的語法關系,從而得到非嵌套子句和剩余的多個 句子成分,此時,上述多個句子成分中包括詞和短語。
然后,在步驟S220中,對步驟S210中拆分后得到的非嵌套子句以及其他句子成分 進行多次調序,再一次進行自動語法分析。在進行調序時,可以將拆分后得到的非嵌套子句 作為整體在整個語句中逐次向右調序,或者可以對拆分后的除非嵌套子句之外的其他句子 成分在整個語句中逐次向左調序,從而得出所有可能的調序結果。
在步驟S230中,作為多次調序、自動語法分析的結果,獲得至少一個包含非嵌套 子句的語句。在此,所得到的包含非嵌套子句的語句中應當包含對應的原始語句(即,待替 換語句)中所包括的所有字符串。
下面結合圖3以及圖4A至圖4D來描述根據本發明實施例的源語言改寫處理方法 的一個具體應用示例。
圖3是示出根據本發明實施例的源語言改寫處理方法300的示例性處理流程的示 意圖。如圖3所示,處理方法300在步驟S310開始,然后進行到步驟S320。
在步驟S320中,在需要進行處理的一段源語言語句中篩選得到滿足下述條件的 多個待處理語句語句中包含的謂詞總數大于N,且包含的總詞數大于M,其中N和M為自然數。例如,N和M的取值可以為N = 2,M= 10。
然后,在步驟S330中,對篩選得到的多個待處理語句進行語法分析,例如短語結構語法分析。
在步驟S340中,根據上述語法分析的結果,確定在上述多個待處理語句中的包含子句嵌套結構的語句。例如,假設確定出的包含子句嵌套結構的語句為“他躲在一個你看得見他他看不見你的地方”。為描述方便起見,在下文中,將該語句“他躲在一個你看得見他他看不見你的地方”稱作“拆分前語句”。
圖4A是以語法分析樹形式表示的上述拆分前語句的語法分析結果。其中,在圖4A 以及以下將要進行描述的圖4B-4D中的語法分析樹中可能出現的標記及其含義描述可以參見下面的表1:
表I
權利要求
1.一種源語言改寫處理方法,包括 對源語言語句中的待處理語句進行語法分析; 根據語法分析結果確定所述待處理語句中的包含子句嵌套結構的語句; 基于所述語法分析結果對所確定的包含子句嵌套結構的語句進行重構,以獲得至少一個包含非嵌套子句的語句;以及 用所獲得的至少一個包含非嵌套子句的語句中的、含有最多非嵌套子句的語句來替換所述包含子句嵌套結構的語句。
2.根據權利要求1所述的源語言改寫處理方法,在進行語法分析的步驟之前還包括步驟從源語言語句中篩選滿足下列條件的語句作為所述待處理語句 語句中的謂詞總數高于第一預設閾值;以及 語句中的總詞數高于第二預設閾值。
3.根據權利要求1所述的源語言改寫處理方法,其中,對所述包含子句嵌套結構的語句進行重構的步驟進一步包括 基于所述語法分析結果,將所述包含子句嵌套結構的語句拆分為非嵌套子句和剩余的多個句子成分;以及 對所述非嵌套子句和所述多個句子成分進行調序,作為調序的結果,獲得至少一個包含非嵌套子句的語句。
4.根據權利要求3所述的源語言改寫處理方法,其中,所述調序步驟進一步包括 將拆分后得到的非嵌套子句作為整體在整個語句中逐次向右調序,或者將拆分后的除非嵌套子句之外的其他句子成分在整個語句中逐次向左調序。
5.根據權利要求1所述的源語言改寫處理方法,其中,所述用含有最多非嵌套子句的語句來替換所述包含子句嵌套結構的語句的步驟進一步包括 在所述至少一個包含非嵌套子句的語句中的含有最多非嵌套子句的語句的個數大于I的情況下,利用預定語言模型對每個所述含有最多非嵌套子句的語句進行評分,并選擇其中得分最高的語句來替換所述包含子句嵌套結構的語句。
6.根據權利要求1-5中任意一項所述的源語言改寫處理方法,還包括以下步驟 對要進行語義搭配異常處理的語句進行語義角色自動標注,以確定語句中的語義搭配出現異常的詞語對; 把語義搭配異常的詞語對中的具有較多詞義項數的一個詞語確定為導致語義搭配異常的主要元素詞語;以及 從預先存儲的語料庫中獲得與所述詞語對中的另一個詞語搭配頻率高于預設閾值的多個詞語,并用所述多個詞語中的與所述詞語對相關度最高的一個詞語來替換所述詞語對中的主要元素詞語。
7.根據權利要求1-6中任意一項所述的源語言改寫處理方法,還包括 確定要進行多義詞歧義消除處理的語句中的多義詞; 根據語境含義確定每個多義詞在語句中的唯一義項;以及 用預先存儲的字典中的與所確定的義項對應的一個詞語替換與該義項有關的多義詞。
8.根據權利要求1-7中任意一項所述的源語言改寫處理方法,其中,所述源語言語句是要進行機器翻譯的語句。
9.一種源語言改寫處理設備,包括 語法分析單元,被配置用于對源語言語句中的待處理語句進行語法分析,并根據語法分析結果確定所述待處理語句中的包含子句嵌套結構的語句;以及 語句重構單元,被配置用于基于所述語法分析結果對所確定的包含子句嵌套結構的語句進行重構,以獲得至少一個包含非嵌套子句的語句,并用所述至少一個包含非嵌套子句的語句中的含有最多非嵌套子句的語句來替換所述包含子句嵌套結構的語句。
10.一種機器翻譯系統,包含根據權利要求9所述的源語言改寫處理設備。
全文摘要
本發明提供了一種源語言改寫處理方法和設備及機器翻譯系統。該改寫處理方法包括對源語言語句中的待處理語句進行語法分析;根據語法分析結果確定待處理語句中的包含子句嵌套結構的語句;基于語法分析結果對所確定的包含子句嵌套結構的語句進行重構,以獲得至少一個包含非嵌套子句的語句;以及用所獲得的至少一個包含非嵌套子句的語句中的、含有最多非嵌套子句的語句來替換上述包含子句嵌套結構的語句。該處理裝置被配置實現上述處理方法中包括的功能。應用本發明的處理方法、設備或系統,能夠將一些復合長句降解并重組為若干非復合的子句,降低機器翻譯過程中的翻譯難度,提高翻譯精度和翻譯效率。本發明適用于自然語言處理領域。
文檔編號G06F17/28GK103020040SQ201110305010
公開日2013年4月3日 申請日期2011年9月27日 優先權日2011年9月27日
發明者張潔, 葛乃晟, 鄭仲光, 孟遙, 于浩 申請人:富士通株式會社