本發明涉及信息抽取技術領域,具體而言,涉及一種人物關系分類方法及裝置。
背景技術:
目前,在社交輿情分析及社會網絡分析等領域常需分析人物的社會關系,文本信息中通常都包含人物關系信息,而人物關系包括親人關系、同事關系等多種類型,因此在分析人物的社會關系前,需對文本信息中的人物關系進行分類。
當前,相關技術中提供了一種基于有監督式機器學習的人物關系分類方法,包括:對大量文本進行人工語料標注,標注出文本中的人物關系,對人工標注后的文本進行訓練學習,建立人物關系分類模型。通過該人物關系分類模型對自由文本中的人物關系進行分類。
但相關技術中需人工標注大量文本,這在需標注的文本數量不多時可實現,但對于海量的文本,會出現人工標注的瓶頸,在文本數量龐大時通過人工標注出文本中的人物關系,很難實現,即便能實現,也會導致人物關系分類的效率很低。
技術實現要素:
有鑒于此,本發明實施例的目的在于提供一種人物關系分類方法及裝置,通過魯棒路徑相似度度量擴充標注向量集,并通過魯棒性的作用消除噪聲和孤立點的影響,減少了人工標注語料,減少了人力資源的消耗和浪費,解決了需海量標注時人工標注語料的瓶頸問題,且將正則化的半監督分類算法應用到人物關系提取中,提高了人物關系分類的效率。
第一方面,本發明實施例提供了一種人物關系分類方法,所述方法包括:
獲取標注向量集、未標注向量集和候選關系測試集;
根據所述標注向量集和所述未標注向量集,通過魯棒路徑相似度度量擴充所述標注向量集;
通過非線性半監督分類函數對擴充后的所述標注向量集進行訓練學習,得到人物關系分類模型;
通過所述人物關系分類模型對所述候選關系測試集進行人物關系分類。
結合第一方面,本發明實施例提供了上述第一方面的第一種可能的實現方式,其中,所述根據所述標注向量集和所述未標注向量集,通過魯棒路徑相似度度量方式擴充所述標注向量集,包括:
從所述未標注向量集中獲取第一未標注向量,所述第一未標注向量為所述未標注向量集包括的任一未標注向量;
分別計算所述第一未標注向量與所述標注向量集包括的每個標注向量之間的魯棒路徑相似度;
若計算的多個魯棒路徑相似度中最大的魯棒路徑相似度大于預設閾值,則將所述第一未標注向量添加在所述標注向量集中。
結合第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第二種可能的實現方式,其中,所述分別計算所述第一未標注向量與所述標注向量集包括的每個標注向量之間的魯棒路徑相似度,包括:
根據所述第一未標注向量與所述標注向量集,通過如下公式(1)計算所述第一未標注向量與所述標注向量集包括的每個標注向量之間的魯棒路徑相似度;
在公式(1)中,i為所述第一未標注向量的序號,j為標注向量的序號,Sij為所述魯棒路徑相似度;P為所述第一未標注向量與標注向量之間的路徑,|P|為所述路徑P上的頂點數目,P[h]為所述路徑P上的第h個頂點,P[h+1]為所述路徑P上的第h+1個頂點;wP[h]P[h+1]為所述路徑P上第h個頂點與第h+1個頂點之間的相似度;xi表示第一未標注向量,xj表示標注向量,參數σ用來控制相似度的變化速度,Ni表示第一未標注向量的領域。
結合第一方面,本發明實施例提供了上述第一方面的第三種可能的實現方式,其中,所述通過非線性半監督分類函數對擴充后的所述標注向量集進行訓練學習,得到人物關系分類模型之前,還包括:
根據擴充后的所述標注向量集中每個向量的特征屬性和決策屬性,構建魯棒路徑正則化框架;
根據所述魯棒路徑正則化框架,構造非線性半監督分類函數。
結合第一方面的第三種可能的實現方式,本發明實施例提供了上述第一方面的第四種可能的實現方式,其中,所述根據擴充后的所述標注向量集和所述魯棒路徑相似度度量,構建魯棒路徑正則化框架,包括:
根據擴充后的所述標注向量集中每個向量的特征屬性和決策屬性,通過如下公式(2)構建魯棒路徑正則化框架;
在公式(2)中,i和j均為擴充后所述標注向量集中向量的序號,Ni表示xi的領域,σ為權值控制參數,l為擴充前所述標注向量集包括的標注向量的數目,u為所述未標注向量集包括的未標注向量的數目,xi為擴充后所述標注向量集中第i個向量的特征屬性,zi為所述第i個向量的人物關系的決策屬性,f*(zi)為所述魯棒路徑正則化框架,K(xi,zi)表示參數為xi和zi的核函數。
結合第一方面的第四種可能的實現方式,本發明實施例提供了上述第一方面的第五種可能的實現方式,其中,所述根據所述魯棒路徑正則化框架,構造非線性半監督分類函數,包括:
根據所述魯棒路徑正則化框架,獲得凸可微目標函數;
對所述凸可微目標函數進行求導后代入所述魯棒路徑正則化框架中,得到非線性半監督分類函數;
在公式(3)中,為對所述凸可微目標函數進行求導所得系數,l為擴充前所述標注向量集包括的標注向量的數目,u為所述未標注向量集包括的未標注向量的數目,xi為擴充后所述標注向量集中第i個向量的特征屬性,zi為所述第i個向量的人物關系決策屬性,f*(zi)為所述魯棒路徑正則化框架,K(xi,zi)表示參數為xi和zi的核函數
結合第一方面,本發明實施例提供了上述第一方面的第六種可能的實現方式,其中,所述獲取標注向量集和未標注向量集,包括:
對采樣文本進行中文分詞和詞性標注,識別所述采樣文本包含的人名詞,并對所述采樣文本中包含的人稱代詞進行指代消解;
對所述采樣文本進行句子切分,選取出包含人物關系的候選句;
根據候選句中包括的人名詞及所述人名詞對應的詞場,生成候選關系向量;
從生成的所述候選關系向量中,選取預設數目個候選關系向量進行人物關系標注,將標注得到的標注向量組成標注向量集;
將生成的所述候選關系向量中除所述預設數目個候選關系向量外的其他候選關系向量組成未標注向量集。
第二方面,本發明實施例提供了一種人物關系分類裝置,所述裝置包括:
獲取模塊,用于獲取標注向量集、未標注向量集和候選關系測試集;
擴充模塊,用于根據所述標注向量集和所述未標注向量集,通過魯棒路徑相似度度量擴充所述標注向量集;
訓練學習模塊,用于通過非線性半監督分類函數對擴充后的所述標注向量集進行訓練學習,得到人物關系分類模型;
分類模塊,用于通過所述人物關系分類模型對所述候選關系測試集進行人物關系分類。
結合第二方面,本發明實施例提供了上述第二方面的第一種可能的實現方式,其中,所述擴充模塊包括:
獲取單元,用于從所述未標注向量集中獲取第一未標注向量,所述第一未標注向量為所述未標注向量集包括的任一未標注向量;
計算單元,用于分別計算所述第一未標注向量與所述標注向量集包括的每個標注向量之間的魯棒路徑相似度;
添加單元,用于若計算的多個魯棒路徑相似度中最大的魯棒路徑相似度大于預設閾值,則將所述第一未標注向量添加在所述標注向量集中。
結合第二方面,本發明實施例提供了上述第二方面的第二種可能的實現方式,其中,所述裝置還包括:
構造模塊,用于根據擴充后的所述標注向量集中每個向量的特征屬性和決策屬性,構建魯棒路徑正則化框架;根據所述魯棒路徑正則化框架,構造非線性半監督分類函數。
在本發明實施例提供的方法及裝置中,獲取標注向量集、未標注向量集和候選關系測試集;根據標注向量集和未標注向量集,通過魯棒路徑相似度度量擴充標注向量集;通過非線性半監督分類函數對擴充后的標注向量集進行訓練學習,得到人物關系分類模型;通過人物關系分類模型對候選關系測試集進行人物關系分類。本發明通過魯棒路徑相似度度量擴充標注向量集,并通過魯棒性的作用消除噪聲和孤立點的影響,減少了人工標注語料,減少了人力資源的消耗和浪費,解決了需海量標注時人工標注語料的瓶頸問題,且將正則化的半監督分類算法應用到人物關系提取中,提高了人物關系分類的效率。
為使本發明的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發明的某些實施例,因此不應被看作是對范圍的限定,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他相關的附圖。
圖1示出了本發明實施例1所提供的一種人物關系分類方法的流程圖;
圖2示出了本發明實施例1所提供的一種獲取標注向量集和未標注向量集的流程示意圖;
圖3示出了本發明實施例1所提供的另一種人物關系分類方法的流程示意圖;
圖4示出了本發明實施例2所提供的一種人物關系分類裝置的結構示意圖。
具體實施方式
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發明實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發明的實施例的詳細描述并非旨在限制要求保護的本發明的范圍,而是僅僅表示本發明的選定實施例。基于本發明的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
考慮到相關技術中需人工標注大量文本,這在需標注的文本數量不多時可實現,但對于海量的文本,會出現人工標注的瓶頸,在文本數量龐大時通過人工標注出文本中的人物關系,很難實現,即便能實現,也會導致人物關系分類的效率很低。基于此,本發明實施例提供了一種人物關系分類方法及裝置,下面通過實施例進行描述。
實施例1
本發明實施例提供了一種人物關系分類方法。
人物關系是指人物在其特定的社會范圍內與他人之間存在和產生的關系。根據人與人之間的熟悉程度和親密程度關系劃分,人物關系可以分為六大類,分別是:家庭關系、工作關系、朋友關系、師生關系、合作關系以及共現關系。其中,共現關系是指在分析過程中無法通過語句中的特征對兩個人物關系類型進行準確分類的情況。文本信息中通常都包含人物關系信息,通過本發明實施例提供的方法可以對文本中的人物關系進行分類。
參見圖1,該方法具體包括以下步驟:
步驟101:獲取標注向量集、未標注向量集和候選關系測試集。
上述標注向量集中包括人工標注了人物關系的標注向量。未標注向量集中包括未進行人工標注的未標注向量。其中,標注向量集包括的標注向量的數目遠小于未標注向量集包括的未標注向量的數目。
在獲取標注向量集和未標注向量集時,首先獲取大量的采樣文本,然后如圖2所示,通過如下步驟A1-A5的操作來獲得標注向量集和未標注向量集,具體包括:
A1:對采樣文本進行中文分詞和詞性標注,識別采樣文本包含的人名詞,并對采樣文本中包含的人稱代詞進行指代消解。
在本發明實施例中,通過分詞系統對采樣文本進行中文分詞,得到采樣文本包括的每個分詞,然后對得到的分詞進行詞性標注,標注出分詞的詞性,分詞的詞性可能是名詞、形容詞、動詞或代詞等。然后從詞性標注后的所有分詞中挑選出詞性為名詞的分詞。根據詞性為名詞的分詞,通過上述分詞系統進行人名識別,把詞性標注為“nr”、“nr1”、“nr2”、“nrj”或“nrf”的分詞識別為人名詞。識別出的人名詞作為后續人物信息挖掘的觸發詞。
在本發明實施例中,除通過上述分詞系統來識別人名詞外,還可預先設置人名詞庫,該人名詞庫中包括海量的人名詞。通過該預先設置的人名詞庫來識別采樣文本中的人名詞。對于每個詞性為名詞的分詞,查看預先設置的人名詞庫中是否包括該分詞,如果是,則識別該分詞為人名詞,如果否,則識別該分詞不是人名詞。
通過上述方式識別出采樣文本中的所有人名詞后,再從詞性標注后的所有分詞中挑選出詞性為人稱代詞的分詞。對于每個詞性為人稱代詞的分詞,獲取該分詞所在的句子,確定該句子中在該分詞之前是否存在人名詞,若存在,則將該分詞替換為該人名詞,以消解該詞性為人稱代詞的分詞。若不存在,則獲取該句子之前的句子,將該分詞替換為該句子之前的句子中離該分詞最近的人名詞,以消解該詞性為人稱代詞的分詞。
在本發明實施例中,也可以采用Hobbs算法來確定詞性為人稱代詞的分詞所指代的人名詞,即選擇與人稱代詞在同一個句子中出現的人名詞,從選擇出的人名詞中確定離人稱代詞最近的人名詞,將該人稱代詞替換為確定的人名詞,以消解該人稱代詞。本發明實施例可以采用Hobbs算法通過自左向右層次遍歷句法數來消解人稱代詞。
通過步驟A1的操作識別出采樣文本包含的所有人名詞,并對采樣文本中的所有人稱代詞進行指代消解后,通過如下步驟A2-A5的操作來獲取標注向量集和未標注向量集。
A2:對采樣文本進行句子切分,選取出包含人物關系的候選句。
句子切分是以特定標點符號為切分標志的,這些標點符號可以是“。”、“!”、“?”或“;”等。以這些標點符號為切分標志,切分出采樣文本包括的多個句子。對于切分出的每個句子,判斷句子中是否包含兩個或兩個以上不同的人名詞,如果是,則將該句子確定為包含人物關系的候選句。
A3:根據候選句中包括的人名詞及人名詞對應的詞場,生成候選關系向量。
人名詞對應的詞場包括人名詞前面距離該人名詞最近的預設個數個分詞以及人名詞后面距離該人名詞最近的預設個數個分詞。預設個數可以為1個或2個等。
在本發明實施例中,由于助詞、介詞或連詞等對于人物關系分析的貢獻不大,所以在生成候選句對應的候選關系向量前,先將候選句中的助詞、介詞或連詞等無用詞去掉,然后從候選句中提取出人名詞及人名詞對應的詞場。將人名詞、人名詞對應的詞場包括的每個分詞、每個分詞的詞性及位置信息,組成候選句對應的特征向量。
上述分詞的位置信息用于表示分詞與人名詞之間的相對位置。例如,假設去掉助詞、介詞或連詞等無用詞后的候選句為“……回家張三電話……接機李四聚餐……”,詞場包括人名詞前面距離最近的一個詞和人名詞后面距離最近的一個詞,則人名詞“張三”的詞場包括“回家”和“電話”,人名詞“李四”的詞場包括“接機”和“聚餐”,則最終生成的該候選句對應的候選關系向量可以為[((回家,前,動詞),張三,(電話,后,名詞)),((接機、前,動詞),李四,(聚餐,后,動詞))]。本示例僅用于便于理解候選關系向量的生成過程,并不限定候選關系向量的表現形式,候選關系的表現形式可以有多種,在實際應用中可根據需求來設定候選關系向量的表現形式。
對于其他每個候選句,都與上述候選句相同,分別按照上述方式來生成其他每個候選句對應的候選關系向量。
A4:從生成的候選關系向量中,選取預設數目個候選關系向量進行人物關系標注,將標注得到的標注向量組成標注向量集。
上述預設數目遠小于所生成的候選關系向量的總量與預設數目之間的差值。預設數目可以為50或100等。
本發明實施例中,通過人工標注人物關系的類型來得到標注向量。由于只選取少量的候選關系向量進行人工標注,因此通過人工標注是能夠實現獲得標注向量集的,且花費時間很短。
A5:將生成的候選關系向量中除預設數目個候選關系向量外的其他候選關系向量組成未標注向量集。
將未經人工標注的候選關系向量組成未標注向量集。
通過上述步驟A1-A5獲得的標注向量集和未標注向量集是本發明實施例中的候選關系訓練集。而對于需要進行人物關系分類的自由文本,也通過上述步驟A1-A3的操作對自由文本進行中文分詞、詞性標注、人名識別、指代消解及句子切分的操作獲得各個候選句,并生成候選句對應的候選關系向量,將生成的候選關系向量組成自由文本對應的候選關系測試集。
獲得標注向量集、未標注向量集和候選關系測試集之后,通過如下步驟102和103的操作來建立人物關系分類模型,通過步驟104的操作通過該人物關系分類模型對候選關系測試集進行人物關系分類。
步驟102:根據標注向量集和未標注向量集,通過魯棒路徑相似度度量擴充標注向量集。
本發明實施例中,采用基于魯棒路徑正則化的非線性半監督分類算法(SSCRPR-Nonlinear算法)對候選關系訓練集進行訓練學習生成人物關系分類模型。候選關系訓練集包括標注向量集和未標注向量集。
在對候選關系訓練集進行訓練學習之前,先通過魯棒路徑相似度度量方式擴充標注向量集,具體包括:
從未標注向量集中獲取第一未標注向量,第一未標注向量為未標注向量集包括的任一未標注向量;分別計算第一未標注向量與標注向量集包括的每個標注向量之間的魯棒路徑相似度;若計算的多個魯棒路徑相似度中最大的魯棒路徑相似度大于預設閾值,則將第一未標注向量添加在標注向量集中。
在本發明實施例中,將第一未標注向量與標注向量集包括的所有標注向量組成一個數組該數組可以用一個連通的無向圖G=(V,E)來表示,該無向圖G的n個頂點分別對應該數組中的n個向量,另外無向圖G中的每一條邊(i,j)∈V×V都被賦予一個權值wij,該權值wij用來反映點xi與xj之間的相似度,wij如公式(4)所示:
在公式(4)中,i為第一未標注向量的序號,xi表示第一未標注向量,j為標注向量的序號,xj表示標注向量,參數σ用來控制wij的變化速度。
在本發明實施例中,令Pij表示連接無向圖G中頂點i與頂點j之間所有路徑的集合,那么對任一條路徑p∈Pij,其有效相似度定義為路徑P中的最小邊權值,而基于路徑的相似度則定義為Pij包含的所有路徑中的最大有效相似度,最大有效相似度如以下公式(5)所示:
在公式(5)中,i為第一未標注向量的序號,j為標注向量的序號,為魯棒路徑相似度,P為第一未標注向量與標注向量之間的路徑,|P|為路徑P上的頂點數目,P[h]為路徑P上的第h個頂點,P[h+1]為路徑P上的第h+1個頂點,wP[h]P[h+1]為路徑P上第h個頂點與第h+1個頂點之間的相似度。
然而,基于路徑的相似度度量方式對噪聲和孤立點很敏感,因此本發明實施例采用基于魯棒路徑的相似度度量方式來擴充標注向量集。根據第一未標注向量與標注向量集,通過如下公式(1)計算第一未標注向量與標注向量集包括的每個標注向量之間的魯棒路徑相似度。
在公式(1)中,i為第一未標注向量的序號,j為標注向量的序號,Sij為魯棒路徑相似度;P為第一未標注向量與標注向量之間的路徑,|P|為路徑P上的頂點數目,P[h]為路徑P上的第h個頂點,P[h+1]為路徑P上的第h+1個頂點;wP[h]P[h+1]為路徑P上第h個頂點與第h+1個頂點之間的相似度;xP[h]為路徑P上第h個頂點對應的未標注向量,NP[h]為未標注向量xP[h]的領域;xP[h+1]為路徑P上第h+1個頂點對應的未標注向量,NP[h+1]為未標注向量xP[h+1]的領域;xj表示標注向量,參數σ用來控制相似度的變化速度。
在本發明實施例中,為了讓魯棒路徑相似度Sij不受σ的影響,可以對其進行標準化操作,即令此時,上述公式(1)所示的魯棒路徑相似度可以表示為:
通過上述方式計算出第一未標注向量與標注向量集中每個標注向量之間的魯棒路徑相似度之后,獲取第一未標注向量與每個標注向量之間的魯棒路徑相似度中最大的魯棒路徑相似度,判斷該最大的魯棒路徑相似度是否大于預設閾值,如果是,則獲取該最大的魯棒路徑相似度對應的標注向量的人物關系類型,將第一未標注向量的人物關系確定為該人物關系類型,并將第一未標注向量添加到標注向量集中。
如果該最大的魯棒路徑相似度小于或等于預設閾值,則無法確定第一未標注向量的人物關系,可以舍棄第一未標注向量。也可以將該第一未標注向量顯示給用戶,使用戶確定并標注第一未標注向量的人物關系類型,然后再將第一未標注向量添加到標注向量集中。
在本發明實施例中,通過上述公式(1)或公式(6)計算未標注向量與標注向量集包括的標注向量之間的魯棒路徑相似度后,還可以計算魯棒路徑的圖拉普拉斯矩陣LS=DS-S。其中,S為預設閾值,DS為對角矩陣,其對角線上的元素為l表示標注向量的數量,u表示未標注向量的數量。計算出魯棒路徑的圖拉普拉斯矩陣LS后,判斷圖拉普拉斯矩陣LS對角線上的元素值是否大于0,獲取大于0的元素值對應的未標注向量和標注向量,將獲取的未標注向量的人物關系類型確定為獲取的標注向量的人物關系類型,然后將該未標注向量添加到標注向量集中。
未標注向量集中包括的其他每個未標注向量,都與第一未標注向量相同,按照上述操作分別確定其他每個未標注向量的人物關系類型,并將其他每個未標注向量添加到標注向量集中。
本發明實施例通過魯棒路徑相似度來度量未標注向量與標注向量之間的有效相似度,并在判斷最大有效相似度大于預設閾值時,確定該最大有效相似度對應的標注向量的人物關系類型與該未標注向量的人物關系類型相同,在確定該未標注向量的人物關系類型后,將該未標注向量添加到標注向量集中,從而擴充標注向量集。實現僅通過少量人工標注的標注向量,獲得大量已確定人物關系類型的向量,提高了人物關系分類的效率。
通過本步驟擴充標注向量集之后,通過如下操作來構造非線性半監督分類函數,包括:
根據擴充后的標注向量集中每個向量的特征屬性和決策屬性,構建魯棒路徑正則化框架;根據魯棒路徑正則化框架,構造非線性半監督分類函數。
其中,特征屬性為步驟101中生成候選關系向量時向量中的人名詞、詞場包括的分詞、分詞的詞性及位置信息等特征。決策屬性為已確定的向量中的人物關系類型。
在給定l個標注向量和u個未標注向量根據公式(1)魯棒路徑相似度Sij,構建魯棒路徑正則化框架,如公式(7)所示:
其中,V表示損失函數,F=[f(x1),...,f(xl+u)]T,γA和γI是用來控制第二項和第三項貢獻度的系數。
根據擴充后的標注向量集中每個向量的特征屬性和決策屬性,將上述公式(7)轉換為其解的形式,通過如下公式(2)構建出魯棒路徑正則化框架。
在公式(2)中,i和j均為擴充后標注向量集中向量的序號,Ni表示xi的領域,σ為權值控制參數,l為擴充前標注向量集包括的標注向量的數目,u為未標注向量集包括的未標注向量的數目,xi為擴充后標注向量集中第i個向量的特征屬性,zi為第i個向量的人物關系的決策屬性,f*(zi)為魯棒路徑正則化框架,K(xi,zi)表示參數為xi和zi的核函數。
通過上述方式構建出魯棒路徑正則化框架后,通過如下方式來構造非線性半監督分類函數,具體包括:
選擇平方損失(yi-f(xi))2作為損失函數V代入公式(7)所示的魯棒路徑正則化框架f*中,可得公式(8)所示的目標函數:
公式(8)所示的目標函數的解的形式是一個關于l+u個變量α=[α1,...,αl+u]T的凸可微目標函數,如下公式(9)所示:
其中,K為基于標注向量和未標注向量的(l+u)×(l+u)的格拉姆矩陣,為(l+u)維標記向量,
對公式(9)所示的凸可微目標函數進行關于α求導,得到公式(10):
對公式(10)的線性方程求解得到:
通過上述方式根據魯棒路徑正則化框架,獲得凸可微目標函數;對凸可微目標函數進行求導后代入魯棒路徑正則化框架中,得到非線性半監督分類函數。即將α*代入到公式(2)所示的魯棒路徑正則化框架f*(zi)中,構造出如公式(3)所示的非線性半監督分類函數:
在公式(3)中,為對凸可微目標函數進行求導所得系數,l為擴充前標注向量集包括的標注向量的數目,u為未標注向量集包括的未標注向量的數目,xi為擴充后標注向量集中第i個向量的特征屬性,zi為第i個向量的人物關系決策屬性,f*(zi)為魯棒路徑正則化框架,K(xi,zi)表示參數為xi和zi的核函數。
通過上述方式構造出非線性半監督分類函數后,通過如下步驟103的操作根據擴充后的標注向量集,通過該非線性半監督分類函數來構建人物關系分類模型。
步驟103:通過非線性半監督分類函數對擴充后的標注向量集進行訓練學習,得到人物關系分類模型。
通過上述公式(3)所示的非線性半監督分類函數對擴充后的標注向量集進行機器學習,即可得到人物關系分類模型。
步驟104:通過人物關系分類模型對候選關系測試集進行人物關系分類。
將步驟101獲取的候選關系測試集輸入步驟103得到的人物關系分類模型中,通過人物關系分類模型對候選關系測試集進行人物關系分類,從而實現對自由文本的人物關系分類分析,得到候選關系測試集中每個候選關系向量對應的人物關系類型。將候選關系測試集中的候選關系向量與該候選關系向量對應的人物關系類型進行對應存儲。
本發明實施例中,基于魯棒路徑正則化的非線性半監督分類算法的基本原理為:基于魯棒路徑正則化的非線性半監督分類算法是通過魯棒路徑相似度捕獲標注向量和未標注向量的流形結構,然后構造魯棒路徑正則項來描述流形的分布,利用流形正則化框架得到非線性半監督分類函數。本發明實施例所用的算法是在基于流形學習(Manifold Learning)思想的流形正則化框架下,利用最大生成樹算法計算出有效路徑相似度對標注向量和未標注向量進行度量,加入魯棒性原則,從而擴充標注向量集,形成基于魯棒路徑的正則化框架,從而構建出一種非線性半監督分類函數。其優勢是把標注向量和未標注向量看成若干個點,構建成標注向量集和未標注向量集,再根據標注向量和未標注向量兩點的有效相似度來度量未標注向量集中的未標注向量是否可以加入標注向量集,并加入了魯棒性原則,從而來擴展標注向量集。
本發明實施例將正則化的半監督分類算法應用到人物關系的提取中,采用基于路徑有效相似度的方式進行擴展標注向量集,并加入魯棒性的作用,以消除噪聲和孤立點的影響。如圖3所示,本發明實施例的大致流程包括對原始的采樣文本進行中文分詞、詞性標注、人名識別、指代消解得到詞性和姓名標注好的語料集,然后進行句子切分及候選句選取,生成候選關系向量,組成候選關系訓練集,然后通過基于魯棒路徑正則化的非線性半監督分類算法對候選關系集進行訓練學習得到人物關系分類模型。將自由文本進行中文分詞、詞性標注、人名識別、指代消解得到詞性和姓名標注好的語料集,然后進行句子切分及候選句選取,生成候選關系向量,組成候選關系測試集,將候選關系測試集輸入人物關系分類模型,最終得到人物關系分類結果。
由于本發明實施例中,通過魯棒路徑相似度來擴充標注向量集,因此減少了人工標注語料,減少了人力資源的消耗和浪費,從而解決了需海量標注時人工標注語料的瓶頸問題。
在本發明實施例中,獲取標注向量集、未標注向量集和候選關系測試集;根據標注向量集和未標注向量集,通過魯棒路徑相似度度量擴充標注向量集;通過非線性半監督分類函數對擴充后的標注向量集進行訓練學習,得到人物關系分類模型;通過人物關系分類模型對候選關系測試集進行人物關系分類。本發明通過魯棒路徑相似度度量擴充標注向量集,并通過魯棒性的作用消除噪聲和孤立點的影響,減少了人工標注語料,減少了人力資源的消耗和浪費,解決了需海量標注時人工標注語料的瓶頸問題,且將正則化的半監督分類算法應用到人物關系提取中,提高了人物關系分類的效率。
實施例2
參見圖4,本發明實施例提供了一種人物關系分類裝置,該裝置用于執行上述實施例1所提供的人物關系分類方法。該裝置包括:
獲取模塊201,用于獲取標注向量集、未標注向量集和候選關系測試集;
擴充模塊202,用于根據標注向量集和未標注向量集,通過魯棒路徑相似度度量擴充標注向量集;
訓練學習模塊203,用于通過非線性半監督分類函數對擴充后的標注向量集進行訓練學習,得到人物關系分類模型;
分類模塊204,用于通過人物關系分類模型對候選關系測試集進行人物關系分類。
上述擴充模塊202包括:
獲取單元,用于從未標注向量集中獲取第一未標注向量,第一未標注向量為未標注向量集包括的任一未標注向量;
計算單元,用于分別計算第一未標注向量與標注向量集包括的每個標注向量之間的魯棒路徑相似度;
添加單元,用于若計算的多個魯棒路徑相似度中最大的魯棒路徑相似度大于預設閾值,則將第一未標注向量添加在標注向量集中。
上述計算單元,用于根據第一未標注向量與標注向量集,通過如下公式(1)計算第一未標注向量與標注向量集包括的每個標注向量之間的魯棒路徑相似度;
在公式(1)中,i為第一未標注向量的序號,j為標注向量的序號,Sij為魯棒路徑相似度;P為第一未標注向量與標注向量之間的路徑,|P|為路徑P上的頂點數目,P[h]為路徑P上的第h個頂點,P[h+1]為路徑P上的第h+1個頂點;wP[h]P[h+1]為路徑P上第h個頂點與第h+1個頂點之間的相似度;xi表示第一未標注向量,xj表示標注向量,參數σ用來控制相似度的變化速度,Ni表示第一未標注向量的領域。
該裝置還包括:
構造模塊,用于根據擴充后的標注向量集中每個向量的特征屬性和決策屬性,構建魯棒路徑正則化框架;根據魯棒路徑正則化框架,構造非線性半監督分類函數。
上述構造模塊,用于根據擴充后的標注向量集中每個向量的特征屬性和決策屬性,通過如下公式(2)構建魯棒路徑正則化框架;
在公式(2)中,i和j均為擴充后標注向量集中向量的序號,Ni表示xi的領域,σ為權值控制參數,l為擴充前標注向量集包括的標注向量的數目,u為未標注向量集包括的未標注向量的數目,xi為擴充后標注向量集中第i個向量的特征屬性,zi為第i個向量的人物關系的決策屬性,f*(zi)為魯棒路徑正則化框架,K(xi,zi)表示參數為xi和zi的核函數。
上述構造摸,用于根據魯棒路徑正則化框架,獲得凸可微目標函數;對凸可微目標函數進行求導后代入魯棒路徑正則化框架中,得到非線性半監督分類函數;
在公式(3)中,為對凸可微目標函數進行求導所得系數,l為擴充前標注向量集包括的標注向量的數目,u為未標注向量集包括的未標注向量的數目,xi為擴充后標注向量集中第i個向量的特征屬性,zi為第i個向量的人物關系決策屬性,f*(zi)為魯棒路徑正則化框架,K(xi,zi)表示參數為xi和zi的核函數
在本發明實施例中,獲取模塊201,用于對采樣文本進行中文分詞和詞性標注,識別采樣文本包含的人名詞,并對采樣文本中包含的人稱代詞進行指代消解;對采樣文本進行句子切分,選取出包含人物關系的候選句;根據候選句中包括的人名詞及人名詞對應的詞場,生成候選關系向量;從生成的候選關系向量中,選取預設數目個候選關系向量進行人物關系標注,將標注得到的標注向量組成標注向量集;將生成的候選關系向量中除預設數目個候選關系向量外的其他候選關系向量組成未標注向量集。
在本發明實施例中,獲取標注向量集、未標注向量集和候選關系測試集;根據標注向量集和未標注向量集,通過魯棒路徑相似度度量擴充標注向量集;通過非線性半監督分類函數對擴充后的標注向量集進行訓練學習,得到人物關系分類模型;通過人物關系分類模型對候選關系測試集進行人物關系分類。本發明通過魯棒路徑相似度度量擴充標注向量集,并通過魯棒性的作用消除噪聲和孤立點的影響,減少了人工標注語料,減少了人力資源的消耗和浪費,解決了需海量標注時人工標注語料的瓶頸問題,且將正則化的半監督分類算法應用到人物關系提取中,提高了人物關系分類的效率。
本發明實施例所提供的人物分類裝置可以為設備上的特定硬件或者安裝于設備上的軟件或固件等。本發明實施例所提供的裝置,其實現原理及產生的技術效果和前述方法實施例相同,為簡要描述,裝置實施例部分未提及之處,可參考前述方法實施例中相應內容。所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,前述描述的系統、裝置和單元的具體工作過程,均可以參考上述方法實施例中的對應過程,在此不再贅述。
在本發明所提供的實施例中,應該理解到,所揭露裝置和方法,可以通過其它的方式實現。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,又例如,多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明提供的實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋,此外,術語“第一”、“第二”、“第三”等僅用于區分描述,而不能理解為指示或暗示相對重要性。
最后應說明的是:以上所述實施例,僅為本發明的具體實施方式,用以說明本發明的技術方案,而非對其限制,本發明的保護范圍并不局限于此,盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,其依然可以對前述實施例所記載的技術方案進行修改或可輕易想到變化,或者對其中部分技術特征進行等同替換;而這些修改、變化或者替換,并不使相應技術方案的本質脫離本發明實施例技術方案的精神和范圍。都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。