本發明涉及數據檢索技術領域,特別涉及一種基于主題相似度的案件檢索方法。
背景技術:
隨著社會信息的公開化、透明化,案件的審判結果也越來越受到社會的關注。對于同一個案件,不同的法官的裁量尺度的差別也往往不一樣。如果能夠在判決案件之前,及時的推薦以往的相似案件,無疑會起到一個很好的參考作用。
目前的司法類案件檢索,普遍采用的是基于tf-idf的向量空間模型相似度計算方法,這種方法以關鍵詞在文本中出現的頻率及文本集中出現該詞的反文檔頻率來表征詞權重,通過計算向量之間的余弦相似度來計算文本的相似度,進而根據文本的相似度來進行檢索。但是,由于以下原因:一、對于司法文書數據集而言,詞項的數目和文書數目都很大,采用詞頻向量模型,必須將文書表示為詞項數目和文書數目的矩陣,具有非常高的特征維度。二、特征矩陣極度稀疏,計算效率較低。三、在相似度的計算過程中,無關詞項參與相似度模型的計算,造成干擾導致檢索效果差。
因此,現有的基于關鍵詞的全文檢索方法,具有檢索效率低、檢索結果不準確以及專業性差等缺點。
技術實現要素:
本發明的目的在于提供一種很基于主題相似度的案件檢索方法,以提高案件檢索的效率和準確度。
為實現以上目的,本發明提供一種基于主題相似度的案件檢索方法,該方法包括:
以文書的布局和要點詞為約束條件,利用自動抽取算法,抽取文書的案件事實、爭議焦點以及裁判結果三個段塊;
基于領域詞表,利用主題模型分別抽取各文書段塊的主題詞,得到各文書段塊的主題詞塊和非主題詞塊;
根據各文書段塊主題詞塊、非主題詞塊中的特征詞,構建特征倒排索引;
將特征倒排索引映射為特征向量,并利用主題相似度模型計算用戶查詢語句與文書數據集中各文書的相似度;
對用戶查詢語句與文書數據集中各文書的相似度進行排序,并輸出排序結果完成案件檢索。
進一步地,主題相似度模型具體為:
其中,q表示用戶查詢語句,qj表示q中第j個關鍵詞,d表示文書,p(qj/q)=c(qj,q)/|q|,c(qj,q)表示qj在用戶查詢語句q中出現的次數,|q|表示用戶查詢詞語數。
進一步地,將特征倒排索引映射為特征向量,并利用主題相似度模型計算用戶查詢語句與文書數據集中各文書的相似度,具體包括:
利用所述主題相似度模型,分別計算特征向量中主題詞塊與用戶查詢語句的相似度、非主題詞塊與用戶查詢語句的相似度;
對同一文書段塊的主題詞塊與用戶查詢語句的相似度、非主題詞塊與用戶查詢語句的相似度進行加權求和,得到用戶查詢語句與文書的相似度。
進一步地,在以文書的布局和要點詞為約束條件,利用自動抽取算法,抽取文書的案件事實、爭議焦點以及裁判結果三個段塊之前,還包括:
基于停用詞詞典,去除文本中的停用詞;
對去除停用詞的文書進行分詞處理,得到文書的分詞結果。
進一步地,在利用主題相似度模型計算用戶查詢語句和文書數據集中各個文書的相似度之前,還包括:
基于停用詞詞典,去除用戶查詢語句中的停用詞;
對去除停用詞后的用戶查詢語句進行分詞處理,得到用戶查詢語句的分詞結果;
基于所述領域詞表,對用戶查詢語句的分詞結果進行篩選,得到所述用戶查詢語句的關鍵詞。
進一步地,該方法還包括:
結合信息點對所述文書數據集中的文書數據進行過濾,得到過濾后的文書數據;
相應地,所述的將特征倒排索引映射為特征向量,并利用主題相似度模型計算用戶查詢語句與文書數據集中各文書的相似度,還包括:
使用所述的主題相似度模型計算用戶查詢語句與過濾后文書的相似度。
與現有技術相比,本發明存在以下技術效果:第一、本發明在原有的自動抽取算法的基礎上,以司法文書的布局和要點詞為約束條件,確保文書關鍵段塊抽取的準確性。第二、對關鍵段塊抽取主題詞時,采用司法領域的領域詞表對段塊中的特征詞進行篩選,去除了無關詞項的干擾,降低了特征詞的維度,提高了類案檢索效率和檢索專業性。第三、從司法主題和司法特征詞兩個維度來描述司法文書,提高了文書描述的精確度,并且在計算相似度時,兼顧主題詞塊和非主題詞塊的相似度計算,極大的提高了類案檢索的準確率和召回率。
附圖說明
下面結合附圖,對本發明的具體實施方式進行詳細描述:
圖1是本發明一實施例中一種基于主題相似度的案件檢索方法的流程示意圖;
圖2是本發明一實施例中司法文書的描述示意圖;
圖3是本發明一實施例中司法文書隱含主題層次的結構示意圖;
圖4是本發明一實施例中離線構建特征詞倒排索引的流程示意圖;
圖5是本發明一實施例中基于主題詞相似度對司法類案件進行檢索的流程示意圖。
具體實施方式
為了更進一步說明本發明的特征,請參閱以下有關本發明的詳細說明與附圖。所附圖僅供參考與說明之用,并非用來對本發明的保護范圍加以限制。
如圖1所示,本實施例公開了一種基于主題相似度的案件檢索方法,該方法包括如下步驟s1至s5:
s1、以文書的布局和要點詞為約束條件,利用自動抽取算法,抽取文書的案件事實、爭議焦點以及裁判結果三個段塊;
其中,文書的布局指的是:司法文書在排布時固定的組成部分,一般包括案件事實、爭議焦點以及裁判結果等部分,要點詞指的是案件事實、爭議焦點以及節裁判結果等內容中涉及的重要詞匯。
例如,司法文書中案件事實、爭議焦點以及裁判結果等組成部分一般有固定的位置,但是由于司法文書種類的不同,上述固定位置可能會出現偏差,此時通過各部分的要點詞匯進行進一步限定,可保證司法文書關鍵段塊抽取的準確性。
需要說明的是,本實施例中所抽取的案件事實、爭議焦點以及裁判結果三個關鍵段塊僅為舉例說明,本領域技術人員可以根據實際情況的需要抽取不同數量、不同組成部分的關鍵段塊。
s2、基于領域詞表,利用主題模型分別抽取各文書段塊的主題詞,得到各文書段塊的主題詞塊和非主題詞塊;
需要說明的是,如圖2所示,在司法領域,通過領域詞表規范的詞條來描述專業領域內的主題詞。將一篇司法文書中重要的詞語挑選出來,使用主題詞來表示一個概念、一個方面,這些主題詞構成主題詞塊。主題詞塊具有清晰的層次結構,依次為文書集合層、主題層和特征詞層,司法文書可以由這些主題詞和領域詞語的條件概率表示。
s3、根據各文書段塊主題詞塊、非主題詞塊中的特征詞,構建特征倒排索引;
具體地,將司法文書建模到司法主題詞、司法特征詞的二維特征空間,保留描述司法文書的本質特征信息,并采用倒排索引結果存儲,有助于高效地處理大規模司法文書數據。
s4、將特征倒排索引映射為特征向量,并利用主題相似度模型計算用戶查詢語句與文書數據集中各文書的相似度;
s5、對用戶查詢語句與文書數據集中各文書的相似度進行排序,并輸出排序結果完成案件檢索。
本實施例中,如圖3至圖4所示,基于司法領域的領域詞表,從司法裁判的領域業務知識體系出發,構造描述案件的爭議焦點、裁判結果和案件事實等關鍵段塊,每個段塊由兩個詞塊組成,一個詞塊是屬于領域詞表的主題詞構成的主題詞塊,另一個詞塊是由非主題詞構成的非主題詞塊。
第一方面,主題詞塊是以司法領域的領域詞表匹配得到,去除了無關詞項,不僅確保了主題詞塊的精確性,而且降低了主題詞塊中特征詞的維度,降低了計算量。第二,將司法文書表示為司法主題詞塊和特征詞兩個維度,與原有的將司法文書表示為詞項數目和文書數目的矩陣相比,降低了特征維度,減小了運算量,實現高效處理大規模司法文書數據的目標。
進一步地,主題相似度模型具體為:
其中,q表示用戶查詢語句,qj表示q中第j個關鍵詞,d表示文書,p(qj/q)=c(qj,q)/|q|,c(qj,q)表示qj在用戶查詢語句q中出現的次數,|q|表示用戶查詢詞語數。
進一步地,步驟s4:“將特征倒排索引映射為特征向量,并利用主題相似度模型計算用戶查詢語句與文書數據集中各文書的相似度”,具體包括如下細分步驟:
利用所述主題相似度模型,分別計算特征向量中主題詞塊與用戶查詢語句的相似度、非主題詞塊與用戶查詢語句的相似度;
對同一文書段塊的主題詞塊與用戶查詢語句的相似度、非主題詞塊與用戶查詢語句的相似度進行加權求和,得到用戶查詢語句與司法文書的相似度。
需要說明的是,本實施例中將司法文書的每一文書段塊分割為兩個詞塊即主題詞塊和非主題詞塊,在計算主題詞塊與查詢語句的相似度時,通過主題詞塊和查詢語句的相關度來衡量,在計算非主題詞塊和查詢語句的相似度時,利用傳統的語言模型進行衡量。然后,將兩個詞塊和查詢語句的相似度加權求和,來衡量整個司法文書的相似度,即如下式所示:
其中,
進一步地,如圖4所示,在步驟s1:“以文書的布局和要點詞為約束條件,利用自動抽取算法,抽取文書的案件事實、爭議焦點以及裁判結果三個段塊”之前,該方法還包括如下步驟:
基于停用詞詞典,去除文本中的停用詞;
對去除停用詞的文書進行分詞處理,得到文書的分詞結果。
需要說明的是,本實施例中在對司法文書的關鍵段塊進行抽取之前,對司法文書進行預處理,去除文書中停用詞,并對文書中的語句進行分詞,以便于實現對文書關鍵段塊的準確抽取。
進一步地,如圖5所示,在步驟s4中利用主題相似度模型計算用戶查詢語句和文書數據集中各個文書的相似度之前,還包括如下步驟:
基于停用詞詞典,去除查詢語句中的停用詞;
對去除停用詞后的查詢語句進行分詞處理,得到查詢語句的分詞結果;
基于所述領域詞表,對查詢語句的分詞結果進行篩選,得到所述查詢語句的關鍵詞。
進一步地,該方法還包括如下步驟:
結合信息點對文書數據進行過濾,得到過濾后的文書數據;
使用主題相似度模型計算用戶查詢語句與過濾后文書的相似度。
需要說明的是,該處的信息點包括所屬區域、法院、審判時間、案件類型等信息,通過結合信息點對司法文書數據進行過濾,可以過濾掉一部分與查詢案件無關的文書數據,比如,在用戶輸入的查詢語句中,查詢的是某一區域的刑事案件,則結合信息點將不屬于該區域的、不是刑事類的案件過濾掉,縮小了查找的范圍。
以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。