<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種基于文檔詞匯特征變化的突發事件檢測方法

文檔序號:6402958閱讀:204來源:國知局
專利名稱:一種基于文檔詞匯特征變化的突發事件檢測方法
技術領域
本發明提出了一種基于可比時間段文檔集合中詞匯特征變化的突發事件檢測方法,通過分析可比時間段文檔集合中詞匯使用的不同,推斷可能的新事件,特別是突發事件。本發明屬于文本挖掘和信息檢索領域。
背景技術
網絡信息化為人們傳 遞消息、表達觀點、獲取信息提供了非常方便的手段。網絡已經成為了信息的海洋。如何充分利用網絡信息資源,挖掘感興趣的信息,追蹤熱點事件,已經成為人們非常關注的問題。突發事件是一種可能給社會的安寧帶來沖擊的事件,歷來受到政府機構和相關企業部門的高度重視。在當今社會,網絡成為事件報道和信息傳播的主要途徑。一旦出現突發事件,通常會有大量的跟進報道。從網上快速檢測突發事件、跟蹤事件的發展過程,對于政府決策和維護社會穩定有著重要的作用。由于事件的突然性和特殊性,相關報道在用詞和語言的表達方面也會存在不同之處。本發明就是針對文檔集合,通過分析用詞規律的變化來檢測可能的突發事件。

發明內容
為了便于說明,先約定下列概念:內容詞:這里指名詞、動詞和形容詞。線索詞:也叫區分詞,是能夠用于檢測突發事件、并表達事件內容的詞語。突發線索詞可以區分普通報道,特別是規律性的報道。在這里,突發線索詞屬于內容詞。目標文檔集:待挖掘的文檔集合。目標文檔集包含若干文檔,每一文檔對應于一篇網上時政新聞文章。比較文檔集:用于同目標文檔集作對比的文檔集,通過對比來檢測目標文檔在用詞方面的變化情況,以判斷目標文檔是否含有突發事件。一般使用目標文檔之前若干年同一時間段的新聞文章作為比較文檔集。突發事件:指目標文檔集中與比較文檔集差異較大的一組文檔的集合共同表達的內容,可以由一組線索詞來代表。在新聞文檔集合中,發生在A年份但在之前若干年份同一時期沒有發生的事件可以看成是突發事件。本發明的目的是提供一種簡單的方法,在沒有人工干預的情況下,容易檢測目標文檔集中所含的突發事件。本發明的原理是:利用某種度量方法計算目標文檔集與比較文檔集中差異明顯的詞,將它們作為突發線索詞;再對線索詞集進行聚類處理,然后將聚類結果映射到事件,從而找到目標文檔集的突發事件。度量方法可以根據需要選擇,例如選擇TF-1DF方法,也可以是自己編寫的其他方法。這里提到的TF-1DF方法是信息檢索中一種經典的計算方法,其中,TF(t)表示詞t在一個文檔中出現的頻率(Term Frequency), DF(t)表示詞t在多少個文檔中出現(Document Frequency), IDF(t)稱為t的逆文檔頻率(Inverse DocumentFrequency),可以是DF(t)的倒數或其它變形的計算方法。如果詞t在某個文檔中出現得非常頻繁,同時,很少在其它文檔中出現,那么,這一個詞就是差異明顯的詞,也度量了所在文檔與其它文檔的某種差異。在后面的實施部分將詳細說明TF和IDF的計算方法。本發明的技術方案如下:一種基于文檔詞匯特征變化的突發事件檢測方法(參圖1),其特征是,包括如下步驟:步驟一:利用計算機從新聞網站(例如騰訊、新浪)上的時政新聞報道中爬取指定時間段(例如,某一天)的新聞文章,每一篇文章表示為一個文檔,時間段內的全部文檔構成目標文檔集合;對每一個文檔進行預處理,包括漢語詞切分和詞性標注;留下內容詞,過濾掉其它詞;把每一個目標文檔及其處理結果存儲到計算機的數據庫中;步驟二:獲取前面k年與目標文檔相同時間段及前r天和后r天的新聞文檔作為比較文檔集;對比較文檔集同樣進行漢語切詞和詞性標注處理,保留內容詞,將每一個對比文檔及其處理結果存儲在計算機的數據庫中;這里的k值和r值可以根據需要設置;步驟三:從數據庫中提取目標文檔集中的所有線索詞;步驟四:對線索詞集聚類,形成突發事件描述。所述的突發事件檢測方法,其特征是,所述步驟三,如下實現:S31:從數據庫中獲取 目標文檔集、比較文檔集的所有內容詞以及詞頻;S32:用一定的信息衡量標準計算目標文檔集合中的內容詞與比較文檔集中相同詞的差異性;S33:根據一定的順序排列,把排在前面的部分詞語篩選出來,作為目標文檔集的線索詞。所述的突發事件檢測方法,其特征是,所述步驟四,如下實現:S41:構建線索詞之間的相關度矩陣;S42:在步驟S41構建的相關度矩陣基礎上,對線索詞集進行聚類處理,得到若干個子集合,每個子集合表示一個類,對應于一個事件;S43:將聚類后得到的所有類別排序,然后再輸出排在前面的若干個類,表示若干個關發事件。所述的突發事件檢測方法,其特征是,步驟一中,利用網絡爬蟲每天從指定新聞網站爬取新聞文檔。所述的突發事件檢測方法,其特征是,步驟S32中,使用TF-1DF值作為信息衡量標準,也可以使用自己編寫的其它信息衡量標準方法。所述的突發事件檢測方法,其特征是,步驟S33中,根據TF-1DF值降序進行排列。所述的突發事件檢測方法,其特征是,步驟S41中,兩個線索詞之間的相關程度計算方法可以是各種有效的方法,如互信息或卡方值等;若有η個線索詞,那么相關度矩陣就是ηΧη的矩陣,用V(nXn)表示;于是,V(i,j)便是線索詞i與線索詞j之間的相關度。所述的突發事件檢測方法,其特征是,步驟S42中,聚類的方法為現有的典型算法,如層次聚類或基于圖的聚類等,也可以是自己編寫的其它聚類算法。所述的突發事件檢測方法,其特征是,步驟S43中,按照詞語集合在目標文檔集中頻次的大小降序,也可以是其它準則。利用本發明提供的技術方案,可以將事件空間還原到線索詞空間,通過聚類的方法輸出的線索詞子集合,一個子集合對應著一個突發事件的描述。


圖1是本發明所述方法流程示意2是突發事件獲取示例
具體實施例方式下面通過實例對本發明做進一步的說明,但是需要注意的是,給出實例的目的在于幫助進一步理解本發明,但是本領域的技術人員可以理解:在不脫離本發明及所附的權利要求的精神和范圍內,各種替換和修改都是可能的。因此,本發明不應局限于實例所公開的內容,本發明要求保護的范圍以權利要求書界定的范圍為準。假定本例中,目標文檔集為2008年5月的新聞文檔集合(如,從騰訊網上獲取的時政新聞),比較文檔集為2000年到2007年所有5月的新聞文檔的集合。那么需要檢測的突發事件是發生在2008年5月同時又不是每個5月周期性發生的事件。這里特別需要說明的是,在實際分析突發事件時,一般以一天的新聞文檔集作為目標文檔集,比較文檔集可以選取前后一定時間窗口的文檔。例如,若要分析2008年5月12日的突發事件,在選擇比較文檔集合時,可以選擇從5月12日前!■天(如前面10天)到后r天的文檔集合。首先需要獲得詞的信息,這里采用帶詞性信息的詞作為文檔中詞的信息。比如,有一個詞是“地震”,對應的詞性是名詞(表示為“NN”),那么用“地震#NN”代表這個特定的詞。只考慮文檔中的內容詞。

衡量差異性的標準可以選擇現有的標準,也可以選擇自定義的標準。這里采用TF-1DF值作為標準。TF-1DF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為此詞具有很好的類別區分能力。本發明將具有區分能力的詞作為目標文檔的突發線索詞。在計算TF的時候,將目標文檔集合看成一個單獨的目標文檔(一般以I天為I個集合單元)。不妨設其中的內容詞出現的總次數為N,內容詞t出現的次數為n,則詞t在目標文檔集中的頻率為:丁丨.:(,)=專假設比較文檔集中的總文檔數為M,出現過詞t的文檔個數為m,則t的逆文檔頻率為:
,W!DF(Z1) = 1g,-
^ m于是,詞t的TF-1DF值的計算公式為,TF-1DF (t) = TF (t) XIDF(t)計算出每個詞語的TF-1DF值之后,根據TF-1DF值降序排列,將排在前面的k個詞語選做線索詞。有了線索詞集合,接下來要做的是計算線索詞之間的相關程度。這里以互信息為例。互信息(Mutual Information)是信息論里一種有用的信息度量,用于度量兩個事件集合之間的相關性,相關性越大,互信息值也越大。通常用互信息作為特征詞和類別之問的測度,如果兩個特征詞屬于同一類的話,它們的互信息量就大。兩個詞語Wl和《2的互信息的計算公式為:
權利要求
1.一種基于文檔詞匯特征變化的突發事件檢測方法,其特征是,包括如下步驟: 步驟一:利用計算機從新聞網站上的時政新聞報道中爬取指定時間段的新聞文章,每一篇文章表示為一個文檔,時間段內的全部文檔構成目標文檔集合;對每一個文檔進行預處理,包括漢語詞切分和詞性標注;留下內容詞,過濾掉其它詞;把每一個目標文檔及其處理結果存儲到計算機的數據庫中; 步驟二:獲取前面k年與目標文檔相同時間段及前r天和后r天的新聞文檔作為比較文檔集;對比較文檔集同樣進行漢語切詞和詞性標注處理,保留內容詞,將每一個對比文檔及其處理結果存儲在計算機的數據庫中; 步驟三:從數據庫中提取目標文檔集中的所有線索詞; 步驟四:對線索詞集聚類,形成突發事件描述。
2.如權利要求1所述的突發事件檢測方法,其特征是,所述步驟三,如下實現: S31:從數據庫中獲取目標文檔集、比較文檔集的所有內容詞以及詞頻; S32:用一定的信息衡量標準計算目標文檔集合中的內容詞與比較文檔集中相同詞的差異性; S33:根據一定的順序排列,把排在前面的部分詞語篩選出來,作為目標文檔集的線索ο
3.如權利要求1所述的突發事件檢測方法,其特征是,所述步驟四,如下實現: 541:構建線索詞之間的相關度矩陣; 542:在步驟S41構建的相關度矩陣基礎上,對線索詞集進行聚類處理,得到若干個子集合,每個子集合表示一個類,對應于一個事件; 543:將聚類后得到的所有類別排序,然后再輸出排在前面的若干個類,表示若干個突發事件。
4.如權利要求1所述的突發事件檢測方法,其特征是,步驟一中,利用網絡爬蟲每天從指定新聞網站爬取新聞文檔。
5.如權利要求2所述的突發事件檢測方法,其特征是,步驟S32中,使用TF-1DF值作為信息衡量標準。
6.如權利要求5所述的突發事件檢測方法,其特征是,步驟S33中,根據TF-1DF值降序進行排列。
7.如權利要求1所述的突發事件檢測方法,其特征是,步驟S41中,兩個線索詞之間的相關程度計算方法是互信息或卡方值。
8.如權利要求1所述的突發事件檢測方法,其特征是,步驟S42中,聚類的方法為層次聚類或基于圖的聚類。
9.如權利要求1所述的突發事件檢測方法,其特征是,步驟S43中,按照詞語集合在目標文檔集中出現的頻次的大小降序。
全文摘要
一種基于文檔詞匯特征變化的突發事件檢測方法。包括利用計算機從新聞網站上的時政新聞報道中爬取指定時間段的新聞文章;對每一個文檔進行預處理,包括漢語詞切分和詞性標注;留下內容詞,過濾掉其它詞;獲取前面k年與目標文檔相同時間段及前r天和后r天的新聞文檔作為比較文檔集;對比較文檔集同樣進行漢語切詞和詞性標注處理,保留內容詞;從數據庫中提取目標文檔集中的所有線索詞;對線索詞集聚類,形成突發事件描述。利用本發明提供的技術方案,可以將事件空間還原到線索詞空間,通過聚類的方法輸出的線索詞子集合,一個子集合對應著一個突發事件的描述。
文檔編號G06F17/30GK103246728SQ20131017029
公開日2013年8月14日 申請日期2013年5月10日 優先權日2013年5月10日
發明者王厚峰, 張龍凱 申請人:北京大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影