<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

基于信息熵特征權重量化的海量短文本分布式knn分類算法及系統的制作方法

文檔序號:6543796閱讀:667來源:國知局
基于信息熵特征權重量化的海量短文本分布式knn分類算法及系統的制作方法
【專利摘要】本發明公開了一種基于信息熵特征權重量化的海量短文本分布式KNN分類算法及系統。算法主要包括對文本的預處理、用信息熵衡量特征的權重,基于信息熵的文檔向量表示方法,采用索引及緩存技術的KNN分類算法,整個算法基于MapReduce計算框架的實現。本發明利用特征在訓練集中的信息熵,有效地衡量文本中詞對于分類的作用大小,并且算法基于MapReduce計算框架能利用大規模集群來高效地對進行海量短文本的分類處理。本發明提供了一個準確率高、運行效率高、擴展性強的海量短文本分類算法。
【專利說明】基于信息熵特征權重量化的海量短文本分布式KNN分類算法及系統
【技術領域】
[0001]本發明屬于文本分類【技術領域】,涉及一種基于信息熵特征權重量化的海量短文本分布式KNN分類算法及系統。
【背景技術】
[0002]隨著互聯網的高速發展,用戶生成的電子文檔及資源數目日益增長。文本分類技術成為處理和組織海量文檔數據的關鍵技術。特別是隨著微型博客和各類用戶評論等短文本數據在互聯網范圍內的大量出現,有關短文本的相關研究逐步受到人們的關注。分本分類算法一般包括:文本預處理、文檔的表示以及分類器的選擇和訓練。具體來說,文本預處理主要是將文本進行分詞切割,并將其中對于語義表達無用的停詞去除。文檔表示是為了降低文檔的復雜性,使其便于后續步驟的處理,將文檔的文本格式轉成向量格式。向量中的每個特征將被賦予一個權重用來表示其在分類貢獻度,對特征進行恰當的權重量化處理能夠有效地提高分類算法的分類精度。最后,采用相應的分類算法對重新表示后的文檔進行訓練,并對未分類的文檔進行類別預測及分類。
[0003]目前,對于文本分類處理方法大多是針對長文本分類提出的。所謂長文本是指篇幅較長,包含了較多內容的文本文件。不同于長文本,短文本具有關鍵詞特征稀疏、語境不完整和語義信息模糊的特點,使得傳統的文本表示方法在短文本處理時難以較好地量化特征在分類時的有用性。
[0004]此外,隨著大數據時代的到來,對海量數據處理的實時性、可靠性、可擴展性等有了更高的要求。在這種情況下,Hadoop、Spark等海量數據處理平臺應運而生。然而,傳統的算法大多數都是在單機環境下進行數據處理,尚未有效地擴展到并行、分布式計算平臺,使之能適應大數據處理能力的需求。

【發明內容】

[0005]本發明的主要目的在于克服現有技術的缺點與不足,提供一種基于信息熵特征權重量化的海量短文本分布式KNN分類算法。
[0006]本發明的另一目的在在于,提供一種基于信息熵特征權重量化的海量短文本分布式KNN分類系統。
[0007]為了達到上述第一目的,本發明采用以下技術方案:
[0008]基于信息熵特征權重量化的海量短文本分布式KNN分類算法,包括下述步驟:
[0009]S1、通過信息熵指標衡量特征在數據集中的分布確定性,將確定性高的特征賦予高權重,反之賦予低權重,得到反映類分布的權重量化方法;
[0010]S2、基于Hadoop分布式計算平臺,采用MapReduce計算框架進行設計的,分為兩輪MapReduce操作組合;
[0011]在第一輪Map操作中,訓練集被平均拆分為多個子訓練集并分配到進行運算的結點上,每一個待分類的測試數據同時在不同節點上,分別與該節點中的子訓練集進行相似度計算。在第一輪Reduce操作中,在各個節點中對Map計算得到的相似度進行排序,獲得每個節點上與測試樣本數據的局部最相似的k個訓練集樣本;
[0012]在第二輪Map操作中,將每個節點中的局部最相似的k個訓練集樣本的相似度和類別進行統計,在第二輪Reduce操作中,各個訓練集樣本以相似度進行投票,選出相似度最大的類別作為測試樣本數據的預測類別;其中第二輪MapReduce操作組可以根據集群節點數目酌情變換成多輪MapReduce操作組合。
[0013]優選的,步驟SI中,對于面向類分布均勻數據、基于熵的特征權重量化子方法的具體步驟為:
[0014]S111、初試化特征-類別分布矩陣,統計每個特征t在各個類Ci中出現詞頻
f (t, Ci);
[0015]S112、計算每個類別Ci的詞頻總數f (Ci) = Σ tf (t, Ci);
[0016]S113、計算特征在訓練數據集中的熵值:
[0017]
【權利要求】
1.基于信息熵特征權重量化的海量短文本分布式KNN分類算法,其特征在于,包括下述步驟: .51、通過信息熵指標衡量特征在數據集中的分布確定性,將確定性高的特征賦予高權重,反之賦予低權重,得到反映類分布的權重量化方法; .52、基于Hadoop分布式計算平臺,采用MapReduce計算框架進行設計的,分為兩輪MapReduce操作組合; 在第一輪Map操作中,訓練集被平均拆分為多個子訓練集并分配到進行運算的結點上,每一個待分類的測試數據同時在不同節點上,分別與該節點中的子訓練集進行相似度計算;在第一輪Reduce操作中,在各個節點中對Map計算得到的相似度進行排序,獲得每個節點上與測試樣本數據的局部最相似的k個訓練集樣本; 在第二輪Map操作中,將每個節點中的局部最相似的k個訓練集樣本的相似度和類別進行統計,在第二輪Reduce操作中,各個訓練集樣本以相似度進行投票,選出相似度最大的類別作為測試樣本數據的預測類別;其中第二輪MapReduce操作組可以根據集群節點數目酌情變換成多輪MapReduce操作組合。
2.根據權利要求1所述的基于信息熵特征權重量化的海量短文本分布式KNN分類算法,其特征在于,步驟SI中,對于面向類分布均勻數據、基于熵的特征權重量化子方法的具體步驟為: . 5111、初試化特征——類別分布矩陣,統計每個特征t在各個類Ci中出現詞頻f (t, Ci); S112、計算每個類別Ci的詞頻總數f(Ci) = Σtf(t, Ci); s113、計算特征在訓練數據集中的熵值:
3.根據權利要求1所述的基于信息熵特征權重量化的海量短文本分布式KNN分類算法,其特征還在于,面向非均勻類分布數據、基于平衡熵的特征權重量化子方法,考慮到類之間文檔數量的不平衡性,在一個樣本數極少的類中出現一次和在一個樣本數較多的類中出現一次應該給予不同的權重,包括以下步驟: s121、初始化特征-類別分布矩陣,統計每個特征w在各個類Ci中出現詞頻f(t,Ci); s122、計算每個類別Ci的詞頻總數f(Ci) = Σ tf (t, Ci); s123、計算特征-類別詞頻與類別總詞頻的相對比例:
f1 (t, Ci) = f (t, CiVf(Ci); s124、計算特征在訓練數據集中的熵值:
4.根據權利要求1所述的基于信息熵特征權重量化的海量短文本分布式KNN分類算法,其特征在于,步驟S2具體為: 521、將訓練數據集劃分成η個子集,其中η為Hadoop平臺中負責運算的從屬節點個數; 522、每個從屬節點在讀入訓練數據子集時,建立一個特征與包含該特征的文檔之間的索引,如:〈t1:qi,一,qk>,其中\是特征,Qi為包含\的文檔,該索引用來快速查找包含某個特征的文檔集合,另外,建立一個文檔向量模的緩存單元; 523、對于一個待分類的測試文檔數據q,同時分派給每個從屬節點,在每個節點中,首先初始化A[l]_A[k]作為q的初始近鄰,A[l]-A[k]按q與A[i]的相似度similarity (q,A[i])降序排序,然后通過查找索引找出包含q中特征的所有訓練集文檔〈q”…,qk>作為候選鄰居集合,依次計算q與每個候選鄰居Qi的余弦相似度,q與Qi的相似度的計算公式如:
5.基于信息熵特征權重量化的海量短文本分布式KNN分類系統,其特征在于,文本預處理模塊、特征提取模塊、基于信息熵的詞權重量化模塊、文檔表示模塊以及引入索引緩存機制的KNN分布式分類模塊; 所述文本預處理模塊,使用分詞器將所要分類的文本分成易于處理的單個詞項,每一個詞項作為此算法中處理的最小單元;然后根據中文停詞表,把表中這些對文本分類沒有意義的詞項去掉; 所述特征提取方法模塊,對每個樣本中的文本預處理后得到的詞項進行詞頻統計,從而把每個樣本表示為U1If1,...,&:&,的形式,其中L為文本中得到的詞項,為該詞項在當前樣本的文本中出現的次數,η為所有樣本中不同詞項的總數;所述基于信息熵的詞權重量化模塊,通過計算特征在訓練集類別中的熵值來量化特征類別分布的確定性程度,并以此來衡量各個特征在分類過程中的貢獻度;根據訓練集的類別分布情況,若各個類別包含的文檔數據數目比較一致,即各個類的分布較均勻,則采樣對于面向類分布均勻數據、基于熵的特征權重量化子方法進行處理;否則,即各個類別包含的文檔數據數目相差較大,各個類的分布不均勻,則采用面向非均勻類分布數據、基于平衡熵的特征權重量化子方法進行特征權重設置; 所述的文檔表示模塊,對每個樣本中表示為如下形式,(t1:wl,…,t1:wi,"%tn:wn),其中為文本中得到的詞,η為樣本中不同特征總的總數量;假設經特征提取后的文檔q =(t1: fv …,h: fi,…,tn: fn),則 Wi = f^weight (ti); 所述的引入索引緩存機制的分布式KNN分類模塊,由一種引入索引和緩存機制的KNN分布式分類算法組成;對一個未知分類的測試樣本q,首先計算它與所有已知分類樣本的相似度,再取出其中最相似的k個,得到一個樣本集S。
6.根據權利要求5所述基于信息熵特征權重量化的海量短文本分布式KNN分類系統,其特征在于,引入索引緩存機制的分布式KNN分類模塊中,根據S中樣本的標記類別以及其與測試樣本X的相似度,計算出測試樣本與每個類的相似度:
【文檔編號】G06F17/27GK103955489SQ201410150855
【公開日】2014年7月30日 申請日期:2014年4月15日 優先權日:2014年4月15日
【發明者】蔡毅, 蔡志威, 王濤 申請人:華南理工大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影