<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

網絡水軍的檢測方法及裝置制造方法

文檔序號:7795748閱讀:326來源:國知局
網絡水軍的檢測方法及裝置制造方法
【專利摘要】本發明涉及一種網絡水軍的檢測方法及裝置。其中,網絡水軍的檢測方法包括:步驟一,將原始的用戶描述信息表示為歸一化的用戶描述向量,從用戶描述向量中篩選出已分類數據,將該已分類數據的a%作為深度信念網絡DBN模型的訓練數據,將該已分類數據的b%作為DBN模型的檢測數據;步驟二,用訓練數據訓練DBN模型,輸出訓練得到的DBN模型;步驟三,檢驗輸出DBN模型的收斂性和判定準確率,根據檢驗結果調整所述步驟一和步驟二中的相關參數,直至所述輸出DBN模型達到預設收斂條件或終止條件;步驟四,使用最終DBN模型對網絡水軍進行檢測。本發明的網絡水軍的檢測方法及裝置,既提高了網絡水軍檢測算法的收斂性和準確率,又縮短了海量樣本數據下的模型訓練時間。
【專利說明】網絡水軍的檢測方法及裝置【技術領域】
[0001 ] 本發明涉及網絡【技術領域】,尤其涉及一種網絡水軍的檢測方法及裝置。
【背景技術】
[0002]隨著信息技術的發展與進步,網絡空間已成為繼陸、海、空、天四維空間以外的人類第五維活動空間,尤其在WEB2.0技術應用于互聯網領域之后,論壇、微博等社交應用的發展更是如火如荼。然而在網絡空間迅速發展的同時,它所帶來的安全問題也越來越突出,其中以來源于“網絡水軍”的安全問題最為常見。“網絡水軍”是受雇于網絡公關公司,針對特定主題進行發回帖造勢的網絡用戶,據相關機構調查,我國從事網絡營銷活動的推手已達數百萬人,受雇于商業組織的“網絡水軍”日趨規模化、公開化、集團利益化。從“封殺王老吉營銷策劃方案”到貓撲的“虐貓女事件”再到“蒙牛陷害門”丑聞,可以說,“網絡水軍”已經觸碰到了法律的底線,甚至有一部分“網絡水軍”在國外別有用心的機構操縱之下,在國內各大論壇發布攻擊信息、造謠言論和挑撥語言,制造矛盾,進行惡意的網絡文化滲透,危害國家安全。可見,對“網絡水軍”進行監管已經刻不容緩。
[0003]不同于實體環境,網絡論壇的虛擬環境存在固有的開放性特點和獨特的信息傳播規律,這就給“網絡水軍”監管帶來很大挑戰,主要體現在以下兩個方面:
[0004]首先,網絡論壇中熱門信息的傳播呈爆炸趨勢,因此事后刪帖的方式并不能對損害結果進行徹底補救,甚至,刪帖行為本身反而會被水軍利用,從某種程度上“證實”消息內容的真實性。
[0005]其次,網絡論壇包含 海量數據,如何構造有效的算法從大量無規則數據中提取可用信息,成為“網絡水軍”監管的最大障礙。
[0006]因此,對“網絡水軍”的監管不僅要從法律與制度層面完善相關網絡法律體系、及時公布政務情況和公共事件動向,更需要結合網絡論壇的特點,從技術層面提高大規模用戶數據處理能力,研究和改進適用于“網絡水軍”檢測的相關算法,從而識別論壇中的“網絡水軍”用戶,在源頭上阻止水軍貼的發布。
[0007]“網絡水軍”檢測實質上是分類問題,一種普遍的做法是分析已知分類用戶的相關信息及歷史行為,從中提取水軍用戶區別于正常用戶的特點,進而對未知分類用戶信息進行分析,判定哪些用戶最可能是“網絡水軍”。目前常用于分類問題的算法包括貝葉斯網絡、支持向量機、KNN、神經網絡等,其中,貝葉斯網絡是用概率統計知識進行分類的算法,它通過貝葉斯定理預測樣本類別,但是貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中經常是不成立的,因而其分類準確性會大大下降;支持向量機需要事先計算樣本的空間向量,并設定向量中每個維度對最終結果的影響權值,權值設定過程很大程度上依賴于歷史經驗及問題分析,權值設定的好壞也直接影響了算法的判定準確性;KNN算法是一種懶惰學習方法,它存放樣本,直至需要分類時才運行學習算法,如果樣本集比較復雜,可能會導致很大的計算開銷,影響分類的實時性。神經網絡算法是最常用于分類問題的算法,該算法通過訓練的方式確定模型參數,可以客觀地反映各個影響因素對最終結果的影響程度,而且神經網絡的訓練是在分類之前進行,不會給分類過程帶來額外的時間開銷。但是基本神經網絡模型復雜,當訓練集規模較大時,訓練過程耗時太長,且極易因為網絡初始權值設置不當而陷入局部最優解,這就意味著用基本神經網絡算法進行“網絡水軍”發現時會存在收斂性差、準確率低、耗時長的問題。

【發明內容】

[0008]本發明所要解決的技術問題是提供一種網絡水軍的檢測方法及裝置,提高了網絡水軍檢測算法的收斂性和準確率,縮短海量樣本數據下模型訓練時間。
[0009]為解決上述技術問題,本發明提出了一種網絡水軍的檢測方法,包括:
[0010]步驟一,將原始的用戶描述信息表示為歸一化的用戶描述向量,從所述用戶描述向量中篩選出已分類數據,將該已分類數據的3%作為深度信念網絡DBN模型的訓練數據,將該已分類數據的b%作為DBN模型的檢測數據,a大于b,且a與b之和等于100,所述用戶描述信息的類型由用戶預先選定,所述已分類用戶數據指已經被標記為是否網絡水軍的用戶數據;
[0011]步驟二,用所述訓練數據訓練DBN模型,輸出訓練得到的DBN模型,將該輸出的DBN模型稱為輸出DBN模型;
[0012]步驟三,檢驗所述輸出DBN模型的收斂性和判定準確率,根據檢驗結果調整所述步驟一和步驟二中的相關參數,直至所述輸出DBN模型達到預設收斂條件或終止條件,其中,所述判定準確率通過采用所述檢測數據檢測所述輸出DBN模型而得到;
[0013]步驟四,使用最終DBN模型對網絡水軍進行檢測,所述最終DBN模型是指達到所述預設收斂條件或終止條件的輸出DBN模型。
[0014]進一步地,上述網絡水軍的檢測方法還可具有以下特點,a的初始值為60。
[0015]進一步地,上述網絡水軍的檢測方法還可具有以下特點,依據步驟二所得到的DBN模型的收斂性和判定準確率是否達到預期要求調整a的值。
[0016]進一步地,上述網絡水軍的檢測方法還可具有以下特點,步驟二中,所述DBN模型的訓練過程包括模型預訓練過程和模型微調過程,所述模型預訓練過程采用Downpour SGD算法進行并行RBM訓練,所述模型微調過程采用MapReduce算法進行并行PSO-BP神經網絡訓練。
[0017]進一步地,上述網絡水軍的檢測方法還可具有以下特點,所述用戶描述信息包括注冊時長、登錄頻率、在線時長、用戶名長度、密碼長度、發帖比例、回帖比例、相對瀏覽帖子時間、相對發帖時間、粉絲數和關注數。
[0018]為解決上述技術問題,本發明還提出了一種網絡水軍的檢測裝置,包括用戶數據預處理模塊、DBN模型訓練模塊、協同模塊和檢測模塊,DBN模型訓練模塊分別與用戶數據預處理模塊、協同模塊和檢測模塊相連,協同模塊還與用戶數據預處理模塊相連,其中:
[0019]用戶數據預處理模塊,用于將原始的用戶描述信息表示為歸一化的用戶描述向量,從所述用戶描述向量中篩選出已分類數據,將該已分類數據的3%作為深度信念網絡DBN模型的訓練數據,將該已分類數據的b%作為DBN模型的檢測數據,a大于b,且a與b之和等于100,所述用戶描述信息的類型由用戶預先選定,所述已分類用戶數據指已經被標記為是否網絡水軍的用戶數據;[0020]DBN模型訓練模塊,用于用所述訓練數據訓練DBN模型,輸出訓練得到的DBN模型,將該輸出的DBN模型稱為輸出DBN模型;
[0021]協同模塊,用于檢驗所述輸出DBN模型的收斂性和判定準確率,根據檢驗結果調整所述步驟一和步驟二中的相關參數,直至所述輸出DBN模型達到預設收斂條件或終止條件,其中,所述判定準確率通過采用所述檢測數據檢測所述輸出DBN模型而得到;
[0022]檢測模塊,用于使用最終DBN模型對網絡水軍進行檢測,所述最終DBN模型是指達到所述預設收斂條件或終止條件的輸出DBN模型。
[0023]進一步地,上述網絡水軍的檢測裝置還可具有以下特點,a的初始值為60。
[0024]進一步地,上述網絡水軍的檢測裝置還可具有以下特點,依據步驟二所得到的DBN模型的收斂性和判定準確率是否達到預期要求調整a的值。
[0025]進一步地,上述網絡水軍的檢測裝置還可具有以下特點,所述DBN模型的訓練過程包括模型預訓練過程和模型微調過程,所述DBN模型訓練模塊包括預訓練單元和微調單元,所述預訓練單元用于采用Downpour SGD算法進行并行RBM訓練,所述微調單元用于采用MapReduce算法進行并行PSO-BP神經網絡訓練。
[0026]進一步地,上述網絡水軍的檢測裝置還可具有以下特點,所述用戶描述信息包括注冊時長、登錄頻率、在線時長、用戶名長度、密碼長度、發帖比例、回帖比例、相對瀏覽帖子時間、相對發帖時間、粉絲數和關注數。
[0027]本發明的網絡水軍的檢測方法及裝置,既提高了網絡水軍檢測算法的收斂性和準確率,又縮短了海量樣本數據下模型訓練時間,解決了海量樣本數據下模型訓練時間過長的問題。
【專利附圖】

【附圖說明】
[0028]圖1為本發明實施例中網絡水軍的檢測方法的流程圖;
[0029]圖2為本發明實施例中用戶描述向量的并行處理示意圖;
[0030]圖3為本發明實施例中基于MapReduce算法的用戶描述向量各維度數值范圍確定流程圖;
[0031]圖4為基本DBN t旲型不意圖;
[0032]圖5為Downpour SGD模型不意圖;
[0033]圖6為基于Downpour S⑶的并行RBM訓練算法流程圖;
[0034]圖7為單層BP神經網絡結構圖;
[0035]圖8為單子個粒子PSO-BP神經網絡訓練算法流程圖;
[0036]圖9為基于工作流的多層協同機制示意圖;
[0037]圖10為本發明實施例中網絡水軍的檢測裝置的結構框圖。
【具體實施方式】
[0038]以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。
[0039]圖1為本發明實施例中網絡水軍的檢測方法的流程圖。如圖1所示,本實施例中,網絡水軍的檢測方法流程可以包括如下步驟:[0040]步驟S101,將原始的用戶描述信息表示為歸一化的用戶描述向量,從所述用戶描述向量中篩選出已分類數據,將該已分類數據的&%作為DBN (De印Belief Network,深度信念網絡)模型的訓練數據,將該已分類數據的匕%作為DBN模型的檢測數據,a大于b,且a與b之和等于100,所述用戶描述信息的類型由用戶預先選定,所述已分類數據指已經被標記為是否網絡水軍的用戶數據;
[0041]步驟S102,用所述訓練數據訓練DBN模型,輸出訓練得到的DBN模型,將該輸出的DBN模型稱為輸出DBN模型;
[0042]其中,DBN模型的訓練過程包括模型預訓練過程和模型微調過程,所述模型預訓練過程采用Downpour S⑶算法進行并行RBM訓練,所述模型微調過程采用MapReduce算法進行并行PSO-BP神經網絡訓練。
[0043]Downpour SGD算法和MapReduce算法為現有技術,此處不對Downpour SGD算法和MapReduce算法進行詳細描述。
[0044]步驟S103,檢驗輸出DBN模型的收斂性和判定準確率,根據檢驗結果調整所述步驟SlOl和步驟S102中的相關參數,直至所述輸出DBN模型達到預設收斂條件或終止條件,其中,所述判定準確率通過采用所述檢測數據檢測所述輸出DBN模型而得到;
[0045]步驟S104,使用最終DBN模型對網絡水軍進行檢測,最終DBN模型是指達到所述預設收斂條件或終止條件的輸出DBN模型。
[0046]下面對上述步驟作進一步的詳細說明。
[0047]步驟SlOl中,將用戶描述信息轉化為某種數學形式進行表示。客觀上,一個網絡論壇用戶包含很多描述信息,比如用戶注冊時間、歷次登陸時間、用戶名、密碼、登陸IP、瀏覽歷史記錄、發帖歷史記錄、回帖歷史記錄、論壇好友記錄、粉絲記錄、關注用戶記錄等。本發明中,選取其中比較有代表性的信息(這些信息即表1所列信息)作為參考,對用戶進行分類,并據此提出用戶信息多屬性描述框架,框架結構如表1所示。
[0048]表1用戶信息多屬性描述框架
[0049]
【權利要求】
1.一種網絡水軍的檢測方法,其特征在于,包括: 步驟一,將原始的用戶描述信息表示為歸一化的用戶描述向量,從所述用戶描述向量中篩選出已分類數據,將該已分類數據的a%作為深度信念網絡DBN模型的訓練數據,將該已分類數據的b%作為DBN模型的檢測數據,a大于b,且a與b之和等于100,所述用戶描述信息的類型由用戶預先選定,所述已分類用戶數據指已經被標記為是否網絡水軍的用戶數據; 步驟二,用所述訓練數據訓練DBN模型,輸出訓練得到的DBN模型,將該輸出的DBN模型稱為輸出DBN模型; 步驟三,檢驗所述輸出DBN模型的收斂性和判定準確率,根據檢驗結果調整所述步驟一和步驟二中的相關參數,直至所述輸出DBN模型達到預設收斂條件或終止條件,其中,所述判定準確率通過采用所述檢測數據檢測所述輸出DBN模型而得到; 步驟四,使用最終DBN模型對網絡水軍進行檢測,所述最終DBN模型是指達到所述預設收斂條件或終止條件的輸出DBN模型。
2.根據權利要求1所述的網絡水軍的檢測方法,其特征在于,a的初始值為60。
3.根據權利要求2所述的網絡水軍的檢測方法,其特征在于,依據步驟二所得到的DBN模型的收斂性和判定準確率是否達到預期要求調整a的值。
4.根據權利要求1所述的網絡水軍的檢測方法,其特征在于,步驟二中,所述DBN模型的訓練過程包括模型預訓練過程和模型微調過程,所述模型預訓練過程采用Downpour SGD算法進行并行RBM訓練,所述模型微調過程采用MapReduce算法進行并行PSO-BP神經網絡訓練。
5.根據權利要求1所述的網絡水軍的檢測方法,其特征在于,所述用戶描述信息包括注冊時長、登錄頻率、在線時長、用戶名長度、密碼長度、發帖比例、回帖比例、相對瀏覽帖子時間、相對發帖時間、粉絲數和關注數。
6.一種網絡水軍的檢測裝置,其特征在于,包括用戶數據預處理模塊、DBN模型訓練模塊、協同模塊和檢測模塊,DBN模型訓練模塊分別與用戶數據預處理模塊、協同模塊和檢測模塊相連,協同模塊還與用戶數據預處理模塊相連,其中: 用戶數據預處理模塊,用于將原始的用戶描述信息表示為歸一化的用戶描述向量,從所述用戶描述向量中篩選出已分類數據,將該已分類數據的3%作為深度信念網絡DBN模型的訓練數據,將該已分類數據的b%作為DBN模型的檢測數據,a大于b,且a與b之和等于100,所述用戶描述信息的類型由用戶預先選定,所述已分類用戶數據指已經被標記為是否網絡水軍的用戶數據; DBN模型訓練模塊,用于用所述訓練數據訓練DBN模型,輸出訓練得到的DBN模型,將該輸出的DBN模型稱為輸出DBN模型; 協同模塊,用于檢驗所述輸出DBN模型的收斂性和判定準確率,根據檢驗結果調整所述步驟一和步驟二中的相關參數,直至所述輸出DBN模型達到預設收斂條件或終止條件,其中,所述判定準確率通過采用所述檢測數據檢測所述輸出DBN模型而得到; 檢測模塊,用于使用最終DBN模型對網絡水軍進行檢測,所述最終DBN模型是指達到所述預設收斂條件或終止條件的輸出DBN模型。
7.根據權利要求6所述的網絡水軍的檢測裝置,其特征在于,a的初始值為60。
8.根據權利要求7所述的網絡水軍的檢測裝置,其特征在于,依據DBN模型訓練模塊所得到的DBN模型的收斂性和判定準確率是否達到預期要求調整a的值。
9.根據權利要求6所述的網絡水軍的檢測裝置,其特征在于,所述DBN模型的訓練過程包括模型預訓練過程和模型微調過程,所述DBN模型訓練模塊包括預訓練單元和微調單元,所述預訓練單元用于采用Downpour SGD算法進行并行RBM訓練,所述微調單元用于采用MapReduce算法進行并行PSO-BP神經網絡訓練。
10.根據權利要求6所述的網絡水軍的檢測裝置,其特征在于,所述用戶描述信息包括注冊時長、登錄頻率、在線時長、用戶名長度、密碼長度、發帖比例、回帖比例、相對瀏覽帖子時間、相對發帖時間、粉絲數和關注數。
【文檔編號】H04L12/26GK103795592SQ201410027720
【公開日】2014年5月14日 申請日期:2014年1月21日 優先權日:2014年1月21日
【發明者】孫衛強, 牛溫佳, 趙衛中, 管洋洋, 黃超, 李倩, 胡玥, 劉萍, 郭莉 申請人:中國科學院信息工程研究所
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影