<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種微博用戶群體結構發現分析方法及系統的制作方法

文檔序號:6498920閱讀:317來源:國知局
一種微博用戶群體結構發現分析方法及系統的制作方法
【專利摘要】本發明提供一種微博用戶群體結構發現分析方法及系統,所述微博用戶群體結構發現分析方法包括:獲取目標群體中微博用戶的行為數據信息;根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡;從所述微博用戶關聯網絡中,獲取至少一個極大團;基于所述極大團,獲取至少一個核心團;基于所述獲取到的極大團和/或核心團,進行微博用戶群體行為分析。采用本發明提供的微博用戶群體結構發現分析方法及系統可以充分說明微博用戶之間的復雜關系,還可以提高微博用戶群體結構發現分析的速度,滿足大規模數據處理的需求。
【專利說明】一種微博用戶群體結構發現分析方法及系統
【技術領域】
[0001]本發明涉及互聯網中微博用戶群體結構的發現和知識挖掘【技術領域】,尤其涉及一種微博用戶群體結構發現分析方法及系統。
【背景技術】
[0002]隨著微博服務平臺的不斷發展,龐大的微博用戶群體形成了復雜的關系網絡,而微博用戶之間的連接關系所呈現出的模式既不是純粹的隨機,也不是純粹的規則,而是具有無尺度、小世界、高聚集和自相似等等特征,并且會隨著時間發生變化。如何發現潛在的聯系非常緊密的用戶群體,進而發現關系網絡的群體結構特征,成為當前研究的熱點問題,然而現有的研究方法主要包括基于單個數據實體屬性的分析方法和基于復雜網絡的分析方法。其中,基于單個數據實體屬性的分析方法即基于內容分析的方法,能夠實現相似微博消息的聚類分類,進而實現具有相似行為習慣的微博用戶分類。基于復雜網絡分析方法相對于傳統的基于內容分析的方法,更強調數據實體之間的聯系,更能突出從多關系、結構、背景、復雜系統及發展的角度對具有群體特性的數據集展開統計分析。
[0003]但是,在現有的微博用戶群體結構發現分析過程中,發明人發現現有方法存在如下問題:
[0004]基于單個數據實體屬性的分析方法不但過于依賴于經驗和先驗知識,缺乏處理未知知識的能力,而且僅將微博用戶定性為屬于或不屬于已知用戶類別,分類法過于簡單,也不能充分說明用戶之間存在的復雜關系。而基于復雜網絡分析方法則由于現有算法的局限性,使得數據處理規模不能滿足現有需求,處理速度也受到局限。

【發明內容】

[0005]針對現有技術中存在的缺陷,本發明的目的是提供一種微博用戶群體結構發現分析方法及系統。
[0006]本發明提供一種微博用戶群體結構發現分析方法,包括:
[0007]獲取目標群體中微博用戶的行為數據信息;
[0008]根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡;
[0009]從所述微博用戶關聯網絡中,獲取至少一個極大團;
[0010]基于所述極大團,獲取至少一個核心團;
[0011]基于所述獲取到的極大團和/或核心團,進行微博用戶群體行為分析。
[0012]本發明還提供一種微博用戶群體結構發現分析系統,包括:
[0013]信息獲取單元,用于獲取目標群體中微博用戶的行為數據信息;
[0014]關聯網絡構建單元,用于根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡;
[0015]極大團獲取單元,用于從所述微博用戶關聯網絡中,獲取至少一個極大團;
[0016]核心團獲取單兀,用于基于所述極大團,獲取至少一個核心團;[0017]分析單元,用于基于所述獲取到的極大團和/或核心團,進行微博用戶群體行為分析。
[0018]本發明提供的微博用戶群體結構發現分析方法及系統,通過獲取目標群體中微博用戶的行為數據信息;根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡;從所述微博用戶關聯網絡中,獲取至少一個極大團;基于所述極大團,獲取至少一個核心團;基于所述獲取到的極大團和/或核心團,進行微博用戶群體行為分析。采用本發明提供的微博用戶群體結構發現分析方法及系統可以充分說明微博用戶之間的復雜關系,還可以提高微博用戶群體結構發現分析的速度,滿足大規模數據處理的需求。
【專利附圖】

【附圖說明】
[0019]圖1為本發明實施例提供的一種微博用戶群體結構發現分析方法的流程圖;
[0020]圖2為本發明提供的一種微博用戶關聯網絡中用戶結點及其對應關聯關系的復合數據結構示意圖;
[0021]圖3為本發明實施例子提供的一種微博用戶關聯網絡中極大團發現示意圖;
[0022]圖4為本發明實施例子提供的一種微博用戶關聯網絡中核心團識別示意圖;
[0023]圖5為本發明實施例提供的一種微博用戶群體結構發現分析系統的結構示意圖。
【具體實施方式】
[0024]下面結合附圖對本發明實施例提供的一種微博用戶群體結構發現分析方法及系統進行詳細描述。
[0025]首先,需要對本發明以下實施例子中出現的相關概念進行說明;具體如下:
[0026]群體:是指基于共同的興趣、愛好及其它關系,相互之間聯系相對比較緊密的微博用戶組成的集合;
[0027]極大團:是指給定圖G,對于任意子圖G’,令V(G’)和E(G’)分別表示其包含的結點和邊集合,如果vi和vj屬于V(G’),且存在ei,j屬于E(G’),那么子圖G’稱為團。如果不存在其它團包含G’,稱G’為極大團。
[0028]核心團:是指在給定圖G中,對于任意的結點Vi屬于V(G),由于Vi所處的極大團包含了與Vi聯系最為緊密的一組結點,因此集合Ci (包含Vi的所有極大團)包含了結點Vi最為密集的臨近區域,并稱為結點Vi的社會關系圈。對于任意兩個結點vi,vj,如果Vi的社會關系圈涵蓋了絕大部分Vj的社會關系圈,那么我們認為結點Vj是結點Vi的一部分社會聯系,并稱為Ci包含Cj。如果結點vi的社會關系圈Ci不被其它任何結點的社會關系圈所包含,說明Ci內部的結點聯系足夠緊密并且具有足夠的規模,那么Ci可以獨立成為給定圖G的核心。
[0029]基于以上概念的說明,如圖1所示,為本發明實施例子提供的一種微博用戶群體結構發現分析方法,該方法包括:
[0030]101:獲取目標群體中微博用戶的行為數據信息;所述目標群體中微博用戶的行為數據信息可以采用微博爬蟲實現行為數據信息的采集、過濾和存儲;所述微博用戶的行為數據信息包括:微博用戶屬性信息、關注信息,微博消息轉發、評論信息。
[0031]102:根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡;該步驟,在用戶的行為數據信息的基礎上,實現用戶關聯關系的抽取和微博用戶關聯網絡的構建。所述關聯關系定義如下:
[0032](I)如果用戶之間存在關注關系,則認為用戶之間存在關聯關系,關注關系可以通過查詢用戶的關注列表獲得;
[0033](2)如果用戶之間不存在關注關系,但是存在較多的評論、轉發關系,則認為用戶之間存在關聯關系。偶然的評論、轉發并不能充分說明用戶之間的內在關系,通過評論、轉發關系而推斷出用戶之間的關聯關系也是非常復雜的問題,但是評論、轉發關系仍然反應了事物的內在規律性。在這里,借用經驗性的結論“事不過三”,當用戶A對用戶B發布的微博消息,轉發評論的次數超過3次以上時,就判定用戶A和用戶B之間存在關聯關系。為了使評價指標更具合理性,加入另外的判定條件,轉發評論的次數超過3次以上且用戶A對用戶B發布的微博消息的30%以上存在評論、轉發關系時,就判定用戶A和用戶B之間存在關聯關系。
[0034](3)如果用戶之間即不存在關注關系,也不存在評論、轉發關系,但是用戶微博消息、評論轉發消息存在較強的相關性,則認為用戶之間存在關聯關系。微博消息之間的相似性即文本相似性,由于微博內容比較短小,單條微博內容所包含的信息量較少,依次比較兩個微博用戶每條微博,并不能達到很好效果。在此,采用增體比較策略,即將微博用戶發布、轉發、評論作為一個整體,然后比較整體相似度。
[0035](4)如果上述3中情況都不滿足,則認為用戶之間不存在關聯關系。
[0036]按照所述關聯關系的定義,遍歷步驟101所獲取的目標群體中微博用戶的行為數據信息集,按照關聯關系的定義提取微博用戶之間的關聯關系。
[0037]在所述步驟101和步驟102處理的基礎上,采用由map和set組成的復合數據結構map〈set>來存儲微博用戶關聯關系的網絡結構(如圖2所示),map用來存儲不重復的微博用戶結點,每個用戶結點對應一個由set存儲的不重復的存在關聯關系的微博用戶結點。
[0038]103:從所述微博用戶關聯網絡中,獲取至少一個極大團;例如:如圖3所示,該步驟在無向無權圖G中,基于搜索三角形并配合一定的剪枝策略來枚舉出所有的極大團。以下實例中的符號NL(V)為對結點進行編號后,結點V的所有鄰接點中,所有序號比V大的結點;TR(vi,vj)為和結點vi,vj能夠形成三角形的結點集合;基于圖3,獲取極大團的具體方案如下
[0039]按照結點序號大小進行深度遍歷來搜索極大團。從編號為O的結點開始遍歷,有NL(O) = {1,2,3}。首先,選者NL(O)中序號最小的I號結點,那么得到當前的團結構為{0,1},而可以用來擴展當前團結構的候選結點集合為TR(0,I) = {2,3};然后,從TR(0,I)中進一步選擇序號最小的2號結點,有NL(2) = {3,4},并且擴展當前團結構為{0,1,2}。因為TR(1,2) = TR(0,1) H NL⑵={3},所以需要繼續從結點2和3出發來遞歸地構造集合TR(2,3)進一步擴展當前團結構{0,1,2}。然而,由于 TR(2,3) =TR(1,2) H NL(3) = {},因此得到候選極大團{0,1,2,3}并退回到結點I。由于在TR(0,1) = {2,3}中,結點2已經被遍歷過,所以選擇結點3來擴展團結構{0,1}。從結點3開始遍歷,有TR(1,3) = TR(0,
I)HNL(3) = {},因此得到候選極大團{0,1,3}并返回到結點I。由于集合TR(0,1) = {2,3}中的結點均被遍歷過,因而進一步回退到結點O并在NL(O) = {1,2,3}中選擇下一個結點2,并得到TR(0,2)=⑶。然后,從結點3出發,我們發現TR(2,3) = TR (O, 2) H NL (3)=H,因此得到候選極大團{0,2,3},并且退到結點O。最后在NL(O)中選擇結點3,發現TR(O, 3) = {},因此搜索過程結束。
[0040]從圖3中可以發現,由于{0,1,3}、{0,2,3}和{1,2,3}已經被包含在{0,1,2,3}中,所以在搜索遍歷的過程中,沒有必要再去遍歷它們所在的分支。剪枝策略就是為了減少不必要的遍歷過程,具體做法是:將已經發現的極大團{0,1,2,3}編號為0,對于該極大團中的每一個結點設定標記為0,當分別從內部結點{0,1}、{0,2}、{1,2}進行擴展時,它們的擴展結點與它們本身具有相同團標記,即這些團結構包含在已知的極大團中,可以不予處理這些分支。在圖3中,虛線部分都是可以剪掉的分支,對于從{1}到{1,2,4}的分支,由于I,2,4不共享相同的團標記,因此要進行遍歷操作。
[0041]104:基于所述極大團,獲取至少一個核心團;例如圖4所示,該步驟在極大團結構的基礎上,分析每個用戶結點的社會關系圈,基于社會關系圈包含合并策略,濾取出網絡中的核心團結構。對于任意兩個結點vi,vj,如果Vi的社會關系圈涵蓋了絕大部分Vj的社會關系圈,即ICi n Cj I/1Cj >f,那么認為Ci包含Cj,應該進行合并,如果Ci不被其它任何社會關系圈包含,則認為Ci為網絡核心。在圖4中,結點v0包含在4個極大團中;所述4 個極大團如下所示:C0 = {|v0, vl, v4, v5}, {v0, vl, v3, v4}, {v0, v2, v3, v4}, {v0, v4,v5, v6}};對于結點 vl,因為它的社會關系圈 Cl = {{vO, vl, v4, v5}, {vO, vl, v3, v4}}是結點vO的社會關系圈CO的真子集,可以很直觀地看出結點vO和vl實際上處于聯系緊密的同一社區內,因此,Cl不能獨立地成為圖4所示網絡的核心。相類似地,C2,C3,C4,C5同樣包含在 CO 中,而 C8,C9,C10,Cll 則包含在 C7 = {{v3, v7, vll}, {v7, v8, v9, vlO}, {v7,v9, vlO, vll}}中。因為,I Cl Π C7 I / I C7 = 0,所以Cl,C7是圖4所示網絡的兩個核心。
[0042]需要說明的是,在所述發現的網絡核心中存在公共結點,為了避免網絡核心的重復性,需要進行去重處理。對于所有的公共結點(即公共微博用戶)集合Common中的結點vi和網絡核心集合Center的核心Ck,根據Fream中心性來計算結點vi在Ck對應子圖的
重要性,具體計算公式為:
【權利要求】
1.一種微博用戶群體結構發現分析方法,其特征在于,包括: 獲取目標群體中微博用戶的行為數據信息; 根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡; 從所述微博用戶關聯網絡中,獲取至少一個極大團; 基于所述極大團,獲取至少一個核心團; 基于所述獲取到的極大團和/或核心團,進行微博用戶群體行為分析。
2.根據權利要求1所述的微博用戶群體結構發現分析方法,其特征在于,所述構建微博用戶關聯網絡的步驟,包括: 根據所述目標群體中微博用戶的行為數據信息,采用關聯關系評價模型,建立微博用戶之間的關聯關系; 根據所述建立的微博用戶之間關聯關系,令微博用戶為結點,關聯關系為邊,構建微博用戶關聯網絡。
3.根據權利要求2所述的微博用戶群體結構發現分析方法,其特征在于,所述獲取至少一個極大團的步驟,具體包括: 采用基于搜索三角形方法,并配合一定的剪枝策略,獲取所述微博用戶關聯網絡中所有的極大團。
4.根據權利要求3所述的微博用戶群體結構發現分析方法,其特征在于,所述獲取至少一個核心團的步驟,具體包括: 基于所述極大團,分析每個微博用戶與其他微博用戶的社會關系圈,基于所述社會關系圈包含合并策略,濾取出微博用戶關聯網絡中的核心團。
5.根據權利要求4所述的微博用戶群體結構發現分析方法,其特征在于,所述獲取至少一個核心團的步驟,還包括: 獲取所述核心團之間存在的公共微博用戶; 將所述公共微博用戶重新劃分到對應的核心團中,以使各個核心團之間不存在公共微博用戶。
6.根據權利要求5所述的微博用戶群體結構發現分析方法,其特征在于,該方法還包括: 基于所述核心團,將所述微博用戶關聯網絡中余下的用戶按照一定的距離定義歸并到相應的最近網絡核心團中; 采用層次聚類算法合并所述微博用戶關聯網絡中的核心團,以取得最終微博用戶群體結構劃分。
7.一種微博用戶群體結構發現分析系統,其特征在于,包括: 信息獲取單元,用于獲取目標群體中微博用戶的行為數據信息; 關聯網絡構建單元,用于根據所述目標群體中微博用戶的行為數據信息,構建微博用戶關聯網絡; 極大團獲取單元,用于從所述微博用戶關聯網絡中,獲取至少一個極大團; 核心團獲取單元,用于基于所述極大團,獲取至少一個核心團; 分析單元,用于基于所述獲取到的極大團和/或核心團,進行微博用戶群體行為分析。
8.根據權利要求7所述的微博用戶群體結構發現分析系統,其特征在于,所述關聯網絡構建單元,包括:根據所述目標群體中微博用戶的行為數據信息,采用關聯關系評價模型,建立微博用戶之間的關聯關系;根據所述建立的微博用戶之間關聯關系,令微博用戶為結點,關聯關系為邊,構建微博用戶關聯網絡。
9.根據權利要求8所述的微博用戶群體結構發現分析系統,其特征在于,所述極大團獲取單元,具體包括: 采用基于搜索三角形方法,并配合一定的剪枝策略,獲取所述微博用戶關聯網絡中所有的極大團。
10.根據權利要求9所述的微博用戶群體結構發現分析系統,其特征在于,所述核心團獲取單元,具體包括:基于所述極大團,分析每個微博用戶與其他微博用戶的社會關系圈,基于所述社會關系圈包含合并策略,濾取出微博用戶關聯網絡中的核心團。
11.根據權利要求10所述的微博用戶群體結構發現分析方法,其特征在于,所述核心團獲取單元,還包括:獲取所述核心團之間存在的公共微博用戶;將所述公共微博用戶重新劃分到對應的核心團中,以使各個核心團之間不存在公共微博用戶。
12.根據權利要求11所述的微博用戶群體結構發現分析系統,其特征在于,該系統還包括: 歸并單元,用于基于所述核心團,將所述微博用戶關聯網絡中余下的用戶按照一定的距離定義歸并到相應的最近網絡核心團中; 優化單元,用于采用層次聚類算法合并所述微博用戶關聯網絡中的核心團,以取得最終微博用戶群體結構劃分。
【文檔編號】G06F17/30GK103914493SQ201310008052
【公開日】2014年7月9日 申請日期:2013年1月9日 優先權日:2013年1月9日
【發明者】趙立永, 于曉明, 楊建武, 鄭妍 申請人:北大方正集團有限公司, 北京大學, 北京北大方正電子有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影