關系模型的確定方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及統計技術領域,特別涉及一種關系模型的確定方法及裝置。
【背景技術】
[0002] 隨著統計技術的不斷發展,對對象間的關系信息進行建模成為了一個熱點問題。 其中,對象間的關系信息多種多樣,例如被調查人群中人與人之間的聯系信息,因特網上 頁面與頁面之間的鏈接關系信息等等。各種各樣的關系信息描述了一類對象內的相互關 系或是多類對象間的關系,通過對關系信息進行分析,可W獲得很多有價值的信息。也正 因為如此,基于關系信息的應用種類越來越多,將不同樣本數據根據關系信息進行關系聚 類即是其中的一種。而在關系聚類的過程中,通常會用到關系模型。例如,如果某電影公司 想要獲取用戶對當前上映的一系列電影的評價,則收集一批用戶對上映的一系列電影的評 分,通過關系模型將用戶和電影分到不同的樣本類別內,實現對用戶、電影和電影評分同時 進行聚類,從而通過聚類結果進行電影評價分析。實際聚類過程中,除了關系信息外,還經 常會用到非關系信息,例如,屬性信息等。因此,如何協同關系信息及非關系信息進行聚類, 即根據關系信息及非關系信息確定關系模型成為了目前研究關系聚類的關鍵。
[0003] 在實際應用中,關系模型由隱變量和模型參數確定,或由隱變量的變分分布和模 型參數確定。隱變量是指不能被直接觀測到,而需要通過樣本數據推導得出的變量,隱變 量的變分分布用于描述樣本數據被聚類到對應類別的概率;模型參數用于描述每個樣本類 別下子模型的參數。目前,文章Regression-based latent factor models. Deepak Agarwal et al. In Proc of邸D'09,2009中給出了一種確定隱變量和模型參數的方式。該方式下, 獲取根據樣本數據、兩組樣本屬性、兩組隱變量及模型參數確定的對數似然;其次,根據對 數似然確定目標函數,并通過采樣的方式確定使目標函數收斂的各個隱變量及模型參數, 而該使目標函數收斂的各個隱變量及模型參數即可作為用于確定關系模型的隱變量及模 型參數。
[0004] 在實現本發明的過程中,發明人發現現有技術至少存在W下問題:
[0005] 由于目標函數僅根據對數似然確定,因而通過該種目標函數所確定的關系模型無 法自動進行模型選擇,復雜度較高。此外,通過采樣的方式確定使目標函數收斂的各個隱 變量及模型參數時,效率較低,且確定的關系模型的精度不高。
【發明內容】
[0006] 為了解決現有技術的問題,本發明實施例提供了一種關系模型的確定方法及裝 置。所述技術方案如下:
[0007] 第一方面,提供了一種關系模型的確定方法,所述方法包括:
[0008] 獲取根據樣本數據、至少兩組樣本屬性、至少兩組隱變量及模型參數確定的對數 似然、正則項及各個隱變量的變分分布的對數;
[0009] 根據所述對數似然、正則項及各個隱變量的變分分布的對數確定目標函數;
[0010] 確定使所述目標函數收斂的各個隱變量的變分分布及模型參數,根據使所述目標 函數收斂的各個隱變量的變分分布及模型參數確定關系模型。
[0011] 結合第一方面,在第一方面的第一種可能的實現方式中,根據所述樣本數據、至少 兩組樣本屬性、至少兩組隱變量及模型參數確定的對數似然為:
[0012]
[0013] 其中,所述1〇甜0表示對數似然,所述P表示聯合概率密度函數,所述x'vA為樣本 數據,所述Nf為行樣本個數,所述N。為列樣本個數,所述AE為行樣本屬性,所述為列樣本 屬性,所述ZE為行隱變量,所述為列隱變量,所述0為模型參數的集合,所述模型參數包 括a、目、n、S,所述a、目分別為行、列混合比率,所述弊表示每個樣本類別內的子模 型參數,所述n表示每個樣本類別內的行樣本屬性的模型參數,所述S表示每個樣本類別 內的列樣本屬性的模型參數。
[0014] 結合第一方面,在第一方面的第二種可能的實現方式中,根據所述樣本數據、至少 兩組樣本屬性、至少兩組隱變量及模型參數確定的正則項為:
[0015]
[0016] 其中,所述Nf為行樣本個數,所述N。為列樣本個數;所述Kf是行樣本類別的個 數,所述K。是列樣本類別的個數;所還S 0為隱變量的變分分布的近似值,所述為描述 第i個行樣本數據對第P個行樣本類別的隸屬關系的行隱變量,所述為描述第j個列 樣本數據對第q個列樣本類別的隸屬關系的列隱變量;所述a,目分別為行、列混合比率, 所述D。為所述a的維度,所述Dg為所述目的維度;所述Dp。為第P行、第q列的樣本類 別內的子模型參數的維度;所述n。為第P個行樣本類別內的行樣本屬性的模型參數,所 述為所述n。的維度;所述S。為第q個列樣本類別內的列樣本屬性的模型參數,所述 為所述S q的維度;L(a, b)=logb+(a-b)/b,所過
申
[0017] 結合第一方面,在第一方面的第H種可能的實現方式中,根據所述樣本數據、至少 兩組樣本屬性、至少兩組隱變量及模型參數確定的隱變量的變分分布的對數為:
[001引 logq 狂E)和 logq 狂G);
[0019] 其中,所述q狂E)為行隱變量ZE的變分分布,所述q狂K)為列隱變量的變分分 布。
[0020] 結合第一方面至第一方面的第H種可能的實現方式中的任一種可能的實現方式, 在第一方面的第四種可能的實現方式中,所述根據所述對數似然、正則項及各個隱變量的 變分分布的對數確定目標函數,包括:
[0021] 根據所述對數似然的期望值、所述正則項的期望值及所述各個隱變量的變分分布 的對數的期望值確定目標函數。
[0022] 結合第一方面的第四種可能的實現方式,在第一方面的第五種可能的實現方式 中,根據所述對數似然的期望值、所述正則項的期望值及所述各個隱變量的變分分布的對 數的期望值確定的目標函數「b,弓乂 為:
[0023]
[0024] 結合第一方面的第五種可能的實現方式,在第一方面的第六種可能的實現方式 中,所述確定使所述目標函數收斂的各個隱變量的變分分布及模型參數,包括:
[0025] 獲取更新的各個隱變量的變分分布及更新的模型參數;
[0026] 根據更新的各個隱變量的變分分布及更新的模型參數確定所述目標函數是否收 斂,如果所述目標函數未收斂,則重新獲取更新的各個隱變量的變分分布及更新的模型參 數,直至得到使所述目標函數收斂的各個隱變量的變分分布及模型參數。
[0027] 結合第一方面的第六種可能的實現方式,在第一方面的第走種可能的實現方式 中,所述獲取更新的各個隱變量的變分分布及更新的模型參數,包括:
[0028] 按照如下公式交替更新各個隱變量的變分分布,直至得到收斂的更新的各個隱變 量的變分分布:
[0029]
[0031] 根據收斂的更新的各個隱變量的變分分布按照如下公式更新模型參數,得到更新 的模型參數:
[0032]
所述t代表當前更新,所述t-1代表上一次更新或初始化。
[0035] 結合第一方面的第六種可能的實現方式,在第一方面的第八種可能的實現方式 中,所述獲取更新的各個隱變量的變分分布及更新的模型參數,包括:
[0036] 按照如下公式更新模型參數,得到更新的模型參數:
[0040] 根據更新的模型參數按照如下公式交替更新各個隱變量的變分分布,得到收斂的 更新的各個隱變量的變分分布:
[0041]
[0042]
[0043] 其中,所述t代表當前更新,所述t-1代表上一次更新或初始化。
[0044] 結合第一方面的第六種至第八種可能的實現方式中任一種可能的實現方式,在第 一方面的第九種可能的實現方式中,所述根據更新的各個隱變量的變分分布及更新的模型 參數確定所述目標函數是否收斂,包括:
[0045] 比較根據更新的各個隱變量的變分分布及更新的模型參數確定的目標函數與上 一次得到的目標函數之間的距離是否小于闊值,所述上一次得到的目標函數根據上一次更 新的各個隱變量的變分分布及更新的模型參數確定;
[0046] 如果根據更新的各個隱變量的變分分布及更新的模型參數確定的目標函數與上 一次得到的目標函數之間的距離小于闊值,則確定所述目標函數收斂。
[0047] 第二方面,提供了一種關系模型的確定裝置,所述裝置包括:
[0048] 獲取模塊,用于獲取根據樣本數據、至少兩組樣本屬性、至少兩組隱變量及模型參 數確定的對數似然、正則項及各個隱變量的變分分布的對數;
[0049] 第一確定模塊,用于根據所述對數似然、正則項及各個隱變量的變分分布的對數 確定目標函數;
[0050] 第二確定模塊,用于確定使所述目標函數收斂的各個隱變量的變分分布及模型參 數;
[0051] 第H確定模塊,用于根據使所述目標函數收斂的各個隱變量的變分分布及模型參 數確定關系模型。
[0052] 結合第二方面,在第二方面的第一種可能的實現方式中,所述獲取模塊獲取到的 對數似然為:
[0053]
[0054] 其中,所述logpQ表示對數似然,所述P表示聯合概率密度函數,所述A-Si'S為樣本 數據,所述Nf為行樣本個數,所述N。為列樣本個數,所述AE為行樣本屬性,所述為列樣本 屬性,所述ZE為行隱變量,所述為列隱變量,所述0為模型參數的集合,所述模型參數包 括a、目、f、n、S,所述a、目分別為行、列混合比率,所述弊表示每個樣本類別內的子模 型參數,所述n表示每個樣本類別內的行樣本屬性的模型參數,所述S表示每個樣本類別 內的列樣本屬性的模型參數。
[0055] 結合第二方面,在第二方面的第二種可能的實現方式中,所述獲取模塊獲取到的 正則項為:
[0056]
[0057] 其中,所述Nf為行樣本個數,所述N。為列樣本個數;所述Kf是行樣本類別的個 數,所述1(。是列樣本類別的個數;所還^ 0為隱變量的變分分布的近似值,所述2,^為描述 第i個行樣本數據對第P個行樣本類別的隸屬關系的行隱變量,所述Z;為描述第j個列 樣本數據對第q個列樣本類別的隸屬關系的列隱變量;所述a,目分別為行、列混合比率, 所述D。為所述a的維度,所述Dg為所述目的維度;所述Dp。為第P行、第q列的樣本類 別內的子模型參數的維度;所述n。為第P個行樣本類別內的行樣本屬性的模型參數,所 述^<1,為所述n。的維度;所述S。為第q個列樣本類別內的列樣本屬性的模型參數,所述 湯f,為所述S q的維度;L(a, b)=logb+(a-b)/b,所述
片
[0058] 結合第二方面,在第二方面的第H種可能的實現方式中,所述獲取模塊獲取到的 各個隱變量的變分分布的對數為:
[0059] logq 狂E)和 logq 狂G);
[0060] 其中,所述q狂E)為行隱變量ZE的變分分布,所述q仿)為列隱變量的變分分 布。
[0061] 結合第二方面至第二方面的第H種可能的實現方式中任一種可