關系模型的確定方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及統計技術領域,特別涉及一種關系模型的確定方法及裝置。
【背景技術】
[0002] 隨著統計技術的不斷發展,對對象間的關系信息進行建模成為了一個熱點問題。 其中,對象間的關系信息多種多樣,例如被調查人群中人與人之間的聯系信息,因特網上 頁面與頁面之間的鏈接關系信息等等。各種各樣的關系信息描述了一類對象內的相互關 系或是多類對象間的關系,通過對關系信息進行分析,可W獲得很多有價值的信息。也正 因為如此,基于關系信息的應用種類越來越多,將不同樣本數據根據關系信息進行關系聚 類即是其中的一種。而在關系聚類的過程中,通常會用到關系模型。例如,如果某電影公司 想要獲取用戶對當前上映的一系列電影的評價,則收集一批用戶對上映的一系列電影的評 分,通過關系模型將用戶和電影分到不同的樣本類別內,實現對用戶、電影和電影評分同時 進行聚類,從而通過聚類結果進行電影評價分析。因此,如何確定關系模型成為了目前研究 關系聚類的關鍵。
[0003] 在實際應用中,關系模型由隱變量的變分分布和模型參數確定。隱變量是指不能 被直接觀測到,而需要通過樣本數據推導得出的變量,隱變量的變分分布用于描述樣本 數據被聚類到對應類別的概率;模型參數用于描述每個類別下子模型的參數。目前,文章 Nonparametric latent feature models for link prediction. Miller et al. In Proc of NIPS'09, 2009中給出了確定隱變量的變分分布和模型參數的方式。該方式下,獲取根 據一組樣本數據中行和列兩種樣本數據、兩組隱變量及模型參數確定的對數似然及各個隱 變量的變分分布的對數;其次,根據對數似然及各個隱變量的變分分布的對數確定目標函 數,并確定使目標函數收斂的各個隱變量的變分分布及模型參數,而該使目標函數收斂的 各個隱變量的變分分布及模型參數即可作為用于確定關系模型的隱變量的變分分布及模 型參數。
[0004] 在實現本發明的過程中,發明人發現現有技術至少存在W下問題:
[0005] 由于上述確定關系模型的方式針對的是一組樣本數據中行和列兩種樣本數據,而 實際應用中,經常會存在多組樣本數據中多種樣本數據之間存在關系,因而根據上述方式 得到的隱變量的變分分布及模型參數所確定的關系模型的應用范圍具有一定的局限性;此 夕F,由于目標函數根據對數似然及隱變量的變分分布的對數確定,因而通過該種目標函數 所確定的關系模型的復雜度較高。
【發明內容】
[0006] 為了解決現有技術的問題,本發明實施例提供了一種關系模型的確定方法及裝 置。所述技術方案如下:
[0007] 第一方面,提供了一種關系模型的確定方法,所述方法包括:
[0008] 獲取根據至少兩組樣本數據、至少H組隱變量及模型參數確定的對數似然、正則 項及各個隱變量的變分分布的對數;
[0009] 根據所述對數似然、正則項及各個隱變量的變分分布的對數確定目標函數;
[0010] 確定使所述目標函數收斂的各個隱變量的變分分布及模型參數,根據使所述目標 函數收斂的各個隱變量的變分分布及模型參數確定關系模型。
[0011] 結合第一方面,在第一方面的第一種可能的實現方式中,根據所述至少兩組樣本 數據、至少H組隱變量及模型參數確定的對數似然為:
[0012]
[0013] 其中,所述1〇甜0表示對數似然,所述P表示聯合概率密度函數,所述為關 系X中的樣本數據,所述rSiA為關系Y中的樣本數據,所述也為關系X中的行樣本個數, 所述Nf2為關系Y中的行樣本個數,所述N。為關系X或關系Y中的列樣本個數,所述ZM為關 系X中的行隱變量,所述Z^2為關系Y中的行隱變量,所述為關系X或關系Y中的列隱變 量,所述0為關系X及關系Y中的模型參數的集合,所述模型參數包括a、目、y、養、《, 所述a為關系X中的行混合比率,所述目為關系X或關系Y中的列混合比率,所述Y為 關系Y中的行混合比率,所述隸示關系X中每個樣本類別內的子模型參數,所述《表示 關系Y中每個樣本類別內的子模型參數。
[0014] 結合第一方面,在第一方面的第二種可能的實現方式中,根據所述至少兩組樣本 數據、至少H組隱變量及模型參數確定的正則項為:
[0015]
[001引其中,所述也為關系X中的行樣本個數,所述也為關系Y中的行樣本個數,所述N。為關系X或關系Y中的列樣本個數;所述Kfi是關系X中的行樣本類別的個數,所述Kf2 是關系Y中的行樣本類別的個數,所述K。是關系X或關系Y中的列樣本類別的個數;所述 每為隱變量的變分分布的近似值,所述為關系X中描述第i個行樣本數據對第P個行 樣本類別的隸屬關系的行隱變量,所述Zf為關系Y中描述第1個行樣本數據對第r個行 樣本類別的隸屬關系的行隱變量,所述Z;為關系X或關系Y中描述第j個列樣本數據對第 q個列樣本類別的隸屬關系的列隱變量;所述a為關系X中的行混合比率,所述目為關系X或關系Y中的列混合比率,所述y為關系Y中的行混合比率,所述D。為所述a的維度, 所述Dg為所述目的維度,所述Dy為所述y的維度,所述Dp。為關系X中第P行、第q列的 樣本類別內的子模型參數的維度,所述町。為關系Y中第r行、第q列的樣本類別內的子模 型參數的維度;1(3,6)=10肖6+(3斗)/13,所過
申的a為
[0017] 結合第一方面,在第一方面的第H種可能的實現方式中,根據所述至少兩組樣本 數據、至少H組隱變量及模型參數確定的隱變量的變分分布的對數為:
[001引 logq狂M),logq狂E2),logq狂C);
[0019] 其中,所述q狂E1)為關系X中行隱變量r的變分分布,所述q狂E2)為關系Y中行 隱變量ZE2的變分分布,所述q狂K)為關系X或關系Y中列隱變量的變分分布。
[0020] 結合第一方面至第一方面的第H種可能的實現方式中的任一種可能的實現方式, 在第一方面的第四種可能的實現方式中,所述根據所述對數似然、正則項及各個隱變量的 變分分布的對數確定目標函數,包括:
[0021] 根據所述對數似然的期望值、所述正則項的期望值及所述各個隱變量的變分分布 的對數的期望值確定目標函數。
[0022] 結合第一方面的第四種可能的實現方式,在第一方面的第五種可能的實現方式 中,根據所述對數似然的期望值、所述正則項的期望值及所述各個隱變量的變分分布的對 數的期望值確定的目標函數取樂代為:
[0023]
[0024] 結合第一方面的第五種可能的實現方式,在第一方面的第六種可能的實現方式 中,所述確定使所述目標函數收斂的各個隱變量的變分分布及模型參數,包括:
[0025] 獲取更新的各個隱變量的變分分布及更新的模型參數;
[0026] 根據更新的各個隱變量的變分分布及更新的模型參數確定所述目標函數是否收 斂,如果所述目標函數未收斂,則重新獲取更新的各個隱變量的變分分布及更新的模型參 數,直至得到使所述目標函數收斂的各個隱變量的變分分布及模型參數。
[0027] 結合第一方面的第六種可能的實現方式,在第一方面的第走種可能的實現方式 中,所述獲取更新的各個隱變量的變分分布及更新的模型參數,包括:
[0028] 按照如下公式交替更新各個隱變量的變分分布,直至得到收斂的更新的各個隱變 量的變分分布:
[00291
[0032] 根據收斂的更新的各個隱變量的變分分布按照如下公式更新模型參數,得到更新 的模型參數:
代表當前更新,所述t-1代表上一次更新或初始化。
[0036] 結合第一方面的第六種可能的實現方式,在第一方面的第八種可能的實現方式 中,所述獲取更新的各個隱變量的變分分布及更新的模型參數,包括:
[0037] 按照如下公式更新模型參數,得到更新的模型參數:
[0041] 根據更新的模型參數按照如下公式交替更新各個隱變量的變分分布,得到收斂的 更新的各個隱變量的變分分布:
[0042]
[0045] 其中,所述t代表當前更新,所述t-1代表上一次更新或初始化。
[0046] 結合第一方面的第六種至第八種可能的實現方式中任一種可能的實現方式,在第 一方面的第九種可能的實現方式中,所述根據更新的各個隱變量的變分分布及更新的模型 參數確定所述目標函數是否收斂,包括:
[0047] 比較根據更新的各個隱變量的變分分布及更新的模型參數確定的目標函數與上 一次得到的目標函數之間的距離是否小于闊值,所述上一次得到的目標函數根據上一次更 新的各個隱變量的變分分布及更新的模型參數確定;
[0048] 如果根據更新的各個隱變量的變分分布及更新的模型參數確定的目標函數與上 一次得到的目標函數之間的距離小于闊值,則確定所述目標函數收斂。
[0049] 第二方面,提供了一種關系模型的確定裝置,所述裝置包括:
[0050] 獲取模塊,用于獲取根據至少兩組樣本數據、至少H組隱變量及模型參數確定的 對數似然、正則項及各個隱變量的變分分布的對數;
[0051] 第一確定模塊,用于根據所述對數似然、正則項及各個隱變量的變分分布的對數 確定目標函數;
[0052] 第二確定模塊,用于確定使所述目標函數收斂的各個隱變量的變分分布及模型參 數;
[0053] 第H確定模塊,用于根據使所述目標函數收斂的各個隱變量的變分分布及模型參 數確定關系模型。
[0054] 結合第二方面,在第二方面的第一種可能的實現方式中,所述獲取模塊獲取到的 對數似然為:
[00 巧]
[0056] 其中,所述1〇甜0表示對數似然,所述P表示聯合概率密度函數,所述義為關 系X中的樣本數據,所述r'KA為關系Y中的樣本數據,所述Nfi為關系X中的行樣本個數, 所述Nf2為關系Y中的行樣本個數,所述N。為關系X或關系Y中的列樣本個數,所述ZM為關 系X中的行隱變量,所述Z^2為關系Y中的行隱變量,所述為關系X或關系Y中的列隱變 量,所述0為關系X及關系Y中的模型參數的集合,所述模型參數包括a、目、y、#、《, 所述a為關系X中的行混合比率,所述目為關系X或關系Y中的列混合比率,所述y為 關系Y中的行混合比率,所述f表示關系X中每個樣本類別內的子模型參數,所述《表示 關系Y中每個樣本類別內的子模型參數。
[0057] 結合第二方面,在第二方面