<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種樣本檢測模型的構建方法和系統的制作方法

文檔序號:10471522閱讀:964來源:國知局
一種樣本檢測模型的構建方法和系統的制作方法
【專利摘要】本發明公開了檢測一種樣本檢測模型的構建方法和系統,從預設的訓練樣本集中確定多個類別的訓練樣本;基于余弦去中心相似性原理,并根據多個類別的訓練樣本的同類相似樣本集和異類相似樣本集,建立低維特征空間的投影矩陣;依據投影矩陣以及多個類別的訓練樣本構建樣本檢測模型;樣本檢測模型用于檢測待測樣本的類別參數。本發明基于余弦去中心相似性原理來度量待測樣本與訓練樣本之間的相似度,與采用歐氏距離的現有技術相比,本申請方案的相似度的度量精度更高,從而可以提高對待測樣本的檢測精度。
【專利說明】
-種樣本檢測模型的構建方法和系統
技術領域
[0001] 本申請設及檢測技術領域,更具體地設及一種樣本檢測模型的構建方法和系統。
【背景技術】
[0002] 白血病是一類造血干細胞惡性克隆性疾病。克隆性白血病細胞因為增殖失控、分 化障礙、調亡受阻等機制在骨髓和其他造血組織中大量增殖累積,并浸潤其他組織和器官, 同時正常造血受抑制。由于白血病分型和預后分層復雜,沒有千篇一律的治療方法,需要結 合細致的分型和預后分層制定治療方案。因此對白血病的待測樣本的類別進行檢測是一項 重要的工作。
[0003] 隨著科技的不斷發展W及人工智能在醫院領域的應用,越來越多的機器學習方法 可被用來進行智能檢測。白血病的待測樣本的類別檢測也可借助計算機的幫助,采用機器 學習的方法實現對白血病的待測樣本的類別檢測。為了更好地檢測出白血病的待測樣本的 類別,可W采用DNA微陣列技術來獲取基因表達數據,利用基因忍片進行的表達水平檢測可 W自動、快速、高效地檢測成千上萬個基因的表達情況。通過檢測基因的表達水平,可W進 行腫瘤檢測、類別預測等等。
[0004] 對白血病的待測樣本進行類別檢測時使用的待測樣本通常為人體的基因表達數 據,該數據為典型的高維數據,即包括多個特征。為了減少計算復雜度、存儲復雜度,對基因 表達數據的維數約簡是必不可少的步驟。當前主要采用基于雙圖模式的判別近鄰嵌入方 法,該方法可有效地對數據進行降維。該方法在確定投影矩陣時采用歐氏距離確定訓練樣 本的同類相似樣本集和異類相似樣本集,其檢測精度低。

【發明內容】

[0005] 有鑒于此,本發明提供了一種樣本檢測模型的構建方法和系統,W提高對待測樣 本的檢測精度。
[0006] 為實現上述目的,本發明提供如下技術方案:
[0007] -種樣本檢測模型的構建方法,包括:
[0008] 從預設的訓練樣本集中確定多個類別的訓練樣本;
[0009] 基于余弦去中屯、相似性原理,并根據多個類別的所述訓練樣本的同類相似樣本集 和異類相似樣本集,建立低維特征空間的投影矩陣;
[0010] 依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本檢測模型;所述樣本檢 測模型用于檢測待測樣本的類別參數。
[0011] 優選地,所述從預設的訓練樣本集中確定多個類別的訓練樣本,包括:
[0012] 獲取預設的所述訓練樣本集,從所述訓練樣本集中抽取多個特征值;
[0013] 將抽取的多個所述特征值進行歸一化處理,形成多個類別的所述訓練樣本。
[0014] 優選地,所述基于余弦去中屯、相似性原理,并根據多個類別的所述訓練樣本的同 類相似樣本集和異類相似樣本集,建立低維特征空間的投影矩陣,包括:
[001引根據同類相似樣本集和異類相似樣本集,構建類內相似矩陣和類間相似矩陣:
[001引其中,3(厶方^)為基于余弦去中屯、相似性原理構建的余弦去中屯、相似性函數,且
是多個類別的所述訓練樣本的中屯、,巧/表示類內 相似矩陣,if表示類間相似矩陣,χ/1表示訓練樣本i,χ/ J表示訓練樣本j,(/)表示訓練 樣本j的同類相似樣本集,Λ^(;0表示訓練樣本i的同類相似樣本集,A^(y')表示訓練樣本j 的異類相似樣本集,W表示訓練樣本i的異類相似樣本集;
[0019] 根據所述類內相似矩陣和所述類間相似矩陣,構建類間局部散度矩陣和類內局部 散度矩陣:
[0020] Sw=X(DW-FW)xT;
[0021] Sb = X(Db-Fb 巧 T;
[0022] 其中,Sw表示類內局部散度矩陣,Sb表示類間局部散度矩陣,X表示樣本的基因表達 數據,F"表示類內相似矩陣,Fb表示類間相似矩陣,D"和〇b表示對角矩陣,
[0023] 對所述類間局部散度矩陣和所述類內局部散度矩陣進行特征分解,按照從大到小 的順序獲取若干個特征值,根據所述若干個特征值對應的特征向量建立所述低維特征空間 的所述投影矩陣,并根據
呆證類間距離與類內距離的比值最大化;
[0024] 其中,trace(.)是指求矩陣的跡。
[0025] 優選地,所述依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本檢測模 型,包括:
[0026] 利用所述投影矩陣將多個類別的所述訓練樣本投影到所述低維特征空間,形成多 個投影訓練樣本;
[0027] 在所述低維特征空間內,利用最近鄰分類器和多個所述投影訓練樣本構建樣本檢 測模型。
[002引優選地,還包括:
[0029] 將抽取的多個所述特征值的位置記錄為特征位置集;
[0030] 根據所述特征位置集對原始樣本進行所述歸一化處理,形成所述待測樣本;
[0031] 利用所述投影矩陣將所述待測樣本投影到所述低維特征空間,形成投影待測樣 本;
[0032] 根據所述樣本檢測模型,在所述低維特征空間內,利用所述最近鄰分類器從多個 所述投影訓練樣本中確定與所述投影待測樣本距離最近的所述投影訓練樣本,并將確定的 所述投影訓練樣本對應的所述訓練樣本的類別賦予所述待測樣本,完成對所述待測樣本的 類別參數的檢測。
[0033] -種樣本檢測模型的構建系統,包括:
[0034] 獲取模塊,用于從預設的訓練樣本集中確定多個類別的訓練樣本;
[0035] 矩陣建立模塊,用于基于余弦去中屯、相似性原理,并根據多個類別的所述訓練樣 本的同類相似樣本集和異類相似樣本集,建立低維特征空間的投影矩陣;
[0036] 模型構建模塊,用于依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本檢 測模型;所述樣本檢測模型用于檢測待測樣本的類別參數。
[0037] 優選地,所述獲取模塊,包括:
[0038] 獲取單元,用于獲取預設的所述訓練樣本集,從所述訓練樣本集中抽取多個特征 值;
[0039] 處理單元,用于將抽取的多個所述特征值進行歸一化處理,形成多個類別的所述 訓練樣本。
[0040] 優選地,所述矩陣建立模塊,包括:
[0041 ]第一構建單元,用于根據同類相似樣本集和異類相似樣本集,構建類內相似矩陣 和類間相似矩陣:
[0044] 其中,3(χ/ι,χ/^)為基于余弦去中屯、相似性原理構建的余弦去中屯、相似性函數,且
是多個類別的所述訓練樣本的中屯、,表示類內 相似矩陣,表示類間相似矩陣,χ/ 1表示訓練樣本i,χ/ 1表示訓練樣本j,AC GO表示訓練 樣本j的同類相似樣本集,表示訓練樣本i的同類相似樣本集,表示訓練樣本j 的異類相似樣本集,?Ο表示訓練樣本i的異類相似樣本集;
[0045] 第二構建單元,用于根據所述類內相似矩陣和所述類間相似矩陣,構建類間局部 散度矩陣和類內局部散度矩陣:
[0046] Sw=X(DW-FW)xT;
[0047] Sb = X(Db-Fb 巧 T;
[004引其中,Sw表示類內局部散度矩陣,Sb表示類間局部散度矩陣,X表示樣本的基因表達 數據,FW表示類內相似矩陣,Fb表示類間相似矩陣,DW和0b表示對角矩陣,
[0049]特征分解單元,用于對所述類間局部散度矩陣和所述類內局部散度矩陣進行特征 分解,按照從大到小的順序獲取若干個特征值,根據所述若干個特征值對應的特征向量建 立所述低維特征空間的所述投影矩陣,并根據
巧證類間距離與類內距 離的比值最大化;
[(K)加]其中,trace( ·)是指求矩陣的跡。
[0051 ]優選地,所述模型構建模塊,包括:
[0052] 投影單元,用于利用所述投影矩陣將多個類別的所述訓練樣本投影到所述低維特 征空間,形成多個投影訓練樣本;
[0053] 第Ξ構建單元,用于在所述低維特征空間內,利用最近鄰分類器和多個所述投影 訓練樣本構建樣本檢測模型。
[0054] 優選地,還包括:
[005引檢測板塊;
[0056] 所述檢測模塊用于將抽取的多個所述特征值的位置記錄為特征位置集;根據所述 特征位置集對原始樣本進行所述歸一化處理,形成所述待測樣本;利用所述投影矩陣將所 述待測樣本投影到所述低維特征空間,形成投影待測樣本;根據所述樣本檢測模型,在所述 低維特征空間內,利用所述最近鄰分類器從多個所述投影訓練樣本中確定與所述投影待測 樣本距離最近的所述投影訓練樣本,并將確定的所述投影訓練樣本對應的所述訓練樣本的 類別賦予所述待測樣本,完成對所述待測樣本的類別參數的檢測。
[0057] 經由上述的技術方案可知,與現有技術相比,本發明公開了一種樣本檢測模型的 構建方法和系統,從預設的訓練樣本集中確定多個類別的訓練樣本;基于余弦去中屯、相似 性原理,并根據多個類別的所述訓練樣本的同類相似樣本集和異類相似樣本集,建立低維 特征空間的投影矩陣;依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本檢測模 型;所述樣本檢測模型用于檢測待測樣本的類別參數。與現有技術相比,本發明基于余弦去 中屯、相似性原理來度量待測樣本與訓練樣本之間的相似度,根據多個類別的所述訓練樣本 的同類相似樣本集和異類相似樣本集,建立低維特征空間的投影矩陣;依據所述投影矩陣 W及多個類別的所述訓練樣本構建樣本檢測模型;所述樣本檢測模型用于檢測待測樣本的 類別參數,與采用歐氏距離的方式相比,本申請方案的相似度的度量精度更高,從而可W提 高對待測樣本的檢測精度。
【附圖說明】
[005引為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 申請的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可W根據 提供的附圖獲得其他的附圖。
[0059]圖1示出了本發明一個實施例公開的一種樣本檢測模型的構建方法的流程示意 圖;
[0060] 圖2示出了本發明另一個實施例公開的一種樣本檢測模型的構建系統的結構示意 圖;
[0061] 圖3提供了本申請方案和現有技術的雙圖判別近鄰嵌入算法隨著維數變化的檢測 率曲線對比圖。
【具體實施方式】
[0062] 下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于 本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本申請保護的范圍。
[0063] 參見圖1示出了本發明一個實施例公開的一種樣本檢測模型的構建方法的流程示 意圖。
[0064] 由圖1可知,該方法包括:
[0065] S101:從預設的訓練樣本集中確定多個類別的訓練樣本。
[0066] 在本申請實施例中,在所述從預設的訓練樣本集中確定多個類別的訓練樣本之 前,還可W包括:獲取白血病的原始樣本和訓練樣本集;從所述訓練樣本集中抽取多個特征 值,并將抽取的特征值的位置記錄為特征位置集;將抽取的特征值進行歸一化處理,形成多 個類別的所述訓練樣本;根據所述特征位置集對所述原始樣本進行所述歸一化處理,形成 所述待測樣本。
[0067] 設已有基因表達的訓練樣本集為吉,其中XiERD是第i個人的基因表達數據, yi=U,2,···,c}表示XI的類別標簽,即該數據對應的是哪種白血病,C表示數據集中白血病 類型數,N表示訓練樣本的個數,D表示訓練樣本的維數。
[0068] 需要說明的是,由于對于樣本個數而言,訓練樣本的維數是一個非常大的數。因而 在本發明的其他實施例中為了降低計算復雜度,需要對訓練樣本和原始樣本進行隨機特征 抽取處理W及特征值歸一化處理。
[0069] 比如,在訓練樣本集中抽取d個特征,記錄抽取特征的位置為特征位置集 / ,D}且|1| =d。然后把抽取出來的特征值進行歸一化,使得特征值的范圍在
[0,1]區間。則記隨機特征選擇且歸一化后的多個類別的訓練樣本為{<,乂并且X'lE Rd。
[0070] 進而,可W根據保留的特征位置集I和訓練樣本的歸一化處理方式,根據原始樣本 構造一個待測樣本χ/ ERd。
[0071] S102:基于余弦去中屯、相似性原理,并根據多個類別的所述訓練樣本的同類相似 樣本集和異類相似樣本集,建立低維特征空間的投影矩陣。
[0072] 在本申請實施例中,可W利用該投影矩陣實現對訓練樣本和待測樣本的降維處 理,W方便對待測樣本的類別參數的檢測。
[0073] 在本申請實施例中,根據同類相似樣本集和異類相似樣本集,構建類內相似矩陣 和類間相似矩陣:
-J
[0076] 其中,3(χ/ι,χ/^)為基于余弦去中屯、相似性原理構建的余弦去中屯、相似性函數,且
曼多個類別的所述訓練樣本的中屯、,表示類內 相似矩陣,if表示類間相似矩陣,χ/1表示訓練樣本i,χ/ J表示訓練樣本j,iVXC,/)表示訓練 樣本j的同類相似樣本集,CO表示訓練樣本i的同類相似樣本集,iVi (_/)表示訓練樣本j 的異類相似樣本集,iV; 表示訓練樣本i的異類相似樣本集;
[0077] 根據所述類內相似矩陣和所述類間相似矩陣,構建類間局部散度矩陣和類內局部 散度矩陣;
[007引 Sw=X(0w-FW)xT;
[0079] Sb = X(Db-Fb 巧 T;
[0080] 其中,Sw表示類內局部散度矩陣,Sb表示類間局部散度矩陣,X表示樣本的基因表達 數據,F"表示類內相似矩陣,Fb表示類間相似矩陣,D"和〇b表示對角矩陣,
[0081] 對所述類間局部散度矩陣和所述類內局部散度矩陣進行特征分解,按照從大到小 的順序獲取若干個特征值,根據所述若干個特征值對應的特征向量建立所述低維特征空間 的所述投影矩陣,并根據
保證類間距離與類內距離的比值最大化;
[0082] 其中,trace( ·)是指求矩陣的跡。
[0083] 為了獲得投影矩陣P,我們對Sb和Sw進行廣義特征分解。把獲得的特征值按照從大 到小的順序進行排序,取前其r個特征值對應的特征向量組成矩陣P = [P1,P2,· · ·,Pr],其中 Pi是特征分解后的特征向量。其中,r<<d<<D。
[0084] S103:依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本檢測模型。
[0085] 所述樣本檢測模型用于檢測待測樣本的類別參數。
[0086] 在檢測待測樣本的類別參數時,本申請實施例利用所述投影矩陣將所述待測樣本 和多個類別的所述訓練樣本投影到所述低維特征空間,形成投影待測樣本W及多個投影訓 練樣本;根據所述樣本檢測模型,在所述低維特征空間內,利用所述最近鄰分類器從多個所 述投影訓練樣本中確定與所述投影待測樣本距離最近的所述投影訓練樣本,并將確定的所 述投影訓練樣本對應的所述訓練樣本的類別賦予所述待測樣本,完成對所述待測樣本的類 別參數的檢測。
[0087] 在得到了投影矩陣P后,通過投影把原樣本空間的訓練樣本投影到低維特征空間, Zl = PVl,其中Zl是x'l在低維空間的投影訓練樣本,ZleRr。令{z;,,y,.措為多個類別的訓 練樣本的投影訓練樣本集。
[0088] 同理,將待測樣本通過投影矩陣投影到低維特征空間中,得到投影待測樣本z = ρΤχ' er。
[0089] 利用最近鄰分類器,對投影待測樣本在低維特征空間進行判別。也就是說,在投影 訓練樣本集[^中,找到和投影待測樣本距離最近的投影訓練樣本,然后再把該投 影訓練樣本對應的訓練樣本的類別賦予待測樣本。運樣就完成對待測樣本的類別參數的檢 測。
[0090] 由W上實施例可知:該方法基于余弦去中屯、相似性原理來度量待測樣本與訓練樣 本之間的相似度,根據多個類別的所述訓練樣本的基因表達數據確定任意一個訓練樣本的 同類相似樣本集和異類相似樣本集,進而,根據同類相似樣本集和異類相似樣本集建立低 維特征空間的投影矩陣;依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本檢測模 型;所述樣本檢測模型用于檢測待測樣本的類別參數。與現有技術相比,本發明采用余弦去 中屯、相似性原理來度量樣本之間的相似度,與采用歐氏距離的方式相比,本申請方案的相 似度的度量精度更高,從而可W提高對待測樣本的檢測精度。
[0091] 參見圖2示出了本發明另一個實施例公開的一種樣本檢測模型的構建系統的結構 不意圖。
[0092] 由圖2可知,該系統包括:
[0093] 獲取模塊1,用于從預設的訓練樣本集中確定多個類別的訓練樣本;
[0094] 矩陣建立模塊2,用于基于余弦去中屯、相似性原理,并根據多個類別的所述訓練樣 本的同類相似樣本集和異類相似樣本集,建立低維特征空間的投影矩陣;
[0095] 模型構建模塊3,用于依據所述投影矩陣W及多個類別的所述訓練樣本構建樣本 檢測模型;所述樣本檢測模型用于檢測待測樣本的類別參數。
[0096] 所述獲取模塊1,包括:
[0097] 獲取單元,用于獲取預設的所述訓練樣本集,從所述訓練樣本集中抽取多個特征 值;
[0098] 處理單元,用于將抽取的多個所述特征值進行歸一化處理,形成多個類別的所述 訓練樣本。
[0099] 所述矩陣建立模塊2,包括:
[0100] 第一構建單元,用于根據同類相似樣本集和異類相似樣本集,構建類內相似矩陣 和類間相似矩陣:
[0103]其中,為基于余弦去中屯、相似性原理構建的余弦去中屯、相似性函數,且
是多個類別的所述訓練樣本的中屯、,^w表示類內 相似矩陣,^6表示類間相似矩陣,χ/1表示訓練樣本i,χ/ J表示訓練樣本j,CO表示訓練 樣本j的同類相似樣本集,W 表示訓練樣本i的同類相似樣本集,W八./)表示訓練樣本j 的異類相似樣本集,巧表示訓練樣本i的異類相似樣本集;
[0104] 第二構建單元,用于根據所述類內相似矩陣和所述類間相似矩陣,構建類間局部 散度矩陣和類內局部散度矩陣;
[0105] Sw=X(DW-FW)xT;
[0106] Sb = X(Db-Fb 巧 T;
[0107] 其中,Sw表示類內局部散度矩陣,Sb表示類間局部散度矩陣,X表示樣本的基因表達 數據,F"表示類內相似矩陣,Fb表示類間相似矩陣,D"和〇b表示對角矩陣,
[0108] 特征分解單元,用于對所述類間局部散度矩陣和所述類內局部散度矩陣進行特征 分解,按照從大到小的順序獲取若干個特征值,根據所述若干個特征值對應的特征向量建 立所述低維特征空間的所述投影矩陣,并根據
呆證類間距離與類內距 離的比值最大化;
[0109] 其中,trace( ·)是指求矩陣的跡。
[0110] 所述模型構建模塊3,包括:
[0111] 投影單元,用于利用所述投影矩陣將多個類別的所述訓練樣本投影到所述低維特 征空間,形成多個投影訓練樣本;
[0112] 第Ξ構建單元,用于在所述低維特征空間內,利用最近鄰分類器和多個所述投影 訓練樣本構建樣本檢測模型。
[0113] 優選地,還可W包括:
[0114] 檢測板塊;
[0115] 所述檢測模塊用于將抽取的多個所述特征值的位置記錄為特征位置集;根據所述 特征位置集對原始樣本進行所述歸一化處理,形成所述待測樣本;利用所述投影矩陣將所 述待測樣本投影到所述低維特征空間,形成投影待測樣本;根據所述樣本檢測模型,在所述 低維特征空間內,利用所述最近鄰分類器從多個所述投影訓練樣本中確定與所述投影待測 樣本距離最近的所述投影訓練樣本,并將確定的所述投影訓練樣本對應的所述訓練樣本的 類別賦予所述待測樣本,完成對所述待測樣本的類別參數的檢測。
[0116] 需要說明的是,本申請中的系統實施例提供的樣本檢測模型的構建系統可W采用 上述方法實施例中的樣本檢測模型的構建方法,可W用于實現上述方法實施例中的全部技 術方案,其各個功能模塊的功能可W根據上述方法實施例中的方法具體實現,其具體實現 過程可參照上述實施例中的相關描述,此處不再寶述。
[0117] 下面對本發明的實例作詳細說明:本實例在W本發明技術方案為前提下進行實 施,給出了詳細的實施方式和過程,但本發明的保護范圍不限于下述的實例。
[011引 Leukemia數據集中有兩種不同種類的白血病,急性淋己細胞性白血病(Acute Lymphoblastic Le址emia,ALL)和急性骨髓性白血病(Acute Myeloid Le址emia,AML)。該 數據集被劃分為兩個子集:訓練集用來選擇基因和訓練分類器,測試集用來估計分類性能。 訓練集有38個樣本(27個A化和11個AML ),測試集有34個樣本(20個A化和14個AML)。所有樣 本有7129個特征,對應于從微陣列圖像中提取出的歸一化基因表達值。
[0119] 具體實施步驟如下:
[0120] 訓練模塊:
[0121] 設已有基因表達訓練樣本為狂,乂培,其中XiERD是第i個人的基因表達數據,yi = {1,2,-,,c}表示XI的類別標簽,即該數據對應的是哪種白血病,C表示數據集中白血病類型 數,N表示訓練樣本的個數,D表示訓練樣本的維數。在本實施例中,c = 2,N=78,D = 24481。
[0122] 隨機特征選擇:
[0123] -般來說,相對于N而言,D是一個非常大的數。為了減少計算復雜度,先隨機抽取 一部分特征,比如抽取d個特征,記錄抽取特征的位置/ c{l,2,···,巧,且11 I =d。在本實施例 中,d=1000。為了消除隨機性的影響,重復50次隨機抽取。然后把抽取出來的特征值進行歸 一化,使得特征值的范圍在[0,1]區間。則記隨機特征選擇且歸一化后的訓練樣本集為 成,.V,培,并且X'iERd。
[0124] 特征變換:
[0125] 為了同時考慮保持低維坐標的幾何特征和訓練點信息,尋找一個最優變換P,將數 據集戌,知f=,映射到相對低維的特征空間,比如r維空間,且r<<d<<D。在本實施例中,r 可W取1到37,要小于樣本的個數。在此低維的特征空間中,最大化類間距離且最小化類內 距離,即:
[0126]
[0127]其中trace( ·)是指求矩陣的跡,Sb是類間局部散度矩陣,Sw類內局部散度矩陣。為 了計算運兩個局部散度矩陣,我們構造兩個相似矩陣,類內相似矩陣F"和類間相似矩陣Fb。 Sw = X(〇w-FW)xT和Sb = X(Db-Fb)xT,其中和〇b均是對角矩陣
為 了獲得運兩個相似矩陣,我們定義余弦去中屯、相似性函數:
[012 引
[0129] 其中
曼訓練樣本集的中屯、。如果3(χ/ i,χ/ j)值越大,則χ/ i與χ/ j月相似。FW 和Fb定義如下:
[0130]
[0131] 和
[0132]
[013引其中辦貨和分別是x'l的同類相似樣本和異類相似樣本集合。在本實施例 中,相似性樣本數分別取k = 4和k = 5。
[0134] 為了獲得P,我們對Sb和Sw進行廣義特征分解。把獲得的特征值按照從大到小的順 序進行排序,取前其r個特征值對應的特征向量組成矩陣口=[口1,口2,一,口,],其中口1是特征 分解后的特征向量。
[0135] 在得到了投影矩陣P后,通過投影把原樣本空間的訓練樣本投影到低維特征空間, Zi = PV 1,其中zi是χ/1在低維空間的投影訓練樣本,ZiERT。令耗,乂措為投影后的投影訓 練樣本集。
[0136] 模型構建:
[0137] 對某個原始樣本xERD,根據保留的特征位置集I和訓練樣本集的歸一化方式,構 造一個新的待測樣本χ/ ERd。然后利用投影變換P把它映射到低維特征空間中,得到投影待 測樣本ζ=ρΤχ' er。
[0138] 利用最近鄰分類器,對投影待測樣本z在低維特征空間進行判別。也就是說,在投 影訓練樣本集合!Z,,J,占中,找到和待測樣本距離最近的投影訓練樣本,然后再把該投影訓 練樣本對應的訓練樣本的類別賦予投影待測樣本Z。運樣就完成對X的類別參數的檢測。在 本實施例中待測樣本有34個,要重復構建模型34次,報道平均結果。
[0139] 圖3提供了本申請方案和現有技術的雙圖判別近鄰嵌入算法隨著維數變化的檢測 率曲線對比圖。可W看到本發明的檢測精度一直是高于雙圖判別近鄰嵌入的。隨著維數的 增加,精度有所下降,最后趨于一個較為平穩的值。表1給出了降維數為1到37之間最好檢測 結果的對比,括號中是對應的最好維數。該數據的降維是降低,兩種方法都在1維或者2維時 獲得其最好的性能。但可W看出本發明遠遠好于對比方法。
[0140] 表種算法在WL人臉數據庫的分類性能對比(% ) 「01411
[0142] ~為了描述的方便,描述W上系統時W功能分為各種模塊分別描述。當然,在實施本 申請時可W把各模塊的功能在同一個或多個軟件和/或硬件中實現。
[0143] 本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統或 系統實施例而言,由于其基本相似于方法實施例,所W描述得比較簡單,相關之處參見方法 實施例的部分說明即可。W上所描述的系統及系統實施例僅僅是示意性的,其中所述作為 分離部件說明的單元可W是或者也可W不是物理上分開的,作為單元顯示的部件可W是或 者也可W不是物理單元,即可W位于一個地方,或者也可W分布到多個網絡單元上。可W根 據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術 人員在不付出創造性勞動的情況下,即可w理解并實施。
[0144] 專業人員還可W進一步意識到,結合本文中所公開的實施例描述的各示例的單元 及算法步驟,能夠W電子硬件、計算機軟件或者二者的結合來實現,為了清楚地說明硬件和 軟件的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。運些 功能究竟W硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。專業 技術人員可W對每個特定的應用來使用不同方法來實現所描述的功能,但是運種實現不應 認為超出本發明的范圍。
[0145] 結合本文中所公開的實施例描述的方法或算法的步驟可W直接用硬件、處理器執 行的軟件模塊,或者二者的結合來實施。軟件模塊可W置于隨機存儲器(RAM)、內存、只讀存 儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術 領域內所公知的任意其它形式的存儲介質中。
[0146] 還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個 實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示運些實體或操作之間 存在任何運種實際的關系或者順序。而且,術語"包括"、"包含"或者其任何其他變體意在涵 蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要 素,而且還包括沒有明確列出的其他要素,或者是還包括為運種過程、方法、物品或者設備 所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在 包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0147] 對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。 對運些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的 一般原理可W在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明 將不會被限制于本文所示的運些實施例,而是要符合與本文所公開的原理和新穎特點相一 致的最寬的范圍。
【主權項】
1. 一種樣本檢測模型的構建方法,其特征在于,包括: 從預設的訓練樣本集中確定多個類別的訓練樣本; 基于余弦去中心相似性原理,并根據多個類別的所述訓練樣本的同類相似樣本集和異 類相似樣本集,建立低維特征空間的投影矩陣; 依據所述投影矩陣以及多個類別的所述訓練樣本構建樣本檢測模型;所述樣本檢測模 型用于檢測待測樣本的類別參數。2. 根據權利要求1所述的方法,其特征在于,所述從預設的訓練樣本集中確定多個類別 的訓練樣本,包括: 獲取預設的所述訓練樣本集,從所述訓練樣本集中抽取多個特征值; 將抽取的多個所述特征值進行歸一化處理,形成多個類別的所述訓練樣本。3. 根據權利要求1所述的方法,其特征在于,所述基于余弦去中心相似性原理,并根據 多個類別的所述訓練樣本的同類相似樣本集和異類相似樣本集,建立低維特征空間的投影 矩陣,包括: 根據同類相似樣本集和異類相似樣本集,構建類內相似矩陣和類間相似矩陣:其中,sU、,。J為基于余弦去中心相似性原理構建的余弦去中心相似性函數,且是多個類別的所述訓練樣本的中心,%W表示類 內相似矩陣,表示類間相似矩陣,V i表示訓練樣本i』表示訓練樣本j,表示訓 練樣本j的同類相似樣本集,表示訓練樣本i的同類相似樣本集,表示訓練樣 本j的異類相似樣本集,iV; (?表示訓練樣本i的異類相似樣本集; 根據所述類內相似矩陣和所述類間相似矩陣,構建類間局部散度矩陣和類內局部散度 矩陣: Sw=X(Dw-Fw)XT; Sb = X(Db-Fb)XT; 其中,Sw表示類內局部散度矩陣,Sb表示類間局部散度矩陣,X表示樣本的基因表達數 據,Fw表示類內相似矩陣,Fb表示類間相似矩陣,0"和0|3表示對角矩陣,對所述類間局部散度矩陣和所述類內局部散度矩陣進行特征分解,按照從大到小的順 序獲取若干個特征值,根據所述若干個特征值對應的特征向量建立所述低維特征空間的所 述投影矩陣,保證類間距離與類內距離的比值最大化; 其中,trace( ·)是指求矩陣的跡。4. 根據權利要求2所述的方法,其特征在于,所述依據所述投影矩陣以及多個類別的所 述訓練樣本構建樣本檢測模型,包括: 利用所述投影矩陣將多個類別的所述訓練樣本投影到所述低維特征空間,形成多個投 影訓練樣本; 在所述低維特征空間內,利用最近鄰分類器和多個所述投影訓練樣本構建樣本檢測模 型。5. 根據權利要求4所述的方法,其特征在于,還包括: 將抽取的多個所述特征值的位置記錄為特征位置集; 根據所述特征位置集對原始樣本進行所述歸一化處理,形成所述待測樣本; 利用所述投影矩陣將所述待測樣本投影到所述低維特征空間,形成投影待測樣本; 根據所述樣本檢測模型,在所述低維特征空間內,利用所述最近鄰分類器從多個所述 投影訓練樣本中確定與所述投影待測樣本距離最近的所述投影訓練樣本,并將確定的所述 投影訓練樣本對應的所述訓練樣本的類別賦予所述待測樣本,完成對所述待測樣本的類別 參數的檢測。6. -種樣本檢測模型的構建系統,其特征在于,包括: 獲取模塊,用于從預設的訓練樣本集中確定多個類別的訓練樣本; 矩陣建立模塊,用于基于余弦去中心相似性原理,并根據多個類別的所述訓練樣本的 同類相似樣本集和異類相似樣本集,建立低維特征空間的投影矩陣; 模型構建模塊,用于依據所述投影矩陣以及多個類別的所述訓練樣本構建樣本檢測模 型;所述樣本檢測模型用于檢測待測樣本的類別參數。7. 根據權利要求6所述的系統,其特征在于,所述獲取模塊,包括: 獲取單元,用于獲取預設的所述訓練樣本集,從所述訓練樣本集中抽取多個特征值; 處理單元,用于將抽取的多個所述特征值進行歸一化處理,形成多個類別的所述訓練 樣本。8. 根據權利要求6所述的系統,其特征在于,所述矩陣建立模塊,包括: 第一構建單元,用于根據同類相似樣本集和異類相似樣本集,構建類內相似矩陣和類 間相似矩陣:其中,sU、,。J為基于余弦去中心相似性原理構建的余弦去中心相似性函數,且是多個類別的所述訓練樣本的中心,表示類 內相似矩陣,#表示類間相似矩陣,V i表示訓練樣本i』表示訓練樣本j表示訓 練樣本j的同類相似樣本集,#Α+ 〇〇表示訓練樣本i的同類相似樣本集,$〇')表示訓練樣 本j的異類相似樣本集,表示訓練樣本i的異類相似樣本集; 第二構建單元,用于根據所述類內相似矩陣和所述類間相似矩陣,構建類間局部散度 矩陣和類內局部散度矩陣: Sw=X(Dw-Fw)XT; Sb = X(Db-Fb)XT; 其中,Sw表示類內局部散度矩陣,Sb表示類間局部散度矩陣,X表示樣本的基因表達數 據,Fw表示類內相似矩陣,Fb表示類間相似矩陣,0"和0|3表示對角矩陣,特征分解單元,用于對所述類間局部散度矩陣和所述類內局部散度矩陣進行特征分 解,按照從大到小的順序獲取若干個特征值,根據所述若干個特征值對應的特征向量建立 所述低維特征空間的所述投影矩陣,保證類間距離與類內距離 的比值最大化; 其中,trace( ·)是指求矩陣的跡。9. 根據權利要求7所述的系統,其特征在于,所述模型構建模塊,包括: 投影單元,用于利用所述投影矩陣將多個類別的所述訓練樣本投影到所述低維特征空 間,形成多個投影訓練樣本; 第三構建單元,用于在所述低維特征空間內,利用最近鄰分類器和多個所述投影訓練 樣本構建樣本檢測模型。10. 根據權利要求9所述的系統,其特征在于,還包括: 檢測模塊; 所述檢測模塊用于將抽取的多個所述特征值的位置記錄為特征位置集;根據所述特征 位置集對原始樣本進行所述歸一化處理,形成所述待測樣本;利用所述投影矩陣將所述待 測樣本投影到所述低維特征空間,形成投影待測樣本;根據所述樣本檢測模型,在所述低維 特征空間內,利用所述最近鄰分類器從多個所述投影訓練樣本中確定與所述投影待測樣本 距離最近的所述投影訓練樣本,并將確定的所述投影訓練樣本對應的所述訓練樣本的類別 賦予所述待測樣本,完成對所述待測樣本的類別參數的檢測。
【文檔編號】G06K9/62GK105825236SQ201610156405
【公開日】2016年8月3日
【申請日】2016年3月18日
【發明人】張莉, 周偉達, 王邦軍, 張召, 李凡長, 楊季文
【申請人】蘇州大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影