一種基于高斯模糊積分的hbv分類方法
【技術領域】
[0001] 本發明設及分類預測的研究領域,特別設及一種基于高斯模糊積分的皿V分類方 法。
【背景技術】
[0002] 目前,現實應用中很多問題設及到分類預測,研究者已經從最初的線性分類器擴 展到了非線性分類器的使用。傳統的模糊積分就是一種用于處理非線性問題的信息融合工 具。而模糊積分自身也存在著極大的局限性,比如經典模糊測度的表示僅限于[0,1]區間, W及傳統模糊積分所能處理的數據只能根據被積函數沿直線投影來獲得積分值,而實際的 數據分布并不是單純線性的。
【發明內容】
[0003] 本發明的主要目的在于克服現有技術的缺點與不足,提供一種基于高斯模糊積分 的皿V分類方法。
[0004] 本發明的目的通過W下的技術方案實現:
[0005] -種基于高斯模糊積分的皿V分類方法,包括下述步驟:
[0006]S1、從皿V數據庫中篩選皿V患者的DNA序列;
[0007] S2、數據庫根據聚類方法分為四個小的數據集合B1、C1、C2 W及C3 ;
[0008] S3、對數據集進行分類,依靠分類器的分類和病例的真實類別,可W有四種結果用 于預測評價;
[0009] 真正類---患者診斷為患病,而真有病的情況;
[0010] 假正類---患者診斷為患病,而未患病的情況;
[0011] 真負類---患者診斷為無病,而真無病的情況;
[0012] 假負類---患者診斷為無病,而真有病的情況;
[001引令TP,化TN和FN分別表示真正類、假正類、真負類和假負類的數目,對于每個學 習和評價實驗,Accuracy準確度、Sensitivity敏感度和Specificity特異性定義如下,用 作分類的性能或適應度的指示器;
[0014] Accura巧=(TP+TN)/^(TP+TN+FP+FN),
[00 巧]Sensitivity = TP/(TP+FN),
[0016] Specificity=TN/(TN+FP).
[0017] S4、將高斯模糊積分構造的分類器應用于皿V數據庫,對皿V進行分類,所述高斯 模糊積分構造的分類器具體為:
[001引假設給定特征集X = {Xi, X2,…,X。},f為特征函數,相應的特征值為 f (Xi),f (X2),…,f (X。),將特征值進行降序排列滿足f (V )《f咕')《f (X。'),其中 (x/,又2',…,X。')是(X。X2,…,X。)的變開多;
[0019] 將被積函數擴展為高斯形式,并基于此構建擴展模糊積分分類器,基于高斯函數 的模糊積分定義如下:
[0020] 通過投影所有待分類數據會在L軸求得一個高斯模糊積分值,此時可采用一個線 性分類方法將該些虛擬值進行分類,在一次投影后并不一定能夠正確分類所有數據,通過 不斷學習得到一組優化的模糊測度值,來對虛擬點在L上的分布進行調節,直至獲得滿意 分類結果。
[0021] 優選的,步驟S2中,分子進化分析由生物信息分析軟件MEGA 3.0實現完成,并同 步采用進化樹完成了皿V的同質性聚類,特征提取采用基于信息滴排序的方法,基因特征 按照信息增益進行排序,選取最前位的特征作為用于分類器的潛力特征,并經多次驗證實 驗,取前5位基因結果最優。
[0022] 優選的,步驟S3中,使用簡單的整數值0, 1,2和3作為數字化的初始值,W分別表 示特征的離散值。
[0023] 優選的,步驟S4中,所述的模糊測度值通過遺傳算法進行優化學習,該步驟中描 述的n個基因特征對應的一組模糊測度包含2D-1個值,遺傳算法中需要由一組具有2"-1個 基因的染色體表示,通過變異、交叉和復制運算因子,經過多代的進化學習,最終遺傳算法 的適應函數滿足停止條件,此時獲得的染色體中每個基因位對應的值即為模糊測度值。
[0024] 本發明與現有技術相比,具有如下優點和有益效果:
[00巧]1、本發明基于高斯分布的模糊積分,通過高斯函數表示被積函數來完成模糊積分 的投影,然后再根據投影得到的虛擬積分值進行線性分類,提高皿V分類精度,簡化了皿V 分類過程。
[0026] 2、本發明采用的高斯模糊積分呈現最高的測試敏感度,對于疾病確診和研究具有 積極的輔助作用。
【附圖說明】
[0027] 圖1是本發明基于高斯模糊積分的皿V分類方法的流程圖;
[0028] 圖2(a)是本發明一種取值情況下的高斯函數的投影圖;
[0029] 圖2(b)是本發明另一種取值情況下的高斯函數的投影圖。
【具體實施方式】
[0030] 下面結合實施例及附圖對本發明作進一步詳細的描述,但本發明的實施方式不限 于此。
[00引]實施例
[0032] 如圖1所示,本實施例基于高斯模糊積分的皿V分類方法,包括下述步驟:
[0033] S1、從皿V數據庫中篩選皿V患者的DNA序列;皿V數據庫是來自香港威爾±醫院 的實例,包含98個非患病者和100個陽性患病者。
[0034] S2、皿V患者的DNA序列由生物專家精屯、挑選,盡量使統計偏差最小。數據庫可W 根據聚類方法分為四個小的數據集合B1、C1、C2 W及C3,每個子庫的病人如表1所示;
[00巧]表1皿V數據集描述
[0036]
[0037] S3、對數據集進行分類,依靠分類器的分類和病例的真實類別,可W有四種結果用 于預測評價;
[0038] 真正類---患者診斷為患病,而真有病的情況;
[0039] 假正類---患者診斷為患病,而未患病的情況;
[0040] 真負類---患者診斷為無病,而真無病的情況;
[0041] 假負類---患者診斷為無病,而真有病的情況;
[004引令TP,化TN和FN分別表示真正類、假正類、真負類和假負類的數目,對于每個學 習和評價實驗,Accuracy準確度、Sensitivity敏感度和Specificity特異性定義如下,用 作分類的性能或適應度的指示器;
[0043]Accura巧=(TP+TN)/^(TP+TN+FP+FN),
[0044] Sensitivity = TP/(TP+FN),
[0045] Specificity = TN/(TN+FP).
[0046] 醫藥專家通常更傾向于較高的敏感度,即低準確度和特異性是可接受的平衡狀 態,只要準確度和特異性是合理的。該意味著我們寧愿讓更多的人確診為患病,而不要錯 過那些真正患病的人。在該些數據庫中,所有特征是分類型特征。每個特征有四個符號型 的值A,C,G和T。為了使用非線性模型,我們使用簡單的整數值0, 1,2和3作為數字化的初 始值,W分別表示特征的離散值。
[0047] S4、將高斯模糊積分(Gaussian-FI)構造的分類器應用于皿V數據庫,并和之前研 究中的結果進行比較,如表2所示,包含多個經典算法的測試結果,包括神經網絡(NN)、決 策樹值T)、貝葉斯(NB),支撐向量機(SVM) W及傳統模糊積分(FI),我們用多個數據庫的平 均值來衡量性能,最好的值用黑體突出顯示。表中可見,SVM雖具有最好的分類精度,敏感 性卻相對較差。對于篩查測試,醫藥專家通常喜歡更高的敏感度,即較低的精度和特異性對 于高敏感度處于一個合理的可接受的平衡狀態。我們寧愿讓更多的人接受確診測試,而不 要錯過任何一個真正的癌癥患者。高斯模糊積分呈現最高的測試敏感度,對于疾病確診和 研究具有積極的輔助作用。
[0048] 上述高斯模糊積分的分類方法具體為:
[004引假設給定特征集X = {X。X2,…,X。},f為特征函數,相應的特征值為 f (Xi),f (X2),…,f (X。),本實施例將特征值進行降序排列滿足f (Xi')《f咕')《… 《f (X。'),其