<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種穩健的boosting極限學習機集成建模方法與流程

文檔序號:11143514閱讀:1311來源:國知局
一種穩健的boosting極限學習機集成建模方法與制造工藝

本發明屬于復雜樣品定量分析領域,具體涉及一種穩健的boosting極限學習機集成建模方法。



背景技術:

由黃廣斌等人提出的極限學習機(Huang,Guang-Bin;Zhu,Qin-Yu;Siew,Chee-Kheong,Extreme learning machine:Theory and applications,Neurocomputing,2006,70(1-3):489-501)是一種有監督的單隱層前饋神經網絡的新算法,因其結構簡單、學習速度快和泛化性能強等優點,近年來在復雜樣品定量分析方面引起了廣泛關注(Bian,Xi-Hui;Li,Shu-Juan;Fan,Meng-Ran;Guo,Yu-Gao;Chang,Na;Wang,Jiang-Jiang,Spectral quantitative analysis of complex samples based on the extreme learning machine,Analytical Methods,2016,8(23):4674-4679)。與梯度下降法尋優方式不同的是,極限學習機可以隨機產生輸入權重和隱含層閾值且不需要參數調整(Chen,Wo-Ruo;Bin,Jun;Lu,Hong-Mei;Zhang,Zhi-Min;Liang,Yi-Zeng,Calibration transfer via an extreme learning machine auto-encoder,Analyst,2016,141(6):1973-1980),且該方法在保證泛化性能的同時,極大地提高了學習速度、減少了優化參數的數目。然而由于極限學習機的輸入權重和隱含層閾值是隨機設置的,使得模型的運行結果具有不穩定性。另一方面,由于極限學習機的輸出權重是一個最小二乘解,而最小二乘算法對奇異樣本比較敏感。而實際復雜樣品光譜數據中奇異樣本的存在往往不可避免,因此,極限學習機算法對復雜樣品進行分析時存在穩健性差的問題。

集成建模方法,如bagging和boosting等,是提高單一建模方法穩定性和精確度的最佳途徑。目前已經提出了bagging極限學習機算法(He,Yan-Lin;Geng,Zhi-Qiang;Zhu,Qun-Xiong,Soft sensor development for the key variables of complex chemical processes using a novel robust bagging nonlinear model integrating improved extreme learning machine with partial least square,Chemometrics and Intelligent Laboratory Systems,2016,151:78-88),來提高單一極限學習機建模方法的穩定性。但是boosting與極限學習機相結合的算法研究較少。另一方面,為了降低奇異樣本對極限學習機模型的影響,也已經提出了穩健極限學習機的算法(Zhang,Kai;Luo,Min-Xia,Outlier-robust extreme learning machine for regression problems,Neurocomputing,2015,151:1519-1527)。但是如何同時提高極限學習機的穩健性和穩定性還沒有得到解決。

研究表明,boosting的集成建模效果比bagging略好。Boosting算法是源于機器學習,通過一系列粗糙的、不準確的子模型獲得一個精確結果的預測方法。該方法根據樣本取樣權重的分布,從訓練集中選取一定的樣本作為訓練子集建立子模型。初始時對訓練集中所有樣品賦予相等的取樣權重,以后的迭代過程中預測誤差大的樣本給予大的取樣權重。這種賦權方法會導致在迭代過程中奇異樣本總是被選取到訓練集中,從而降低甚至破壞模型的性能。近年來,一個穩健版本的boosting被提出,并用于提高偏最小二乘(Shao,Xue-Guang;Bian,Xi-Hui;Cai,Wen-Sheng,An improved boosting partial least squares method for near-infrared spectroscopic quantitative analysis,Analytica Chimica Acta,2010,666(1-2):32-37)以及回歸樹(Jiao,Jian;Tan,Shi-Miao;Luo,Rui-Ming;Zhou,Yan-Ping.A Robust boosting regression tree with applications in quantitative structure-activity relationship studies of organic compounds,Journal of Chemical Information and Modeling,2011,51(4):816-828.)等基礎建模方法的預測精度及穩健性。與普通的boosting相比,穩健boosting是在更新權重之前引入一個穩健步驟,該穩健步驟通過對預測誤差特別大的樣本的取樣權重設置為零來避免這些樣本被取到訓練子集中,從而提高boosting的穩健性。

本發明結合極限學習機及穩健boosting方法的優勢,提出了一種穩健的boosting極限學習機集成建模方法,并用于復雜樣品定量分析,既保留了極限學習機學習速度快,泛化性能強等優勢,又提高了極限學習機的穩定性和穩健性。



技術實現要素:

本發明的目的是針對上述存在的問題,將boosting算法與極限學習機(ELM)相結合,同時加入一個穩健步驟,建立一種穩健的boosting極限學習機集成建模方法(流程如圖1所示),以提高模型的預測精度、穩健性及穩定性,具體步驟為:

1)收集一定數目的樣本,采集樣本的光譜數據,測定被測組分的含量。將數據集劃分為訓練集和預測集;

2)對訓練集中所有樣本i(i=1,2,......,m)賦予相等的取樣權重wi,1

3)根據樣本的取樣權重按照概率取樣選取一定數目的樣本作為一個訓練子集;

4)確定極限學習機最佳隱含層節點數和激勵函數,用訓練子集的樣品建立極限學習機子模型,用這個子模型預測訓練集中所有樣本,得到預測濃度;

5)計算訓練集中每個樣本i已知濃度與預測濃度的誤差的絕對值ei,t,其中t為迭代次數;

6)加入一個穩健步驟來改善樣本的取樣權重,對于預測誤差絕對值特別大的樣本,將其預測誤差設置為0,即

7)根據誤差依次計算損失函數Li,t、平均損失函數和模型的自信率βt

8)根據公式

計算每個樣本新的取樣權重,并歸一化,保證

重復步驟(3)~(8)多次,得到T個子模型;

9)對于未知樣本,對T個子模型的預測結果,通過權重中位值法得到最終預測結果,且權重中位值公式為:

其中r為將T個預測值進行升序排列的第r個預測值。

本發明中,極限學習機參數優化的方法:定義一個模型性能的評價參數相關系數平均值與方差的比值(MSR),如果多次運行所得相關系數的均值越大(代表精確度好),方差越小(代表穩定性好),那么MSR就越大,模型性能越佳。因此,通過觀察MSR隨著隱含層節點數以及激勵函數的變化來確定最佳參數,其中MSR最大值對應的隱含層節點數及激勵函數為最佳參數。

本發明中,子模型個數即迭代次數T的確定方法:固定每個數據集的訓練子集樣本數為總樣本數的50%,給定一個足夠大的子模型數目,計算1~T個子模型boosting ELM集成建模的交叉驗證均方根誤差(RMSECV)。根據RMSECV隨著子模型個數的變化,RMSECV值幾乎不變(趨于穩定)時對應子模型個數即為所需建立的子模型個數T。

本發明中,訓練子集樣本百分數的確定方法:子模型數為T、固定穩健中位值倍數為某個值,分別從訓練集中選取其樣本總數的5%~100%作為訓練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓練子集樣本百分數的變化,RMSEP最小值對應的訓練子集百分數最佳。

本發明中,穩健中位值倍數的選擇方法:子模型數為T、采用最佳訓練子集樣本百分數,把中位值倍數從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數的變化,RMSEP最小值對應的倍數為最佳值。

本發明的優點是:該建模方法結合了集成建模技術boosting和極限學習機的優勢,同時對奇異樣本具有很好的穩健性,提高了極限學習機算法的預測精度與穩定性,為復雜樣品多元校正分析提供了一種新的建模方法。本發明方法可廣泛應用于石油、煙草、食品、中藥等領域的復雜物質定量分析。

附圖說明

圖1是boosting極限學習機原理圖

圖2是小麥近紅外數據的極限學習機參數優化圖

圖3是小麥近紅外數據預測均方根誤差值隨著訓練集百分數變化圖

圖4是小麥近紅外數據預測均方根誤差值隨著中位值倍數變化圖

圖5是燃油近紅外數據的極限學習機參數優化圖

圖6是燃油近紅外數據預測均方根誤差值隨著訓練集百分數變化圖

圖7是燃油樣本數據預測均方根誤差值隨著中位值倍數變化圖

圖8是輕汽油和柴油燃料紫外數據的極限學習機參數優化圖

圖9是輕汽油和柴油燃料紫外數據預測均方根誤差值隨著訓練集百分數變化圖

圖10是輕汽油和柴油燃料紫外數據預測均方根誤差值隨著中位值倍數變化圖

具體實施方式

為更好地理解本發明,下面結合實施例對本發明做進一步地詳細說明,但是本發明要求保護的范圍并不局限于實施例所表示的范圍。

實施例1:

本實施例是應用于可見-近紅外光譜分析,對小麥樣本中蛋白質含量值進行研究(該數據中含有2個奇異樣本)。具體的步驟如下:

1)收集884個加拿大的小麥樣本,采集這些樣本的可見-近紅外外光譜數據,波長范圍為400-2498nm,采樣間隔為2nm,包含1050個波長點,光譜采用Foss Model 6500近紅外光譜儀測定,下載網址:http://www.idrc-chambersburg.org/shootout2008.html。該數據中第680和681號樣本為奇異樣本,采用網站上對數據集的劃分的描述,778個樣本用作訓練集,107個樣本用作預測集。

2)將訓練集中所有樣本i(i=1,2,......,778)賦予相等的取樣權重wi,1

3)根據樣本的取樣權重選取按照概率取樣選取一定數目的樣本作為一個訓練子集。

4)確定極限學習機最佳隱含層節點數和激勵函數,用訓練子集的樣本建立極限學習機子模型,用這個子模型預測訓練集中所有樣本,得到預測濃度。

5)計算訓練集中每個樣本i已知濃度與預測濃度的誤差的絕對值ei,t,其中t為迭代次數。

6)加入一個穩健步驟來改善樣本的取樣權重,對于預測誤差絕對值特別大的樣本,將其預測誤差設置為0,即

7)根據誤差依次計算損失函數Li,t、平均損失函數模型的自信率βt

8)根據公式

計算每個樣本新的取樣權重,并歸一化,保證

重復步驟(3)~(8)多次,得到T個子模型。

9)對于未知樣本,對T個子模型的預測結果,通過權重中位值法得到最終預測結果。且權重中位值公式為:

其中r為將T個預測值進行升序排列的第r個預測值。

極限學習機參數優化的方法:定義一個模型性能的評價參數相關系數平均值與方差的比值(MSR),如果多次運行所得相關系數的均值越大(代表精確度好),方差越小(代表穩定性好),那么MSR就越大,模型性能越佳。該實施例中MSR隨著隱層節點數及激勵函數的變化如圖2所示,當MSR最大時對應的隱含層節點數及激勵函數分別為95和S型函數。

子模型個數即迭代次數的確定方法:固定每個數據集的訓練子集樣本數為總樣本數的50%,給定500個子模型數目值,計算每個子模型boosting ELM集成建模的交叉驗證均方根誤差(RMSECV),并觀察RMSECV隨著子模型個數的變化,當RMSECV值幾乎不變(趨于穩定)時對應子模型個數500,即為所需建立的子模型個數。

訓練子集樣本百分數的確定方法:子模型數為500、固定穩健中位值倍數為6,分別從訓練集中選取其樣本總數的5%~100%作為訓練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓練子集樣本百分數的變化,RMSEP最小值對應的訓練子集百分數最佳。該實施例中RMSEP值隨著訓練子集樣本百分數的變化如圖3所示,隨著訓練集百分數的增加,RMSEP先快速下降,當訓練集百分數大于20%后又逐漸上升,故訓練子集樣本百分數為20%時為最佳值。

穩健中位值倍數的選擇方法:子模型數為500、采用最佳訓練子集樣本百分數20%,把中位值倍數從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數的變化,RMSEP最小值對應的倍數為最佳值。該實施例中RMSEP值隨中位值倍數的變化如圖4所示,當RMSEP最小時對應的中位值倍數5.5為最佳值。

利用模型對蛋白質含量未知的預測集樣本進行濃度測定,并與不加穩健步驟的boosting ELM、ELM和PLS方法比較。結果表明,利用傳統PLS建模,其預測均方根誤差RMSEP為0.7476;利用ELM建模,其預測均方根誤差RMSEP為0.6760,標準偏差為0.0830;利用沒有穩健步驟的boosting ELM建模,其預測均方根誤差RMSEP為0.6965,標準偏差為0.0625;利用加穩健步驟的boosting ELM建模,其預測均方根誤差RMSEP為0.4366,標準偏差為0.0105。通過比較可以得出,基于ELM方法的模型的預測精度要優于PLS;基于boosting集成的ELM方法穩定性要明顯優于ELM方法;該數據中存在奇異樣本,穩健步驟的加入可以極大地提高boosting ELM模型的穩健性、穩定性及預測精度。

實施例2:

本實施例是應用于近紅外光譜分析,對柴油機燃料樣本中的總芳香烴含量進行測定(該數據中不含奇異樣本)。具體的步驟如下:

1)收集263個燃油樣本,采集這些樣本的近紅外光譜數據,波長范圍為750-1550nm,包括401個波長點,根據美國測試和材料協會(American Society of Testing and Materials,ASTM)的標準分別測定,下載網址:http://www.eigenvector.com/Data/SWRI。該數據中無奇異樣本,采用網站上對數據集劃分的描述,142個樣本用作訓練集,121個樣本用作預測集。

2)將訓練集中所有樣本i(i=1,2,......,142)賦予相等的取樣權重wi,1

3)根據樣本的取樣權重選取按照概率取樣選取一定數目的樣本作為一個訓練子集。

4)確定極限學習機最佳隱含層節點數和激勵函數,用訓練子集的樣本建立極限學習機子模型,用這個子模型預測訓練集中所有樣本,得到預測濃度。

5)計算訓練集中每個樣本i已知濃度與預測濃度的誤差的絕對值ei,t,其中t為迭代次數。

6)加入一個穩健步驟來改善樣本的取樣權重,對于預測誤差絕對值特別大的樣本,將其預測誤差設置為0,即

7)根據誤差依次計算損失函數Li,t、平均損失函數模型的自信率βt

8)根據公式

計算每個樣本新的取樣權重,并歸一化,保證

重復步驟(3)~(8)多次,得到T個子模型。

9)對于未知樣本,對T個子模型的預測結果,通過權重中位值法得到最終預測結果。且權重中位值公式為:

其中r為將T個預測值進行升序排列的第r個預測值。

極限學習機參數優化的方法:定義一個模型性能的評價參數相關系數平均值與方差的比值(MSR),如果多次運行所得相關系數的均值越大(代表精確度好),方差越小(代表穩定性好),那么MSR就越大,模型性能越佳。該實施例中MSR隨著隱層節點數及激勵函數的變化如圖5所示,當MSR最大時對應的隱含層節點數及激勵函數分別為48和正弦函數。

子模型個數即迭代次數的確定方法:固定每個數據集的訓練子集樣本數為總樣本數的50%,給定500個子模型數目值,計算每個子模型boosting ELM集成建模的交叉驗證均方根誤差(RMSECV),并觀察RMSECV隨著子模型個數的變化,當RMSECV值幾乎不變(趨于穩定)時對應子模型個數500,即為所需建立的子模型個數。

訓練子集樣本百分數的確定方法:子模型數為500、固定穩健中位值倍數為6,分別從訓練集中選取其樣本總數的5%~100%作為訓練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓練子集樣本百分數的變化,RMSEP最小值對應的訓練子集百分數最佳。該實施例中RMSEP值隨著訓練子集樣本百分數的變化如圖6所示,當訓練集百分數小于15%時,隨著訓練集百分數的增加,RMSEP迅速減小,當訓練集百分數在15-50%時,RMSEP基本保持不變,當訓練集百分數大于50%后,RMSEP緩慢減小后又保持平穩,故訓練子集樣本百分數為80%時為最佳值。

穩健中位值倍數的選擇方法:子模型數為500、采用最佳訓練子集樣本百分數80%,把中位值倍數從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數的變化,RMSEP最小值對應的倍數為最佳值。該實施例中RMSEP值隨中位值倍數的變化如圖7所示,當RMSEP最小時對應的中位值倍數5.5為最佳值。

利用模型對總芳香烴含量未知的預測集樣本進行濃度測定,并與不加穩健步驟的boosting ELM、ELM和PLS方法比較。結果表明,利用傳統PLS建模,其預測均方根誤差RMSEP為0.7032;利用ELM建模,其預測均方根誤差RMSEP為0.6226,標準偏差為0.0485;利用沒有穩健步驟的boosting ELM建模,其預測均方根誤差RMSEP為0.5185,標準偏差為0.0064;利用加穩健步驟的boosting ELM建模,其預測均方根誤差RMSEP為0.5176,標準偏差為0.0062。通過比較可以得出,基于ELM方法的模型的預測精度要優于PLS;基于boosting集成的ELM方法的預測精度及穩定性要明顯優于ELM方法;該數據中不存在奇異樣本,有穩健步驟與沒有穩健步驟加入的boosting ELM的預測效果相當。

實施例3:

本實施例是應用于紫外光譜分析,對輕汽油和柴油燃料中的單環芳香烴含量進行測定(該數據中含有1個奇異樣本)。具體的步驟如下:

1)收集115個輕汽油和柴油燃料樣本,采集這些樣本的紫外光譜數據,波長范圍為200-400nm,采樣間隔為0.35nm,包含572個波長點,光譜采用Cary 3 UV-visible分光光度計(Varian Instruments,San Fernando,Calif.)測定。單環芳香族化合物含量采用HPG1205A超臨界流體色譜進行測定,下載網址:http://myweb.dal.ca/pdwentze/downloads.html。該數據中第115號樣本為奇異樣本,采用網站上對數據集劃分的描述,前70個樣本用作訓練集,后44個樣本用作預測集。

2)將訓練集中所有樣本i(i=1,2,......,70)賦予相等的取樣權重wi,1

3)根據樣本的取樣權重選取按照概率取樣選取一定數目的樣本作為一個訓練子集。

4)確定極限學習機最佳隱含層節點數和激勵函數,用訓練子集的樣本建立極限學習機子模型,用這個子模型預測訓練集中所有樣本,得到預測濃度。

5)計算訓練集中每個樣本i已知濃度與預測濃度的誤差的絕對值ei,t,其中t為迭代次數。

6)加入一個穩健步驟來改善樣本的取樣權重,對于預測誤差絕對值特別大的樣本,將其預測誤差設置為0,即

7)根據誤差依次計算損失函數Li,t、平均損失函數模型的自信率βt

8)根據公式

計算每個樣本新的取樣權重,并歸一化,保證

重復步驟(3)~(8)多次,得到T個子模型。

9)對于未知樣本,對T個子模型的預測結果,通過權重中位值法得到最終預測結果。且權重中位值公式為:

其中r為將T個預測值進行升序排列的第r個預測值。

極限學習機參數優化的方法:定義一個模型性能的評價參數相關系數平均值與方差的比值(MSR),如果多次運行所得相關系數的均值越大(代表精確度好),方差越小(代表穩定性好),那么MSR就越大,模型性能越佳。該實施例中MSR隨著隱層節點數及激勵函數的變化如圖8所示,當MSR最大時對應的隱含層節點數及激勵函數分別為9和S型函數。

子模型個數即迭代次數的確定方法:固定每個數據集的訓練子集樣本數為總樣本數的50%,給定500個子模型數目值,計算每個子模型boosting ELM集成建模的交叉驗證均方根誤差(RMSECV),并觀察RMSECV隨著子模型個數的變化,當RMSECV值幾乎不變(趨于穩定)時對應子模型個數500,即為所需建立的子模型個數。

訓練子集樣本百分數的確定方法:子模型數為500、固定穩健中位值倍數為6,分別從訓練集中選取其樣本總數的5%~100%作為訓練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓練子集樣本百分數的變化,RMSEP最小值對應的訓練子集百分數最佳。該實施例中RMSEP值隨著訓練子集樣本百分數的變化如圖9所示,訓練集百分數小于20%時,隨著訓練集百分數的增加,RMSEP迅速減小,但當訓練集百分數大于20%之后略有增加但基本保持不變。故當樣本百分數為20%時為最佳值。

穩健中位值倍數的選擇方法:子模型數為500、采用最佳訓練子集樣本百分數20%,把中位值倍數從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數的變化,RMSEP最小值對應的倍數為最佳值。該實施例中RMSEP值隨中位值倍數的變化如圖10所示,當RMSEP最小時對應的中位值倍數6.5為最佳值。

利用模型對單環芳香烴含量未知的預測集樣本進行濃度測定,并與不加穩健步驟的boosting ELM、ELM和PLS方法比較。結果表明,利用傳統PLS建模,其預測均方根誤差RMSEP為0.8708;利用ELM建模,其預測均方根誤差RMSEP為0.8249,標準偏差為0.1073;利用沒有穩健步驟的boosting ELM建模,其預測均方根誤差RMSEP為0.6689,標準偏差為0.0199;利用加穩健步驟的boosting ELM建模,其預測均方根誤差RMSEP為0.6126,標準偏差為0.0146。通過比較可以得出,基于ELM方法的模型的預測精度要優于PLS;基于boosting集成的ELM方法穩定性要明顯優于ELM方法;該數據中存在奇異樣本,穩健步驟的加入可以提高boosting ELM模型的預測精度及穩定性。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影