本發明屬于電力設備技術領域,尤其涉及基于ls_svm和pca的架空輸電線路風險評估方法。
背景技術:
由于輸電線路的分布位置較廣,運行環境復雜,導致技術因素的特征參量信息采集困難,工作量巨大,運用國家電網規則對輸電線路進行風險評估的方案也較為繁瑣。在發生自然災害時,技術因素之間具有很大的相關性,例如冰雪災害下,舞動、冰災和冰害對線路的影響相互疊加。為避免重復計算相關技術因素對線路的影響,更加簡化線路的風險評估,減少數據采集的工作量,有必要選取關鍵性技術因素進行評估,除去影響較小的技術因素,同時建立一個適用性較強,且評估簡易的方法對輸電線路運行環境整體風險進行評估。
由于運行環境整體風險評估過程中,需要評估和搜集的特征量過多,會增加分析問題的難度和復雜度。故可以通過降維技術,除去某些冗余特征量以達到簡化模型的效果。目前應用較多的有主成分分析(以下稱pca)、因子分析、典型相關分析等。而因子分析主要是通過尋找潛在的、不可觀測的組合變量來表達原始變量之間的數據關系。pca可以通過提取少量主成分因子,這些主成分可以通過原變量的線性組合得到,能夠表征原始數據的大部分信息,從而簡化了評估過程。
技術實現要素:
本發明的目的是提供一種結合最小二乘支持向量機(以下稱ls_svm)和pca的架空輸電線路運行環境整體風險評估模型,能夠簡化輸電線路運行環境風險評估過程。
為實現上述目的,本發明采用的技術方案是:基于ls_svm和pca的架空輸電線路風險評估方法,包括以下步驟:
步驟1、提取表征影響架空輸電線路安全的運行環境技術因素的特征量,進行數據預處理;
步驟2、對于處理過的特征量,采用主成分分析,對特征量進行降維處理,選取出n個關鍵特征量;
步驟3、將部分包含n個關鍵特征量的樣本作為訓練數據,作為ls_svm的輸入進行訓練,構造一個分類器,建立用于架空輸電線路運行環境整體風險評估的ls_svm模型;將包含n個關鍵特征量的剩余樣本作為測試數據進行測試,與原有評估結果進行對比,得到預測精度;
步驟4:將新得到的架空輸電線路特征量輸入步驟3所建立的用于架空輸電線路運行環境整體風險評估ls_svm模型,得到新評估架空輸電線路風險狀態等級。
在上述的基于ls_svm和pca的架空輸電線路風險評估方法中,步驟2的實現包括:
步驟2.1、根據定義標準化之后得到一個p×n階的矩陣:x=(x1,x2,...,xp)t,其中有n個樣本,p個特征量;
步驟2.2、建立特征量的相關系數陣:
r=(rij)p×p=x′x,求出r的特征值λ1≥λ2≥…≥λp≥0,對應的特征向量為α1,α2,…,αp;
步驟2.3、確定主成分個數:
前m個主成分的累計貢獻率為:
當前m個主成分的累計貢獻率達到80%,用前m個主成分來表征原始p個特征量的信息,m<p,記f=(f1,f2,...,fm)t,實現降維的目的;
式中:a表示因子載荷矩陣;
步驟2.4、主成分得分計算
通過對得到的m個主成分進行加權,可以得到主成分的綜合得分c以及每個特征量的權重k;
特征量對主成分綜合得分的權重為:
k=(k1,k2,...,kp)=(λ1α1+λ2α2+…+λmαm)t(5);
步驟2.5、將特征量的權重k歸一化到[0,1],得到關鍵特征量;選取出n個權重大于0.5的關鍵特征量。
本發明的有益效果是:
1、通過分析,提取出了表征影響架空輸電線路安全的運行環境技術因素的特征量,便于進行數據統計,為算法訓練數據分析提供堅實的數據基礎。
2、針對實際數據采集的工作量和風險評估的復雜性,使用pca對特征量進行降維處理,得到權重較大的關鍵特征量,減小了分析問題的難度和復雜度。同時降低了一線巡檢人員的工作量。
3、ls_svm算法基于結構風險最小化原理,具有較好的泛化能力,在小樣本下效果尤其突出,可以通過對pca提取出的關鍵特征量數據進行訓練分析,并得到最優的分類器,最后通過該分類器得到新線路的風險評估結果。從而簡化了輸電線路運行環境風險評估方法。ls_svm訓練時間更短,結果也更加精確。
附圖說明
圖1是本發明一個實施例基于ls_svm和pca的架空輸電線路風險評估流程圖。
具體實施方式
下面結合附圖對本發明的實施方式進行詳細描述。
所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
下文的公開提供了許多不同的實施例或例子用來實現本發明的不同結構。為了簡化本發明的公開,下文中對特定例子的部件和設置進行描述。它們僅僅為示例,并且目的不在于限制本發明。此外,本發明可以在不同例子中重復參考數字和/或字母。這種重復是為了簡化和清楚的目的,其本身不指示所討論各種實施例和/或設置之間的關系。此外,本發明提供了各種特定的工藝和材料的例子,但是本領域普通技術人員可以意識到其它工藝的可應用性和/或其他材料的使用。另外,以下描述的第一特征在第二特征之“上”的結構可以包括第一和第二特征形成為直接接觸的實施例,也可以包括另外的特征形成在第一和第二特征之間的實施例,這樣第一和第二特征可能不是直接接觸。
本發明的描述中,需要說明的是,除非另有規定和限定,術語“相連”“連接"應做廣義理解,例如,可以是機械連接或電連接,也可以是兩個元件內部的連通,可以是直接相連,也可以通過中間媒介間接相連,對于相關領域的普通技術人員而言,可以根據具體情況理解上述術語的具體含義。
本實施例采用以下技術方案來實現,基于ls_svm和pca的架空輸電線路風險評估方法,包括以下步驟:
步驟1、提取表征影響架空輸電線路安全的運行環境技術因素的特征量,進行數據預處理;
步驟2、對于處理過的特征量,采用主成分分析,對特征量進行降維處理,選取出n個關鍵特征量;
步驟3、將部分包含n個關鍵特征量的樣本作為訓練數據,作為ls_svm的輸入進行訓練,構造一個分類器,建立用于架空輸電線路運行環境整體風險評估的ls_svm模型;將包含n個關鍵特征量的剩余樣本作為測試數據進行測試,與原有評估結果進行對比,得到預測精度;
步驟4:將新得到的架空輸電線路特征量輸入步驟3所建立的用于架空輸電線路運行環境整體風險評估ls_svm模型,得到新評估架空輸電線路風險狀態等級。
進一步,步驟2的實現包括:
步驟2.1、根據定義標準化之后得到一個p×n階的矩陣:x=(x1,x2,...,xp)t,其中有n個樣本,p個特征量;
步驟2.2、建立特征量的相關系數陣:
r=(rij)p×p=x′x,求出r的特征值λ1≥λ2≥…≥λp≥0,對應的特征向量為α1,α2,…,αp;
步驟2.3、確定主成分個數:
前m個主成分的累計貢獻率為:
當前m個主成分的累計貢獻率達到80%,用前m個主成分來表征原始p個特征量的信息,m<p,記f=(f1,f2,...,fm)t,實現降維的目的;
式中:a表示因子載荷矩陣;
步驟2.4、主成分得分計算
通過對得到的m個主成分進行加權,可以得到主成分的綜合得分c以及每個特征量的權重k;
特征量對主成分綜合得分的權重為:
k=(k1,k2,...,kp)=(λ1α1+λ2α2+…+λmαm)t(5);
步驟2.5、將特征量的權重k歸一化到[0,1],得到關鍵特征量;選取出n個權重大于0.5的關鍵特征量。
具體實施時,考慮到線路運行受較多環境技術因素影響,各技術因素對線路有疊加影響,且技術因素的特征量測量和采集工作繁重、困難。故以傳統評估結果為樣本,首先用pca方法對11個技術因素進行降維處理,忽略影響較少的技術因素,得到貢獻率較大的技術因素來表征輸電線路運行環境整體風險,即得到關鍵特征量,最后采用ls_svm算法對包含關鍵特征量的樣本進行訓練,并分析。
本實施例的技術方案是:
(1)pca提取關鍵特征量
由于運行環境整體風險評估過程中,需要評估和搜集的特征量過多,會增加分析問題的難度和復雜度。故可以通過降維技術,除去某些冗余特征量以達到簡化模型的效果。pca可以通過提取少量主成分因子,這些主成分可以通過原變量的線性組合得到,能夠表征原始數據的大部分信息,從而簡化了評估過程。
用pca提取關鍵特征量的步驟如下:
1)根據定義標準化之后可以得到一個p×n
階的矩陣:x=(x1,x2,...,xp)t,其中有n個樣本,p個特征量。
2)建立特征量的相關系數陣:
r=(rij)p×p=x′x,求出r的特征值λ1≥λ2≥…≥λp≥0,對應的特征向量為α1,α2,…,αp。
3)確定主成分個數:
前m個主成分的累計貢獻率為:
累計貢獻率表明了前m個主成分的解釋能力。當前m個主成分的累計貢獻率達到80%~90%,此時可以用該m個主成分來表征原始p個特征量的信息(m<p),記f=(f1,f2,...,fm)t,從而達到了降維的目的。
式中:a表示因子載荷矩陣。
4)主成分得分計算
通過對得到的m個主成分進行加權,可以得到主成分的綜合得分c以及每個特征量的權重k。
由(5)式可以得到特征量對主成分綜合得分的權重
k=(k1,k2,...,kp)=(λ1α1+λ2α2+…+λmαm)t(5)
5)將特征量的權重k歸一化到[0,1],可以得到關鍵特征量,即當特征量權重越大,表明該特征量表征的原始數據信息量越大,則該特征量就越具有代表性,因此把權重大于0.5的特征量選取為關鍵特征量。
通過降維選出來的關鍵特征量在誤差允許的范圍內可以代替原有數據進行風險評估,降低復雜度,同時降低一線巡檢人員的工作量。
(2)基于ls-svm的風險狀態評估
鑒于上述(1)的分析,引入支持向量機技術來構造風險分類器,來簡化風險評估過程。支持向量機基于結構風險最小化原理,具有較好的泛化能力,在小樣本下效果尤其突出。本實施例采用拓展的支持向量機,即ls-svm,其訓練時間更短,結果也更加精確。
1)ls_svm算法
故障識別功能即相當于ls_svm的分類器功能,通過使用最大分類間隔來設計決策最優分類超平面,以獲得良好的推廣能力和預測能力。對非線性進行分類,需要用到核函數來將非線性的訓練數據映射到高維空間,從而在高維空間構造最優分類超平面。其分類函數形式上相當于一個神經網絡,輸出是中間節點的線性組合,一個支持向量即為一個中間節點。
分類的優化方程為:
其中:ω是映射權值向量,b是閾值,ξ是松弛變量,φ為非線性映射函數,γ為懲戒函數。
引入拉格朗日函數
其中,αi為拉格朗日乘子,通過求l對應于ω、ξ、b、αi的偏導置零后,根據kkt條件消去ω和ξ后,可以得到線性方程
其中,ω=yiyjφ(xi)tφ(xj)=yiyjk(xi,xj),y=[y1,...,yn],1v=[1,...,1],k(xi,xj)為核函數,在此選用徑向基核函數。其形式為:
這樣就將非線性問題轉化成線性問題求解,該線性方程可以用最小二乘法進行求解,簡化計算復雜度,所以最小二乘支持向量機比一般向量機有更快的訓練速度,從而構造了一個風險分類器。
綜上所述,對技術因素的特征量進行pca,通過特征量主成分綜合得分的權重提取出能夠表征輸電線路風險狀態的關鍵特征量,結合ls_svm,得到輸電線路運行環境整體風險評估方法。具體評估步驟可概括如下:
步驟1:提取出所有技術因素的特征量,并進行數據預處理。
步驟2:對于處理過的特征量,應用pca,對特征量進行降維處理,當前m個特征量的累計貢獻率達到80%,即可認為該m個特征量可以表征原始數據結構。通過公式(5)計算,選取出n個權重大于0.5的關鍵特征量。
步驟3:將部分包含該n個關鍵特征量的樣本作為訓練數據,作為ls_svm的輸入進行訓練,構造一個分類器,建立用于架空輸電線路運行環境整體風險評估的ls_svm模型。將包含該n個關鍵特征量的剩余樣本作為測試數據進行測試,與原有評估結果進行對比,得到預測精度。
步驟4:將新得到的架空輸電線路特征量輸入上述建立的ls_svm風險評估模型,得到新評估架空輸電線路風險狀態等級。
應當理解的是,本說明書未詳細闡述的部分均屬于現有技術。
雖然以上結合附圖描述了本發明的具體實施方式,但是本領域普通技術人員應當理解,這些僅是舉例說明,可以對這些實施方式做出多種變形或修改,而不背離本發明的原理和實質。本發明的范圍僅由所附權利要求書限定。