專利名稱:一種面向數據并行計算的容錯方法
技術領域:
本發明屬于并行系統容錯的技術領域,涉及利用冗余計算對關鍵計算任務進行檢錯和恢復,特別提出一種基于容錯數據塊二次劃分及二次調度的故障恢復策略。
背景技術:
計算機系統的容錯處理是一個不容忽視的問題。一個系統是容錯的,指的是它的程序在出現邏輯故障的情況下仍然能夠正確的運行。近年來,隨著系統結構的復雜性增加,半導體制造工藝的發展,線寬的降低以及集成度的提高,從用戶桌面系統到分布式計算環境,乃至大規模并行計算機系統,功耗和可靠性問題都日漸突出。計算機系統的可靠性反映了系統為用戶提供預定服務的能力,可靠性的高低與系統故障率緊密相關。容錯技術的目的在于降低計算機系統的故障率,或者在一 定故障率的如提下,提聞系統能正確提供服務的概率。容錯技術雖然多樣,但具有一個共同的本質,就是進行一定程度的冗余計算。所謂冗余計算是指在對關鍵任務進行多副本的同步計算。最基本的冗余包括時間冗余和空間冗余。時間冗余直觀地講就是復算(recompute),包括重復進行的計算和重復進行的通信,以及對多次計算結果的比較。空間冗余又可以細分為軟件冗余、硬件冗余和信息冗余。軟件冗余就是設置冗余的軟件模塊;硬件冗余就是設置冗余的硬件部件;而信息冗余就是通過使用附加的數據來描述某些內部狀態,通過對這些附加數據的考察就可以實現檢錯和容錯。通過對現有的研究工作分析研究發現,目前國內外已有的并行系統的成果主要基于硬件冗余和軟件冗余機制,且主要用于故障檢測,而針對故障恢復機制的研究還很少。當前主流的軟件容錯策略面向時間冗余的方法,導致計算失敗的節點需要重新進行任務恢復,由于其恢復時間大于前一個檢查點和故障發生時刻之間的時間間隔,從而導致大量剩余的計算資源處于閑置的狀態,而這些問題導致了并行效率降低以及計算資源的浪費。
發明內容
本發明針對上述問題,提出了基于冗余計算的故障檢測方法以及基于二次調度的故障恢復方法,能夠提高并行效率。本發明一種面向數據并行計算的容錯處理方法采用的技術方案如下a)對關鍵計算任務進行二次冗余或三次冗余計算策略及錯誤判定(I)容錯調度策略采用二次調度方法,包括冗余計算策略和調度方法。冗余計算策略分為二次冗余和三次冗余。二次冗余計算開銷小,但只能判斷任務是否出錯,不能確定采用哪個結果;而三次冗余可確定正確結果,但開銷大。冗余策略RI可以根據集群計算節點空閑數和任務數確定如下
權利要求
1.一種面向數據并行計算的容錯處理方法,其特征在于,所述方法包括a)對關鍵計算任務進行二次冗余或三次冗余計算策略及錯誤判定山)基于內存頁調度策略的容錯數據塊的理論層次結構;c)基于空閑節點個數以及最小數據塊的容錯數據塊的二次劃分。
2.根據權利要求I所述的一種面向數據并行計算的容錯處理方法,其特征在于,所述冗余計算策略的確定方法為結合集群計算節點空閑數和任務數,依據冗余策略RI確定合適的計算策略;其中,冗余策略RI為
3.根據權利要求I所述的一種面向數據并行計算的容錯處理方法,其特征在于,所述對關鍵計算任務進行二次冗余計算的方法包括 步驟201,具有相同功能的兩個模塊共同執行同一個任務; 步驟202,錯誤檢測裁決器對兩個節點的計算結果進行比較判定,若求得的值大于閾值ε,則執行步驟203 ;若不大于閾值ε,則執行步驟204 ; 其中,裁決器判定公式為
4.根據權利要求I所述的一種面向數據并行計算的容錯處理方法,其特征在于,所述對關鍵計算任務進行三次冗余計算的方法包括 步驟301,具有相同功能的三個模塊共同執行同一個任務; 步驟302,錯誤檢測裁決器對三個節點的計算結果進行兩兩比較判定,若求得的值均不大于閾值ε,則執行步驟306 ;若不是,則執行步驟303繼續判定; 其中,裁決器判定公式為
5.根據權利要求I所述的一種面向數據并行計算的容錯處理方法,其特征在于,所述基于內存頁調度策略的出錯任務對應數據塊的層次結構構建包括 步驟401,基于內存頁調度策略,可以得到最小數據單位fmin;按照四叉樹結構組合得到復合數據,從而得到一個樹結構; 步驟402,根據計算結點內存大小M和可用比例δ,計算復合數據塊最大值fmax,并確定四叉樹的層數I ;
6.根據權利要求I所述的一種面向數據并行計算的容錯處理方法,其特征在于,所述基于空閑節點個數以及最小數據塊的容錯數據塊二次劃分方法包括 步驟501,掃描當前集群系統中的空閑節點得到當前空閑節點的個數n,可求得按空閑節點劃分的理論劃分層次K為··
全文摘要
本發明公開了一種面向數據并行計算的容錯處理方法,屬于并行系統容錯的技術領域,是一種基于出錯任務對應的數據塊進行二次劃分及二次調度的錯誤恢復策略與方法。該方法包括對關鍵計算任務進行二次冗余或三次冗余計算及結果判定;基于內存頁調度策略的數據組成結構的構造方法;基于空閑節點個數以及最小數據塊的容錯數據塊的二次劃分。本發明完全可應用于大規模海量數據的并行數字地形分析的高性能計算的容錯處理場合,例如,規則格網并行插值、坡度坡向并行計算、洼地填平并行計算等地形因子提取;可以應用于地理信息處理的高性能計算;也可以應用于基于地理信息的空間決策分析和數據挖掘等應用場合,提高處理效率。
文檔編號G06F11/14GK102902603SQ20121036627
公開日2013年1月30日 申請日期2012年9月27日 優先權日2012年9月27日
發明者竇萬峰, 楊坤, 許敏, 宋效東, 湯國安 申請人:南京師范大學