本發明涉及數據處理,尤其涉及一種融合張量填充和張量恢復的數據重建方法。
背景技術:
隨著科學技術的不斷發展,人類社會已經步入了信息時代,大規模數據的分析與處理在當今的社會生活與科學研究中占據著越來越重要的地位。大數據在提供更加豐富的信息的同時,也大大增加了學習和研究數據的成本。更具挑戰性的問題是,這些數據中往往含有空缺元素、大的誤差、損毀等,即存在丟失和污染的問題,這為分析和處理這些大規模數據帶來了進一步困難。
現有的方法都是將數據的丟失和受污染這兩個問題分開考慮,分別研究相應的方法來解決這兩個問題。基于目前研究,最為先進且效果最好的方法是充分考慮和挖掘大規模數據的多模式相關性,將大規模數據構建為張量形式,利用張量填充方法來處理數據丟失問題,利用張量恢復方法來處理數據受污染問題。在此,將數據填充與數據恢復統稱為數據重建。下面,簡要介紹一下張量填充和張量恢復。
張量填充又被稱為張量丟失恢復。張量填充方法需要假設待填充的張量具有n模式低秩結構,目前張量填充算法主要有兩類,一類是求跡范數最小化問題,另一類是解決基于張量分解的加權最優化問題。
對于第一類方法,劉霽等人最早提出了張量跡范數的概念,并轉換為如下的優化問題:
其中,
對于第二類方法,即基于張量分解的加權最優化方法也是目前張量填充理論的一類重要方法。其中比較典型的有evrimacar等人提出的基于平行因子分解模型的加權最優化算法,問題可以具體表現為如下公式
[[a(1),a(2),…,a(n)]]表示張量的平行因子分解模型,
張量恢復是要解決數據受到污染或破壞的問題。和張量填充方法一樣,張量恢復方法也需要假定待恢復的張量具有n模式低秩結構,目前主流的張量恢復方法假定數據受到的污染是稀疏的,其優化問題表現為如下形式:
其中
在介紹了張量填充和張量恢復之后,再對前文將數據丟失和數據受污染這兩個問題分開處理的一些弊端進行論述。具體地,在當前的大規模的數據處理和分析當中,通常同時存在著數據的丟失與污染問題。目前的研究都是將這兩個問題分開考慮,分別研究相應的方法來解決這兩個問題。然而,這兩個問題是相互關聯的,當只考慮解決其中一個問題時,另一個問題的存在將嚴重影響這個問題的解決效果。比如,當只考慮如何估計丟失的數據時,比較簡單和典型的方法是利用歷史平均值來填充丟失的數據,而如果歷史數據中存在著一些受到污染的數據,這將不可避免的嚴重影響丟失數據的估計結果,反之亦然。
因此,在處理和分析大規模數據時,最科學的方法是同時考慮數據的丟失和污染問題。
技術實現要素:
本發明的目的是提供一種能夠克服上述缺陷的融合張量填充和張量恢復的數據重建方法。
本發明提供了一種融合張量填充和張量恢復的數據重建方法,包括:分析待重建數據的多模式相關性,得出分析結果;根據所述分析結果將待重建數據構建為張量,所述張量中的元素同時遭受到數據丟失和數據污染,并且包含低秩部分和稀疏部分,所述低秩部分為真實數據并且由真實數據的多模式相關性決定,稀疏部分為噪聲數據;基于張量的張量填充和張量恢復構建優化函數,張量填充對應數據丟失,張量恢復對應數據污染;將所述優化函數轉換為可求解函數;以及對所述可求解函數進行求解,得出真實數據。
優選地,所述優化函數為:
其中,min表示最小化,
優選地,將所述優化函數轉換為可求解函數的步驟包括:分別用最小化跡范數和1范數來替代所述優化函數中的最小化的
優選地,所述替代后的優化函數為:
優選地,所述可求解函數為:
優選地,對所述可求解函數進行求解的步驟包括:利用拉格朗日乘子法對對所述可求解函數進行優化;以及利用交替方向乘子法對優化后的可求解函數進行求解。
優選地,拉格朗日乘子法是增廣拉格朗日乘子法,所述優化后的可求解函數為:
其中,yi,zi是拉格朗日乘子,αi,βi>0為懲罰參數,
優選地,利用交替方向乘子法對優化后的可求解函數進行求解的步驟包括:對優化后的可求解函數進行迭代求解,其中,每次迭代都求解出
本發明公開了一種融合張量填充與張量恢復的數據受污染與丟失的重建方法,能夠同時解決廣泛存在于多種應用如彩色圖像,交通數據,腦信號等不完整與受污染的多模式數據的填充與恢復問題。相較于現存的數據處理算法,本發明公開的張量重建方法能夠同時解決數據的丟失和受污染的問題,同時完成數據的填充和恢復,在以交通領域為例的實驗驗證了該發明具有收斂速度快,精度高的優點。
附圖說明
圖1是根據本發明實施例的融合張量填充和張量恢復的數據重建方法的流程圖;
圖2是交通數據受到污染和丟失情況的示意圖;以及
圖3是根據本發明實施例的方法對圖2的交通數據進行數據重建后的效果示意圖。
具體實施方式
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
針對現有的大規模數據普遍存在的丟失和污染問題,本發明所要解決的是提供一種能夠同時處理上述兩個問題的方法,其不僅能夠對丟失的數據進行高精度的填充,還能夠同時高效的清洗受污染的數據。為解決上述問題,本發明在張量的框架下融合張量填充和張量恢復,以同時解決數據的丟失和污染問題。
圖1是根據本發明實施例的融合張量填充和張量恢復的數據重建方法的流程圖。
如圖1所示,在步驟101,分析待重建數據的多模式相關性,其具體包括對數據特征和數據的受污染形式進行分析。
大規模數據通常具有很強的時空特征,在多模式上表現出緊密的相關性。因此,可以根據數據的這些特征將待研究的數據構建為多維張量。例如,交通數據存在很明顯的早晚高峰,在天、周模式下,交通流量存在很強的相似性,那么交通數據很明顯可以構建為天、周、時刻的張量形式。由于對數據造成污染的原因不同使得數據的污染形式也不同,所以針對分析數據的污染形式,相應的目標求解函數也不一樣。目前,較為主流的假設都是認為數據受到稀疏噪聲的影響,本發明同樣也假設數據受到稀疏噪聲的影響。
根據以上的分析,可確定待重建的張量數據具有多維的低秩結構(在多模式上具有很強的相關性)并且受到稀疏噪聲的污染。具體地,分析結果表明所觀察到的數據,即待重建數據,其同時遭受到數據丟失和數據污染這兩個問題包含:低秩部分,即數據重建最終需要得到的真實數據,其具有多維的低秩結構;和稀疏部分,也就是受到稀疏噪聲影響的噪聲數據。
在步驟102,根據分析結果將待重建數據構建為張量,張量中的元素同時遭受到數據丟失和數據污染,并且包含低秩部分和稀疏部分,低秩部分為真實數據并且由真實數據的多模式相關性決定,稀疏部分為噪聲數據。
在步驟103,基于張量的張量填充和張量恢復構建優化函數,優化函數的求解同時涉及張量填充和張量恢復,其中,張量填充對應地用于解決數據丟失的問題,而張量恢復對應地用于解決數據污染的問題。
例如,根據上述分析,可以將數據填充和數據恢復的問題構建為如下的函數,即上述的優化函數:
其中,min表示最小化,
在步驟104,將優化函數轉換為可求解函數。
從上式可以看出,這是一個與非確定性多項式(non-deterministicpolynomial),即np-hard有關的問題,那么需要對優化函數,即函數(4)進行轉換。例如,可以分別利用最小化跡范數和1范數來替代最小化張量的秩和0范數,于是優化函數(4)轉換為如下形式:
其中
然而,要求解這個問題依然十分復雜,可以對其進行進一步的轉換。例如,可以引入虛擬矩陣m,n,將轉換后的優化函數(5)描述為如下形式,該形式可被稱為待重建數據的可求解函數:
其中
在步驟105,對上面得到的可求解函數進行求解,得出真實數據
首先,優選地利用增廣拉格朗日乘子法對待重建數據的第二函數進行優化,得到優化后的第二函數。應當理解,也可以采用一般的拉格朗日乘子法進行優化。
根據增廣拉格朗日乘子法,優化函數(6)的增廣拉格朗日形式為:
其中,yi,zi是拉格朗日乘子,相比于一般的拉格朗日乘子法,增廣拉格朗日乘子法增加了一個懲罰項,αi,βi>0為懲罰參數。
然后,利用交替方向乘子法對上述的增廣拉格朗日形式求解,得出真實數據。
計算mi:
優化計算mi時,固定其他變量,則優化mi的問題變為如下子問題:
式(8)的最優解為:
其中
計算ni:
類似于計算mi,優化ni的問題變為如下子問題:
通過眾所周知的l1范數最小化,式(12)的最優解為:
計算
固定其他變量,優化
根據
計算s:
固定其他變量,優化
根據
本發明提出的算法的偽代碼如下所示:
算法中,每次迭代都會求出新的
圖2是交通數據受到污染和丟失情況的示意圖。
如圖2所示,該交通數據同時受到數據丟失和數據污染兩方面的問題,其中,橫軸為時間,圖中取總時長為5分鐘,以秒為單位;縱軸為交通流量;如圖中左上方方框中所示,實線表示觀測到的數據/觀察數據,虛線表示受污染數據,小圓圈表示丟失數據。
圖3是根據本發明實施例的方法對圖2的交通數據進行數據重建后的效果示意圖。
在圖3中,橫軸為時間,總長為5分鐘,以秒為單位;縱軸為交通流量;虛線表示真實數據,實線表示經過數據重建后得到的重建數據。從圖上可以看出,丟失數據填充的相對誤差為0.1153,污染數據恢復的相對誤差為0.0672。可以看出,根據本發明的融合數據填充和數據恢復的數據重建方法通過張量重建,同時進行數據填充和數據恢復,其收斂速度快、精度高。
專業人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現,為了清楚地說明硬件和軟件的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的范圍。
結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(ram)、內存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術領域內所公知的任意其它形式的存儲介質中。
以上的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明。所應理解的是,以上僅為本發明的具體實施方式而已,并不用于限定本發明的保護范圍。凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。