一種融合張量填充和張量恢復的數據重建方法與流程

文檔序號：11199159閱讀：623來源：國知局

本發明涉及數據處理，尤其涉及一種融合張量填充和張量恢復的數據重建方法。

背景技術：

隨著科學技術的不斷發展，人類社會已經步入了信息時代，大規模數據的分析與處理在當今的社會生活與科學研究中占據著越來越重要的地位。大數據在提供更加豐富的信息的同時，也大大增加了學習和研究數據的成本。更具挑戰性的問題是，這些數據中往往含有空缺元素、大的誤差、損毀等,即存在丟失和污染的問題，這為分析和處理這些大規模數據帶來了進一步困難。

現有的方法都是將數據的丟失和受污染這兩個問題分開考慮，分別研究相應的方法來解決這兩個問題。基于目前研究，最為先進且效果最好的方法是充分考慮和挖掘大規模數據的多模式相關性，將大規模數據構建為張量形式，利用張量填充方法來處理數據丟失問題，利用張量恢復方法來處理數據受污染問題。在此，將數據填充與數據恢復統稱為數據重建。下面，簡要介紹一下張量填充和張量恢復。

張量填充又被稱為張量丟失恢復。張量填充方法需要假設待填充的張量具有n模式低秩結構，目前張量填充算法主要有兩類，一類是求跡范數最小化問題，另一類是解決基于張量分解的加權最優化問題。

對于第一類方法，劉霽等人最早提出了張量跡范數的概念，并轉換為如下的優化問題：

其中，分別是在各個模式下具有相同維數的n階張量，ω指觀測到的元素下標的集合，是按各個模式展開成的矩陣，ai>0并且即為劉霽等人提出的張量跡范數，其為張量按各個模式展開后各個矩陣核范數的加權平均。

對于第二類方法，即基于張量分解的加權最優化方法也是目前張量填充理論的一類重要方法。其中比較典型的有evrimacar等人提出的基于平行因子分解模型的加權最優化算法，問題可以具體表現為如下公式

[[a⁽¹⁾,a⁽²⁾,…,a⁽ⁿ⁾]]表示張量的平行因子分解模型，是與具有同樣尺寸的加權系數張量，在數據丟失位置處為0，其它位置為1。這種方法避免了對張量的展開，可以很好地保持張量數據的結構。

張量恢復是要解決數據受到污染或破壞的問題。和張量填充方法一樣，張量恢復方法也需要假定待恢復的張量具有n模式低秩結構，目前主流的張量恢復方法假定數據受到的污染是稀疏的，其優化問題表現為如下形式：

其中是在各個模式上具有相同維數的n階張量，分別是張量按各個模式展開的矩陣，是張量的跡范數，是張量按第i模式展開矩陣的1范數，λi,ηi為正的加權系數。此式通過最小化待恢復張量的核范數和其按各個模式展開矩陣的1范數的加權和，利用優化算法將觀測到的數據分解為一個n模式低秩張量和一個稀疏張量的和。限制條件是為了保證迭代過程與最終結果的n模式低秩張量和稀疏張量的和等于觀測到的數據。

在介紹了張量填充和張量恢復之后，再對前文將數據丟失和數據受污染這兩個問題分開處理的一些弊端進行論述。具體地，在當前的大規模的數據處理和分析當中，通常同時存在著數據的丟失與污染問題。目前的研究都是將這兩個問題分開考慮，分別研究相應的方法來解決這兩個問題。然而，這兩個問題是相互關聯的，當只考慮解決其中一個問題時，另一個問題的存在將嚴重影響這個問題的解決效果。比如，當只考慮如何估計丟失的數據時，比較簡單和典型的方法是利用歷史平均值來填充丟失的數據，而如果歷史數據中存在著一些受到污染的數據，這將不可避免的嚴重影響丟失數據的估計結果，反之亦然。

因此，在處理和分析大規模數據時，最科學的方法是同時考慮數據的丟失和污染問題。

技術實現要素：

本發明的目的是提供一種能夠克服上述缺陷的融合張量填充和張量恢復的數據重建方法。

本發明提供了一種融合張量填充和張量恢復的數據重建方法，包括：分析待重建數據的多模式相關性，得出分析結果；根據所述分析結果將待重建數據構建為張量，所述張量中的元素同時遭受到數據丟失和數據污染，并且包含低秩部分和稀疏部分，所述低秩部分為真實數據并且由真實數據的多模式相關性決定，稀疏部分為噪聲數據；基于張量的張量填充和張量恢復構建優化函數，張量填充對應數據丟失，張量恢復對應數據污染；將所述優化函數轉換為可求解函數；以及對所述可求解函數進行求解，得出真實數據。

優選地，所述優化函數為：應滿足:

其中，min表示最小化，表示待重建數據的張量，表示低秩部分的張量，表示稀疏部分的張量，表示的秩，η表示調整參數且η>0，ω表示在待重建數據中觀察到的數據的集合，表示只考慮中待重建數據中觀察到數據的位置處的元素，||·||0表示0范數，0范數的最小化表示數據的稀疏。

優選地，將所述優化函數轉換為可求解函數的步驟包括：分別用最小化跡范數和1范數來替代所述優化函數中的最小化的和最小化的得到替代后的優化函數；以及在替代后的優化函數中引入虛擬矩陣m、n，得到所述可求解函數。

優選地，所述替代后的優化函數為：

其中，表示張量的跡范數，用于近似表示張量的秩，n表示張量的模式數，λi為調整參數且滿足和分別表示張量和按第i個模式展開的矩陣,||·||f表示弗羅貝尼烏斯frobenius范數，δ為閾值。

優選地，所述可求解函數為：其中，γ為調整參數且滿足γ>0，和分別表示張量和按第i個模式展開，mi和ni為虛擬矩陣。

優選地，對所述可求解函數進行求解的步驟包括：利用拉格朗日乘子法對對所述可求解函數進行優化；以及利用交替方向乘子法對優化后的可求解函數進行求解。

優選地，拉格朗日乘子法是增廣拉格朗日乘子法，所述優化后的可求解函數為：

其中，yi,zi是拉格朗日乘子，αi,βi>0為懲罰參數，與為懲罰項。

優選地，利用交替方向乘子法對優化后的可求解函數進行求解的步驟包括：對優化后的可求解函數進行迭代求解，其中，每次迭代都求解出m,n并應用到下一次迭代中，直至達到預先確定的收斂條件為止，最終的為填充了丟失數據且去除噪聲的真實數據。

本發明公開了一種融合張量填充與張量恢復的數據受污染與丟失的重建方法，能夠同時解決廣泛存在于多種應用如彩色圖像，交通數據，腦信號等不完整與受污染的多模式數據的填充與恢復問題。相較于現存的數據處理算法，本發明公開的張量重建方法能夠同時解決數據的丟失和受污染的問題，同時完成數據的填充和恢復，在以交通領域為例的實驗驗證了該發明具有收斂速度快，精度高的優點。

附圖說明

圖1是根據本發明實施例的融合張量填充和張量恢復的數據重建方法的流程圖；

圖2是交通數據受到污染和丟失情況的示意圖；以及

圖3是根據本發明實施例的方法對圖2的交通數據進行數據重建后的效果示意圖。

具體實施方式

下面通過附圖和實施例，對本發明的技術方案做進一步的詳細描述。

針對現有的大規模數據普遍存在的丟失和污染問題，本發明所要解決的是提供一種能夠同時處理上述兩個問題的方法，其不僅能夠對丟失的數據進行高精度的填充，還能夠同時高效的清洗受污染的數據。為解決上述問題，本發明在張量的框架下融合張量填充和張量恢復，以同時解決數據的丟失和污染問題。

圖1是根據本發明實施例的融合張量填充和張量恢復的數據重建方法的流程圖。

如圖1所示，在步驟101，分析待重建數據的多模式相關性，其具體包括對數據特征和數據的受污染形式進行分析。

大規模數據通常具有很強的時空特征，在多模式上表現出緊密的相關性。因此，可以根據數據的這些特征將待研究的數據構建為多維張量。例如，交通數據存在很明顯的早晚高峰，在天、周模式下，交通流量存在很強的相似性，那么交通數據很明顯可以構建為天、周、時刻的張量形式。由于對數據造成污染的原因不同使得數據的污染形式也不同，所以針對分析數據的污染形式，相應的目標求解函數也不一樣。目前，較為主流的假設都是認為數據受到稀疏噪聲的影響，本發明同樣也假設數據受到稀疏噪聲的影響。

根據以上的分析，可確定待重建的張量數據具有多維的低秩結構(在多模式上具有很強的相關性)并且受到稀疏噪聲的污染。具體地，分析結果表明所觀察到的數據，即待重建數據，其同時遭受到數據丟失和數據污染這兩個問題包含：低秩部分，即數據重建最終需要得到的真實數據，其具有多維的低秩結構；和稀疏部分，也就是受到稀疏噪聲影響的噪聲數據。

在步驟102，根據分析結果將待重建數據構建為張量，張量中的元素同時遭受到數據丟失和數據污染，并且包含低秩部分和稀疏部分，低秩部分為真實數據并且由真實數據的多模式相關性決定，稀疏部分為噪聲數據。

在步驟103，基于張量的張量填充和張量恢復構建優化函數，優化函數的求解同時涉及張量填充和張量恢復，其中，張量填充對應地用于解決數據丟失的問題，而張量恢復對應地用于解決數據污染的問題。

例如，根據上述分析，可以將數據填充和數據恢復的問題構建為如下的函數，即上述的優化函數：

其中，min表示最小化，表示待重建數據的張量，表示低秩部分的張量，表示稀疏部分的張量，表示的秩，η表示調整參數且η>0，ω表示在待重建數據中觀察到的數據的集合，表示只考慮中待重建數據中觀察到數據的位置處的元素，||·||0表示0范數，0范數的最小化表示數據的稀疏，全文中的subjectto表示應滿足的條件，在公式中可縮寫為s.t.。

在步驟104，將優化函數轉換為可求解函數。

從上式可以看出，這是一個與非確定性多項式(non-deterministicpolynomial)，即np-hard有關的問題，那么需要對優化函數，即函數(4)進行轉換。例如，可以分別利用最小化跡范數和1范數來替代最小化張量的秩和0范數，于是優化函數(4)轉換為如下形式：

其中表示張量的跡范數，用于近似表示張量的秩，n表示張量的模式數，和表示張量和按第i個模式展開的矩陣。

然而，要求解這個問題依然十分復雜，可以對其進行進一步的轉換。例如，可以引入虛擬矩陣m,n，將轉換后的優化函數(5)描述為如下形式，該形式可被稱為待重建數據的可求解函數：

其中和分別表示張量和按第i個模式展開。

在步驟105，對上面得到的可求解函數進行求解，得出真實數據

首先，優選地利用增廣拉格朗日乘子法對待重建數據的第二函數進行優化，得到優化后的第二函數。應當理解，也可以采用一般的拉格朗日乘子法進行優化。

根據增廣拉格朗日乘子法,優化函數(6)的增廣拉格朗日形式為：

其中，yi，zi是拉格朗日乘子，相比于一般的拉格朗日乘子法，增廣拉格朗日乘子法增加了一個懲罰項，αi,βi>0為懲罰參數。

然后，利用交替方向乘子法對上述的增廣拉格朗日形式求解，得出真實數據。

計算mi：

優化計算mi時，固定其他變量，則優化mi的問題變為如下子問題：

式(8)的最優解為：

其中表示奇異值分解：

為閾值算子并滿足：

計算ni：

類似于計算mi，優化ni的問題變為如下子問題：

通過眾所周知的l1范數最小化，式(12)的最優解為：

計算

固定其他變量，優化變為如下的二次函數最優化問題：

根據可得式(14)的最優化為：

計算s：

固定其他變量，優化變為如下的二次函數最優化問題：

根據可得式(16)的最優化為：

本發明提出的算法的偽代碼如下所示：

算法中，每次迭代都會求出新的并應用到下一次迭代中，直到達到收斂條件，最終的即為所要求的填充了丟失的數據并去除了噪聲的數據張量，則為數據受到的噪聲。

圖2是交通數據受到污染和丟失情況的示意圖。

如圖2所示，該交通數據同時受到數據丟失和數據污染兩方面的問題，其中，橫軸為時間，圖中取總時長為5分鐘，以秒為單位；縱軸為交通流量；如圖中左上方方框中所示，實線表示觀測到的數據/觀察數據，虛線表示受污染數據，小圓圈表示丟失數據。

圖3是根據本發明實施例的方法對圖2的交通數據進行數據重建后的效果示意圖。

在圖3中，橫軸為時間，總長為5分鐘，以秒為單位；縱軸為交通流量；虛線表示真實數據，實線表示經過數據重建后得到的重建數據。從圖上可以看出，丟失數據填充的相對誤差為0.1153，污染數據恢復的相對誤差為0.0672。可以看出，根據本發明的融合數據填充和數據恢復的數據重建方法通過張量重建，同時進行數據填充和數據恢復，其收斂速度快、精度高。

專業人員應該還可以進一步意識到，結合本文中所公開的實施例描述的各示例的單元及算法步驟，能夠以電子硬件、計算機軟件或者二者的結合來實現，為了清楚地說明硬件和軟件的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執行，取決于技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本發明的范圍。

結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執行的軟件模塊，或者二者的結合來實施。軟件模塊可以置于隨機存儲器(ram)、內存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術領域內所公知的任意其它形式的存儲介質中。

以上的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明。所應理解的是，以上僅為本發明的具體實施方式而已，并不用于限定本發明的保護范圍。凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：譚華春;宋力;何洪文;伍元凱;李琴;王芃曄
技術所有人：北京理工大學
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！