基于大量時間序列的交通流因果關系挖掘方法
【技術領域】
[0001] 本發明涉及交通信息處理技術領域,特別涉及一種基于大量時間序列的交通流因 果關系挖掘方法。
【背景技術】
[0002] 在智能交通系統中,精確可靠的交通流量預測在交通控制策略制定、交通流量分 配優化等方面起到了重要作用,因此如何提高交通預測的精度一直是智能交通系統交通預 測領域中的一個重點。
[0003] 近年來,除了在改進單傳感器預測模型上進行不斷的嘗試,研究人員越來越關注 如何利用多個傳感器檢測數據間存在的相關關系來提高預測精度,諸多研究證明,如果可 以有效利用目標檢測點相關的其它檢測點數據,確實能夠有效提高交通預測精度。
[0004] 雖然在其它領域已經對提取因果關系的方法有了一段時間的應用,但是在交通領 域仍缺少完整有效的交通流時間序列關系的評定方法,同時隨著交通數據量的不斷增大, 如何在僅占用有限的硬件資源的情況下,快速高效的從大量的時間序列中提取出與目標節 點間存在因果關系的時間序列的問題也日益突出。目前,出現了一些相關的技術方案,例如 一種基于格蘭杰因果性的腦電源定位方法,而所關注的問題是利用格蘭杰因果性理論對檢 測到的電信號間的因果性進行一對一的驗證,并沒有關注大量時間序列情況下求解時間耗 費等求解效率問題。另一種方案提出了一種基于行為時間序列的社交網絡因果關系發現 算法,而該方法所關注的問題是全局因果關系圖的建立、因果影響滯后期確定、因果關系圖 的結構優化,通過全局因果圖檢查全局因果關系圖中邊及其對應的滯后期,剔除冗余的因 果關系以及縮短因果影響中冗余的滯后期,并沒有關注原始時間序列中的波動對因果關系 提取的影響。還有一種方案為基于海洛因成癮模型的大腦回路因果作用關系分析方法,該 方法所關注的問題為使用Granger因果關系方法確定差異核團之間的因果作用關系,并沒 有關注檢測數據存在異常點時對結果的影響,同時沒有關注大量時間序列下的求解效率問 題。
【發明內容】
[0005] 本發明旨在至少在一定程度上解決上述相關技術中的技術問題之一。
[0006] 為此,本發明的目的在于提出一種基于大量時間序列的交通流因果關系挖掘方 法,該方法能夠快速、高效地從大量時間序列中提取與目標時間序列因果相關的因果關系 時間序列,提高了后期交通流預測的精度,并且能夠一定程度上抑制交通流突變點對因果 關系判定結果的影響。
[0007] 為了實現上述目的,本發明的實施例提出了一種基于大量時間序列的交通流因果 關系挖掘方法,包括以下步驟:S1 :獲取待測區域內的多個檢測點上連續多天的交通流時 間序列;S2 :預處理過程,包括:對每個檢測點檢測到的每天的交通流時間序列進行時間聚 合,以壓縮生成期望的時間序列,根據所述期望的時間序列對交通流缺失數據進行補償,并 對所述每天的交通流時間序列進行去趨勢處理;S3 :選取目標檢測點及因果關系備選檢測 點,并分別對所述目標檢測點和所述因果關系備選檢測點進行如所述S2中的預處理,以得 到所述目標檢測點預處理后的交通流時間序列和所述因果關系備選檢測點預處理后的交 通流時間序列;S4 :根據所述目標檢測點預處理后的交通流時間序列和所述因果關系備選 檢測點預處理后的交通流時間序列提取因果關系時間序列;S5 :判斷是否需要對除所述目 標檢測點和因果關系備選檢測點外的剩余檢測點進行因果關系提取,如果是,則返回所述 S3,否則,輸出所述因果關系時間序列。
[0008] 另外,根據本發明上述實施例的基于大量時間序列的交通流因果關系挖掘方法還 可以具有如下附加的技術特征:
[0009] 在一些示例中,在所述步驟S2中,進一步包括:對同一檢測點檢測的連續多天的 交通流數據進行時間聚合及交通流缺失數據補償后為:
[001 0]Ytl -[ytii)yti2> ? ? ? >ytin] > ,YtN- [ytNi,ytN2,...,ytNn],
[0011] 其中,n表示所述檢測點每天的交通流采樣點數;
[0012] 則所述檢測點的交通流趨勢通過如下公式得到:
[0013]
[0014] 去趨勢處理后的交通流時間序列為:
[0015] ^{1 ~ ^1 _^Jierage^tN~ ~^Aiierage ? '9 O
[0016] 在一些示例中,所述步驟S4進一步包括:
[0017] S41 :采用如下公式對所有的交通流時間序列進行預處理:
[0018]
[0019] 其中,表示所述交通流時間序列的標準差,晃表示時間序列{yt} 為所述目標檢測點預處理后的交通流時間序列,{vZ1為剩余的檢測點預處理后的交通流時 間序列,其中j=I,一,
[0020] 求解標準Lasso回歸問題,其中,所述標準Lasso回歸問題描述如下:
[0021]
[0022] 其中,P表示可能存在因果關系的時間序列個數,A是范數懲罰權重,用以決定所 得回歸系數ajP摩的稀疏度;
[0023]S42 :對所述可能存在因果關系的時間序列進行RobustLassoGranger因果關系 模型求解,以選取備選因果關系時間序列,其中,所述RobustLassoGranger因果關系模型 描述如下:
[0024]
[0025] 其中函數H(?)的數學定義如下:
[0026]
[0027] 該函數對殘差值小于m(m>0)的殘差設定為平方懲罰,對于殘差值大于m的殘差則 采用線性懲罰;
[0028]S43 :對得到的所述備選因果關系時間序列進行一對一的Granger-Wald假設檢 驗,以判斷每一個時間序列與目標時間序列間的因果相關性關系,具體包括:
[0029] 分別進行如下兩個回歸分析:
[0032] 其中,{xt}為待驗證的備選因果關系時間序列,L是預測中使用的最大的時間延 遲,l和et,2分別代表以上兩個回歸分析中t時刻的殘差值,aJPbiS相應的回歸系 數,
[0033] 計算統計量GWSin&為:
[0034]
[0035] 其中,<2是殘差序列{et,2}方差的估計值,<,是殘差序列{et,J方差的估計 值,采樣點為t=L+1,…,N),
[0036] 當序列{xj與序列{yj間不存在Granger因果關系成立時,統計量GWSingle將服 從自由度為L的卡方分布,當序列{xj與序列{yt}間不存在Granger因果關系被具有顯著 意義的GWSingl(J/f否定時,則判定序列{xj與序列{yt}間存在Granger因果關系,否貝lj,則 認為兩者不存在Granger因果關系。
[0037] 根據本發明實施例的基于大量時間序列的交通流因果關系挖掘方法,能夠快速、 高效地從大量時間序列中提取與目標時間序列因果相關的因果關系時間序列,提高了后期 交通流預測的精度。另外,該方法中包含的門限策略下的標準Lasso模型及robustLasso Granger因果關系模型在提取因果關系過程中可以有效的抑制交通流數據突變點對因果關 系造成的影響,包含的拆分求解策略及ADMM求解算法在降低運算過程中的硬件消耗、提高 求解速度上有著極大的優勢。
[0038] 本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發明的實踐了解到。
【附圖說明】
[0039] 本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變 得明顯和容易理解,其中:
[0040] 圖1是根據本發明一個實施例的基于大量時間序列的交通流因果關系挖掘方法 的流程圖;
[0041] 圖2是根據本發明一個實施例的因果關系時間序列的提取流程示意圖。
【具體實施方式】
[0042] 下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。
[0043] 以下結合附圖描述根據本發明實施例的基于大量時間序列的交通流因果關系挖 掘方法。
[0044] 圖1是根據本發明一個實施例的基于大量時間序列的交通流因果關系挖掘方法 的流程圖。如圖1所示,該方法包括以下步驟:
[0045] 步驟S1 :獲取待測區域內的多個檢測點(如1000個或2000個等)上連續多天 (如三周或一個月等)的交通流時間序列。
[0046] 步驟S2 :預處理過程,包括:根據需求,對每個檢測點檢測到的每天的交通流時間 序列進行時間聚合,以壓縮生成期望的時間序列,根據期望的時間序列對交通流缺失數據 進行補償,而后對每天的交通流時間序列進行去趨勢處理。
[0047] 具體地說,在本發明的一個實施例中,假設同一檢測點檢測的連續多天的交通流 數據進行時間聚合及交通流缺失數據補償后為:
[0048]Ytl -[ytii)yti2> ? ? ? >ytin] > ,YtN- [ytNi,ytN2,...,ytNn],
[0049] 其中,n表示該檢測點每天的交通流采樣點數,如果將采樣間隔設定為30秒,則有 n= 2880。
[0050] 則該檢測點的交通流趨勢通過如下公式(簡單平均的方法)得到:
[0051]
[0052] 去趨勢處理后的交通流時間序列為:
[0053]
[0054] 步驟S3 :根據需要選取目標檢測點及因果關系備選檢測點,并分別對目標檢測點 和因果關系備選檢測點進行如S2中的預處理,以得到目標檢測點預處理后的交通流時間 序列{yj和因果關系備選檢測點預處理后的交通流時間序列其中j= 1,…,不同的 取值代表不同的時間序列。
[0055] 步驟S4 :根據目標檢測點預處理后的交通流時間序列和因果關系備選檢測點預 處理后的交通流時間序列提取因果關系時間序列。換言之,即該步驟的目的為從大量時間 序列數據中挑選出有限的可能與目標時間序列具備相關性的時間序列。
[0056] 在本發明的一個實施例中,如圖2所示,步驟S4進一步包括:
[0057] 步驟S41:采用如下公式對所有的交通流時間序列進行預處理:
[0058]
[0059] 其中表示交通流時間序列的標準差,卩表示時間序列{yt}、{r/},{yt}為目 標檢測點預處理后的交通流時間序列,為因果關系備選檢測點預處理后的交通流時間 序列,其中j= 1,…;
[0060] 而后,求解一系列的標準Lasso回歸問題(拆分求解策略),以減少求解過程對硬 件資源的要求,對問題進行適當的拆分,以確保每一次求解的標準Lasso回歸問題規模在 普通PC的承受范圍內。其中,標準L