本發明涉及自動駕駛,尤其涉及一種基于神經進化博弈的自動駕駛系統極端環境決策方法。
背景技術:
1、隨著自動駕駛技術的發展,車輛在不同環境下的自主決策能力成為提升自動駕駛安全性和駕駛體驗的關鍵,在復雜極端環境下自動駕駛系統的決策過程面臨嚴峻挑戰,現有的自動駕駛決策方法主要依賴于傳感器數據和環境模型,通過預定義的規則或基于傳統的機器學習方法來進行環境感知和決策,雖然在一些常規駕駛場景中取得了一定的成功,但在極端環境下其性能和適應性存在顯著的不足。
2、現有技術中的一種常見方法是基于感知算法和簡單規則的自動駕駛決策系統,自動駕駛決策系統通常采用傳統的傳感器輸入進行環境感知,然后基于固定的規則或模型做出駕駛決策,在常規環境下能夠有效地完成任務,但在復雜和極端環境下系統往往會面臨較大的局限性,在大霧、暴雨或雪天低能見度環境中傳感器的識別精度會受到嚴重影響,導致環境感知不準確,同時,基于規則的決策方法難以在動態變化的復雜環境中做出及時、靈活的反應容易造成決策滯后或不安全的行為。
3、另一類自動駕駛決策方法基于深度學習和神經網絡模型,通過大量數據訓練來學習復雜環境中的駕駛策略,盡管神經網絡可以在一定程度上提升決策精度,但現有的神經網絡模型大多是基于靜態訓練的,缺乏動態調整機制,當車輛進入不同的極端環境時,傳統的神經網絡模型往往無法有效調整其策略,以應對新的環境變化,雖然可以在特定情境下提供較為精確的決策,但它們缺乏對復雜多變的環境適應性和實時優化能力且對于極端環境的感知與決策仍顯得不夠靈活和可靠。
4、因此,現有自動駕駛技術的缺點主要包括:首先,傳統的感知與決策方法在極端環境下的適應性較差,無法有效應對復雜的環境變化;其次,現有基于深度學習的決策方法缺乏針對極端環境的動態調整機制,無法實時優化決策策略;最后,現有技術忽略了多方動態交互關系的建模,缺乏對車輛、行人及障礙物行為的有效預測和綜合優化。
技術實現思路
1、本發明的一個目的在于提出一種基于神經進化博弈的自動駕駛系統極端環境決策方法,本發明在極端環境下自動駕駛系統能夠做出更加安全、準確和高效的駕駛決策。
2、根據本發明實施例的一種基于神經進化博弈的自動駕駛系統極端環境決策方法,包括如下步驟:
3、s1、通過自動駕駛系統采集并構建車輛周圍的實時環境數據集,獲取天氣數據、路況數據和障礙物位置數據;
4、s2、將實時環境數據集輸入至數據處理單元進行數據清洗、噪聲過濾和特征提取,得到環境特征數據,并根據環境特征數據提取不同風險等級的潛在障礙物信息,生成環境特征向量;
5、s3、基于環境特征向量,通過極端環境識別模塊對所述環境特征數據進行分析,確定車輛所處的環境是否屬于預定義的極端環境類型,極端環境類型包括雨雪天氣、大霧天氣、低能見度和山地復雜路況;若識別為極端環境,則輸出極端環境標簽至神經進化模塊,觸發不同的多目標動態獎勵機制;
6、s4、基于極端環境標簽激活對應的多目標動態獎勵機制,為神經進化過程設定動態獎勵權重,所述獎勵權重根據不同極端環境類型設置不同的決策優先級,以優先強化在該特定極端環境下的最優適應性策略;
7、s5、在多目標動態獎勵機制的引導下,通過神經進化模型對決策優化模型進行選擇、變異和重組操作,逐步進化生成適應不同極端環境的最優神經網絡結構和參數配置;
8、s6、基于最優神經網絡結構,引入博弈論模型,構建多因素綜合優化的決策模型,博弈論模型通過模擬車輛、行人及動態障礙物的交互關系建立在復雜極端環境中的多方行為預測模型,并結合環境特征向量生成多目標博弈策略;
9、s7、利用多目標博弈策略,多目標博弈策略根據實時環境數據和預測行為生成最優的行駛路徑、車速調整、避障方式及方向控制決策;
10、s8、在實際行駛過程中,系統將多目標博弈策略執行反饋數據,包括車輛執行結果、環境變化及潛在新風險信息,通過實時反饋數據輸入至神經進化模型,進一步調整神經網絡的結構和參數配置。
11、可選的,所述s1步驟具體包括:
12、s11、利用自動駕駛系統中視覺攝像頭采集用于檢測環境中視覺信息的實時圖像數據dv,利用自動駕駛系統中激光雷達采集用于生成三維空間中障礙物信息的點云數據dl,利用自動駕駛系統中毫米波雷達采集用于識別動態物體的目標距離與速度信息dm,利用自動駕駛系統中超聲波傳感器采集用于檢測低速或靜止狀態下障礙物的近距離障礙物數據du,將所有傳感器數據組成初始環境數據集
13、s12、對初始環境數據集進行時間序列標定,結合采樣時間t對數據進行同步處理,得到時間對齊的環境數據序列denv(t);
14、s13、基于環境數據序列denv(t)的數據格式,將數據分解為三類特征信息:天氣數據dweather(t)、路況數據droad(t)和障礙物位置數據dobs(t),并構建實時環境數據集
15、
16、其中,f為多模態數據融合與特征提取函數。
17、可選的,所述s2步驟具體包括:
18、s21、將實時環境數據集輸入至數據處理單元,執行數據清洗處理,通過移除異常值和修正采樣誤差,生成清洗后的環境數據集dclean(t);
19、s22、對清洗后的環境數據集dclean(t)進行噪聲過濾處理,使用多模態數據聯合噪聲過濾算法分別針對天氣數據、路況數據和障礙物位置數據的特定噪聲特性進行處理,生成噪聲過濾后的環境數據集dfiltered(t);
20、s23、對噪聲過濾后的環境數據集dfiltered(t)進行特征提取,通過特征提取算法提取天氣特征fweather(t)、路況特征froad(t)和障礙物特征fobs(t),生成環境特征向量venv(t):
21、venv(t)={fweather(t),froad(t),fobs(t)}。
22、可選的,所述s3步驟具體包括:
23、s31、將環境特征向量venv(t)輸入至極端環境識別模塊,對天氣特征、路況特征和障礙物特征進行分析,針對每個預定義的極端環境類型ei計算各特征與極端環境類型ei的匹配度得分:
24、計算天氣特征匹配度得分
25、
26、其中,為在時間t采集的第k個天氣特征指標,影響自動駕駛系統在極端天氣條件下的感知和決策能力,為將第k個天氣特征指標映射為針對極端環境類型的匹配得分的特征映射函數,對于極端環境類型為大霧天氣映射函數在能見度低時輸出高匹配得分,為第k個天氣特征指標在極端環境類型ei中的重要程度權重;
27、計算路況特征匹配度得分
28、
29、其中,為在時間t采集的第l個路況特征指標,影響車輛的行駛穩定性和操控性能,為將第l個路況特征指標映射為針對極端環境類型的匹配得分的特征映射函數,對于山地復雜路況道路坡度特征在坡度陡峭時輸出高匹配得分,為第l個路況特征指標在極端環境類型ei中的重要程度權重;
30、計算障礙物特征匹配度得分
31、
32、其中,為在時間t采集的第m個障礙物特征指標,影響車輛的避障策略和安全性,為將第m個障礙物特征指標映射為針對極端環境類型的匹配得分的特征映射函數,對于低能見度環境障礙物密度特征在障礙物密集時輸出高匹配得分,為第m個障礙物特征指標在極端環境類型ei中的重要程度權重;
33、s32、基于各特征匹配度得分,計算極端環境類型ei的綜合匹配得分mi(t):
34、
35、其中,αi、βi、γi為極端環境類型ei下的全局權重系數,反映天氣特征、路況特征和障礙物特征在識別極端環境類型時的重要性;
36、s33、將綜合匹配得分mi(t)與預設的極端環境識別閾值ti進行比較,若mi(t)≥ti,則判定當前環境屬于極端環境類型ei,生成極端環境標簽l(t):
37、l(t)={ei∣mi(t)≥ti};
38、其中,l(t)為在時間t識別出的極端環境類型集合,包含所有滿足條件的極端環境類型,ti為極端環境類型的識別閾值,預先根據實驗和經驗設定。
39、可選的,所述s4步驟具體包括:
40、s41、根據在s3步驟中識別得到的極端環境標簽l(t)激活對應的多目標動態獎勵機制,為神經進化過程設定動態獎勵權重wireward(t),其中i表示第i種極端環境類型;
41、s42、在雨雪天氣環境下erain∈l(t),設定針對穩定行駛和剎車距離的獎勵權重為高:
42、
43、其中,v(t)為車輛在時間t的實際速度,vsafe為雨雪天氣下的安全行駛速度,根據道路濕滑程度和降雨強度動態調整,σv為速度偏差容忍度,表示速度穩定性的容許范圍,dbrake(t)為車輛在時間t的實際剎車距離,dideal為雨雪天氣下理想的剎車距離,σd為剎車距離偏差容忍度,η1、η2為獎勵權重系數,分別反映穩定行駛和剎車距離在雨雪天氣下的重要性;
44、s43、在大霧天氣環境下efog∈l(t),設定針對避障能力的獎勵權重為高:
45、
46、其中,dobs(t)為車輛在時間t與前方障礙物的距離,dcritical為大霧天氣下的臨界避障距離,λ1為距離敏感系數,控制避障獎勵隨距離變化的速率,tresponse為車輛在時間t的避障反應時間,反映系統的敏捷性,toptimal為大霧天氣下的最優避障反應時間,σt為反應時間偏差容忍度,表示避障反應速度的要求,θ1、θ2為獎勵權重系數;
47、s44、在低能見度的夜間環境下enight∈l(t),設定對物體識別精準度和反應速度的獎勵權重為高:
48、
49、其中,ncorrect(t)為車輛在時間t正確識別的物體數量,ntotal(t)為環境中實際存在的物體總數量,表示物體識別精準度的指數加權,γ1為調節指數,tdecision為車輛在時間t做出駕駛決策的時間,tideal為夜間環境下理想的決策反應時間,στ為決策時間偏差容忍度,κ1、κ2為獎勵權重系數,反映物體識別精準度和反應速度在低能見度環境下的重要性;
50、s45、在山地復雜路況環境下emountain∈l(t),優先賦予實時路徑規劃和障礙物避讓的獎勵權重為高:
51、
52、其中,cpath(t)為車輛在時間t規劃路徑的曲率變化率總和,δ1為路徑復雜度敏感系數,ncollision(t)車輛在時間t避障過程中發生的碰撞次數,nattempts(t)為車輛嘗試避障的總次數,表示避障成功率的指數加權,β1為調節指數,ξ1、ξ2為獎勵權重系數,分別反映路徑規劃和障礙物避讓在山地復雜路況下的重要性。
53、可選的,所述s6步驟具體包括:
54、s61、基于在s5步驟中生成的最優神經網絡結構n(t)和環境特征向量venv(t),結合極端環境標簽l(t)和動態對象狀態,建立多方博弈環境模型,其中動態對象包括車輛a、行人p和其他動態障礙物o;
55、s62、構建博弈模型的狀態空間s(t)、動作空間a(t)和收益函數u(t);
56、s63、基于多方博弈環境模型建立行為預測模型,計算各博弈參與方的最優策略πa(t),πp(t),πo(t):
57、
58、其中,分別為車輛a、行人p和障礙物o的最優策略,up(t和uo(t)為行人和障礙物的收益函數;
59、s64、將博弈模型生成的最優策略輸出至決策模塊,結合實時環境特征數據生成多目標優化的駕駛決策,包括速度調整、方向控制和路徑選擇。
60、本發明的有益效果是:
61、(1)本發明引入了基于極端環境標簽的動態獎勵機制,動態獎勵機制能夠根據不同的極端環境類型(雨雪天氣、大霧、夜間、山地復雜路況)自適應調整獎勵權重,通過對特定環境條件下的駕駛策略進行針對性強化,本發明能夠顯著提升自動駕駛系統在復雜環境下的決策精度和靈活性,在雨雪天氣中系統對穩定行駛和剎車距離設定了較高的獎勵權重,在大霧天氣中系統則優先強化避障能力,從而有效提升了系統的環境適應性和安全性,與傳統基于固定規則或簡單機器學習模型的決策方法相比,本發明的動態獎勵機制能夠實時根據環境變化調整決策策略,確保在極端環境下自動駕駛系統能夠做出更加安全、準確和高效的駕駛決策。
62、(2)本發明通過結合博弈論模型構建了一個多因素綜合優化的決策模型,模擬車輛、行人以及動態障礙物的交互關系。,博弈論模型不僅能夠處理復雜的動態交互行為,還能根據環境特征向量生成多目標博弈策略,實現了對多個行為體之間的互動關系的精準預測與優化,在傳統的自動駕駛系統中往往忽略了這些多方動態交互的復雜性,導致在動態環境下的決策不夠準確或存在風險,通過引入博弈論模型能夠有效解決這一問題,使得車輛在面對多方動態行為時能夠根據實時的環境變化做出更為精準的預測和決策,大大提升了自動駕駛系統在復雜場景下的智能化水平和可靠性。
63、(3)本發明采用了神經進化博弈算法,通過引入多目標優化的神經網絡結構針對極端環境下的駕駛決策進行自適應調整,與傳統的深度學習方法不同,本發明在神經進化過程中引入了多目標的動態獎勵機制,并結合環境特征進行實時權重調整,優化了神經網絡的結構和決策能力,能夠根據環境變化動態調整決策策略,使得系統在處理復雜多變的極端環境時不僅能夠快速適應并做出精準決策,還能有效避免傳統模型在環境變化時的過擬合或欠擬合問題。