<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

基于模糊規則的飛行任務數據獲取方法、裝置及設備

文檔序號:34656324發布日期:2023-06-30 00:58閱讀:65來源:國知局
基于模糊規則的飛行任務數據獲取方法、裝置及設備

本技術涉及無人機飛行任務數據處理,特別是涉及一種基于模糊規則的飛行任務數據獲取方法、裝置及設備。


背景技術:

1、隨著無人機飛行任務數據處理技術領域的發展,出現了近端優化策略(proximalpolicy?optimization)ppo算法,無人機通過獲取和分析數據采用ppo算法來完成任務目標的執行動作策略分析,隨著其在軍事、民用、科研等領域的廣泛應用,對其性能和效率的要求也越來越高。無人機的飛行控制和路徑規劃等飛行任務是無人機性能和效率的重要體現,因此需要引入更加先進的數據處理方法來獲取無人機的飛行任務數據。目前,無人機飛行任務數據的獲取方法主要包括pid控制、模糊控制、神經網絡控制、遺傳算法等。雖然這些方法在一定程度上可以滿足無人機的飛行任務需求,但是也存在一些問題,例如,pid控制方法的參數需要手動調整,難以適應復雜多變的環境,數據獲取過程的靈活度較差;模糊控制方法需要建立大量的規則庫,難以實現自主學習,獲取的飛行任務數據精度較差;神經網絡控制方法需要大量的訓練數據,訓練時間長,飛行任務數據的處理對硬件要求較高;遺傳算法方法需要大量的計算資源,計算效率低下。近年來,深度強化學習算法在無人機控制和規劃領域得到了廣泛應用。其中,ppo算法是一種較為先進的深度強化學習算法,具有訓練效率高、收斂速度快等優點,被廣泛應用于無人機飛行任務數據獲取與飛行狀態控制中。

2、然而,目前ppo算法采用基于采樣的策略優化方法,需要大量的采樣數據來訓練模型,在無人機任務執行中,采樣數據的獲取需要進行實際飛行測試或者仿真模擬,這需要消耗大量的時間和資源。因此,ppo算法的深度強化學習采樣效率低可能會導致訓練時間長、計算資源消耗大等問題,限制了ppo算法在無人機任務執行中的應用,其次在無人機任務執行中,需要考慮多種復雜的環境因素,如天氣、地形、風力等,這些因素可能會導致無人機的性能和效率發生變化,ppo算法需要進行大量的環境探索來學習適應不同的環境因素,這可能會增加算法的訓練難度和時間,并且由于無人機任務執行需要高度精準的控制和規劃,這就導致ppo算法在進行大量訓練的時候,學習進程相對緩慢,對于無人機任務執行方面,ppo算法存在采樣效率低、環境探索量大以及學習進程緩慢等缺陷,導致飛行任務數據的獲取精度較差,硬件消耗較大。


技術實現思路

1、基于此,有必要針對上述技術問題,提供一種能夠改善上述ppo算法處理無人機飛行任務數據時的缺陷的基于模糊規則的飛行任務數據獲取方法、裝置及設備。

2、一種基于模糊規則的飛行任務數據獲取方法,所述方法包括:

3、獲取無人機飛行任務的狀態觀測值,將狀態觀測值輸入模糊策略網絡。模糊策略網絡包括:知識推理模塊、策略網絡以及價值網絡。

4、通過知識推理模塊對狀態觀測值進行處理,輸出執行無人機飛行任務的動作偏好向量,基于動作偏好向量獲取第一權重值。

5、將狀態觀測值與動作偏好向量通過處理器加載并輸入策略網絡中,輸出無人機飛行任務的動作概率向量,基于動作概率向量獲取第二權重值。

6、根據第一權重值與第二權重值確定無人機飛行任務的執行動作,并將飛行任務決策過程存入存儲器。

7、從存儲器中提取飛行任務決策過程,并分別輸入至策略網絡與價值網絡,通過策略網絡與價值網絡共同進行模糊策略網絡的參數更新,得到真實的飛行任務數據。

8、在其中一個實施例中,還包括:通過無人機傳感器獲取無人機飛行任務的狀態觀測值,將狀態觀測值分別輸入處理器的模糊策略網絡中的知識推理模塊與策略網絡。

9、在其中一個實施例中,知識推理模塊包括:隸屬度函數網絡與模糊規則。隸屬度函數網絡包括模糊化層、模糊推理層以及去模糊化層。還包括:知識推理模塊通過無人機飛行環境獲取狀態觀測值,將狀態觀測值輸入至處理器的隸屬度函數網絡獲取前提條件真值,根據前提條件真值與模糊規則計算連接算子。根據連接算子輸出執行無人機飛行任務的動作偏好向量,基于動作偏好向量獲取第一權重值。

10、在其中一個實施例中,還包括:將狀態觀測值與動作偏好向量通過處理器加載并輸入策略網絡中,根據模糊策略網絡的參數構建動作偏好向量的最大化目標函數。根據最大化目標函數輸出無人機飛行任務的動作概率向量,基于動作概率向量獲取第二權重值。

11、在其中一個實施例中,還包括:根據第一權重值與第二權重值確定無人機飛行任務的執行動作:

12、;

13、其中,為無人機飛行任務的執行動作,、分別為第一權重值與第二權重值,,為動作偏好向量,為動作概率向量,為銳化動作分布的參數。將執行動作與執行動作對應的飛行任務決策過程存入存儲器。飛行任務決策過程包括:當前時刻狀態觀測值、當前時刻狀態觀測值對應的當前時刻執行動作、當前時刻執行動作的獎勵值以及下一時刻的狀態觀測值。

14、在其中一個實施例中,還包括:從存儲器中提取飛行任務決策過程,并分別輸入至處理器的策略網絡與價值網絡,通過價值網絡輸出策略網絡的優勢函數與價值網絡的價值函數。根據優勢函數計算目標函數更新策略網絡,并更新知識推理模塊,以及價值函數更新價值網絡。根據更新后的知識推理模塊、策略網絡以及價值網絡進行模糊策略網絡的參數更新,得到真實的飛行任務數據。

15、在其中一個實施例中,還包括:策略網絡的優化器根據更新后的模糊策略網絡與更新前的模糊策略網絡重構最大化目標函數,將重構最大化目標函數輸入至知識推理模塊進行更新。

16、在其中一個實施例中,還包括:根據當前時刻期望值與下一時刻期望值生成均方誤差,通過均方誤差更新價值函數,根據更新后的價值函數更新價值網絡。

17、一種基于模糊規則的飛行任務數據獲取裝置,所述裝置包括:

18、狀態獲取模塊,用于獲取無人機飛行任務的狀態觀測值,將狀態觀測值輸入處理器的模糊策略網絡。模糊策略網絡包括:知識推理模塊、策略網絡以及價值網絡。

19、第一權重值獲取模塊,用于通過知識推理模塊對狀態觀測值進行處理,輸出執行無人機飛行任務的動作偏好向量,基于動作偏好向量獲取第一權重值。

20、第二權重值獲取模塊,用于將狀態觀測值與動作偏好向量通過處理器加載并輸入策略網絡中,輸出無人機飛行任務的動作概率向量,基于動作概率向量獲取第二權重值。

21、存儲模塊,用于根據第一權重值與第二權重值確定無人機飛行任務的執行動作,并將飛行任務決策過程存入存儲器。

22、任務數據獲取模塊,用于用于從存儲器中提取飛行任務決策過程,并分別輸入至策略網絡與價值網絡,通過策略網絡與價值網絡共同進行模糊策略網絡的參數更新,得到真實的飛行任務數據。

23、一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:

24、獲取無人機飛行任務的狀態觀測值,將狀態觀測值輸入處理器的模糊策略網絡。模糊策略網絡包括:知識推理模塊、策略網絡以及價值網絡。

25、通過知識推理模塊對狀態觀測值進行處理,輸出執行無人機飛行任務的動作偏好向量,基于動作偏好向量獲取第一權重值。

26、將狀態觀測值與動作偏好向量通過處理器加載并輸入策略網絡中,輸出無人機飛行任務的動作概率向量,基于動作概率向量獲取第二權重值。

27、根據第一權重值與第二權重值確定無人機飛行任務的執行動作,并將飛行任務決策過程存入存儲器。

28、從存儲器中提取飛行任務決策過程,并分別輸入至策略網絡與價值網絡,通過策略網絡與價值網絡共同進行模糊策略網絡的參數更新,得到真實的飛行任務數據。

29、上述基于模糊規則的飛行任務數據獲取方法、裝置及設備,通過獲取無人機飛行任務的狀態觀測值,將狀態觀測值輸入處理器的模糊策略網絡,通過知識推理模塊預處理狀態觀測值,為模糊策略網絡提供先驗知識信息,可以提高處理器對環境的理解,從而提高采樣率和學習進程,與此同時,基于動作偏好向量獲取第一權重值,可以激勵處理器更好的學習無人機飛行任務執行策略,加之,策略網絡可以自動學習最優動作概率向量,因此通過第二權重值來調整策略,可以提高處理器通過模糊策略網絡對無人機飛行任務的探索量,并將歷史決策過程和當下決策過程均儲存至存儲器,使得處理器在模糊策略網絡中利用學習到的以前的經驗知識,應用到以后的無人機飛行任務動作的決策中,結合策略網絡和價值網絡進行參數更新,策略網絡和價值網絡會因參數變化小而變得更加穩定、更好地收斂,可以更好的調整模糊策略網絡,從而可以時時獲取更高精度、更準確的無人機飛行任務數據。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影