<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種雙足機器人步態控制方法、裝置、存儲介質及設備與流程

文檔序號:37126148發布日期:2024-02-22 21:38閱讀:26來源:國知局
一種雙足機器人步態控制方法、裝置、存儲介質及設備與流程

本技術涉及機器人,尤其涉及一種雙足機器人步態控制方法、裝置、存儲介質及設備。


背景技術:

1、雙足機器人指的是一種模仿人類結構特征的機器人,它的最終目標是實現與人類相似的運動行為,相較于四足、多足機器人,能夠更好地適應人類環境,具備更加廣泛的應用場景。然而雙足機器人具有更加復雜的非線性動力學和更高的自由度,所以實現雙足機器人的穩定動態行走和靜態站立是一項更具挑戰性的工作。

2、目前,常用的雙足機器人步態控制方法通常是采用運動參考軌跡作為步態先驗引導策略網絡模仿學習相似步態的方法,但這種方法增加了額外的數據收集成本和計算代價,且該方法訓練得到的策略網絡生成的步態魯棒性和抗干擾性較差。并且,這種方法通常是針對特定任務學習特定步態,很少考慮同時學習多種步態,這導致生成的步態只能用于特定任務,對環境適應性較差。以及對于雙足機器人來說,由于其支撐域較小,靜態穩定站立是一項極具挑戰性的難題。而現有控制方法大都采用動態平衡,很難實現完全靜態站立,因此,現有的雙足機器人步態控制效果較差,無法實現雙足機器人的靜態穩定站立和動態行走的平滑切換。


技術實現思路

1、本技術實施例的主要目的在于提供一種雙足機器人步態控制方法、裝置、存儲介質及設備,能夠實現雙足機器人的靜態穩定站立和動態行走的平滑切換,有效提高雙足機器人的步態控制效果。

2、本技術實施例提供了一種雙足機器人步態控制方法,包括:

3、獲取目標雙足機器人的本體信息;并響應于用戶對所述目標雙足機器人的觸發操作,生成所述用戶輸入的任務標簽和速度指令;

4、將所述目標雙足機器人的本體信息、任務標簽和速度指令輸入至預先構建的步態控制模型,預測得到所述目標雙足機器人的步態動作軌跡;所述步態控制模型是利用已訓練好的靜態站立模型和動態行走模型以及仿真本體信息和速度指令,通過深度強化學習和模仿學習聯合訓練的方式訓練得到的策略網絡模型;

5、利用預測得到的所述目標雙足機器人的步態動作軌跡,對所述目標雙足機器人進行步態運動控制,以實現所述目標雙足機器人各種步態間的平穩切換。

6、一種可能的實現方式中,所述目標雙足機器人的本體信息包括目標雙足機器人當前狀態的關節位置、關節速度、機身姿態、當前狀態上一周期的期望位置、以及當前狀態的步態相位向量。

7、一種可能的實現方式中,所述步態控制模型的構建方式如下:

8、獲取仿真雙足機器人的第一本體信息、第一速度指令和訓練任務標簽;并將所述第一本體信息和第一速度指令輸入所述已訓練好的靜態站立模型和動態行走模型,得到第一期望動作和第二期望動作;以及根據所述訓練任務標簽,從所述第一期望動作和第二期望動作中選擇出目標期望動作;

9、將所述第一本體信息、第一速度指令和訓練任務標簽輸入初始步態控制模型,得到預測動作;并根據所述目標期望動作和所述預測動作,利用目標損失約束函數,對初始步態控制模型進行深度強化學習和模仿學習聯合訓練,得到所述步態控制模型;所述目標損失約束函數包含強化學習損失函數和模仿學習損失函數。

10、一種可能的實現方式中,所述初始步態控制模型為由三層前饋神經網絡組成的策略網絡模型。

11、一種可能的實現方式中,所述靜態站立模型和動態行走模型構建方式如下:

12、獲取仿真雙足機器人的第二本體信息和第二速度指令;并將所述第二本體信息和第二速度指令分別共同輸入初始靜態站立模型和初始動態行走模型,得到預測靜態動作和預測動態動作;

13、利用所述預測靜態動作和預測動態動作以及第一預設獎勵函數,分別對初始靜態站立模型和初始動態行走模型進行訓練,得到所述靜態站立模型和動態行走模型。

14、一種可能的實現方式中,所述利用所述預測靜態動作和預測動態動作以及第一預設獎勵函數,分別對初始靜態站立模型和初始動態行走模型進行訓練,得到所述靜態站立模型和動態行走模型,包括:

15、根據所述預測靜態動作和預測動態動作,計算所述第一預設獎勵函數的取值,并利用所述第一預設獎勵函數的取值,分別對初始靜態站立模型和初始動態行走模型進行訓練,得到所述靜態站立模型和動態行走模型;

16、所述第一預設獎勵函數包括線速度跟蹤獎勵函數、角速度跟蹤獎勵函數、關節加速度懲罰函數、關節力矩懲罰函數、關節極限位置懲罰函數、關節極限力矩懲罰函數、慣性測量單元imu姿態懲罰函數、機身橫滾和俯仰運動懲罰函數、動作平滑項函數、能耗懲罰函數、雙足雙膝間距約束函數、雙足雙膝雙髖與機身朝向的一致性約束函數、碰撞懲罰函數中的至少一個;

17、所述關節加速度懲罰函數、關節力矩懲罰函數、關節極限位置懲罰、關節極限力矩懲罰函數、imu姿態懲罰函數、機身橫滾和俯仰運動懲罰函數、動作平滑項函數、能耗懲罰函數、以及碰撞懲罰函數,用于幫助靜態站立模型學習平滑柔順低能耗且對硬件友好的步態的獎勵;

18、所述雙足雙膝間距約束函數、雙足雙膝雙髖與機身朝向的一致性約束函數,用于幫助動態行走模型學習訓練任務對應的平穩步態的獎勵。

19、一種可能的實現方式中,所述根據所述目標期望動作和所述預測動作,利用目標損失約束函數,對初始步態控制模型進行深度強化學習和模仿學習聯合訓練,得到所述步態控制模型,包括:

20、根據所述目標期望動作和所述預測動作,計算所述強化學習損失函數和模仿學習損失函數,用以構成所述目標損失約束函數的取值;并利用所述目標損失約束函數的取值,對初始步態控制模型進行深度強化學習和模仿學習聯合訓練,得到所述步態控制模型;

21、所述強化學習損失函數的取值是根據所述第一預設獎勵函數、第二預設獎勵函數和第三預設獎勵函數確定的;所述第二預設獎勵函數包括關節模仿區分性獎勵函數和關節角速度懲罰區分性獎勵函數;所述第三預設獎勵函數包括足抬高度跟蹤區分性獎勵函數和膝關節位置跟蹤區分性獎勵函數;所述第二預設獎勵函數用于鼓勵所述步態控制模型模仿學習預設的穩定的靜態站姿;所述第三預設獎勵函數用于獎勵所述步態控制模型實現對美觀對稱平穩行走步態的學習。

22、一種可能的實現方式中,所述方法還包括:

23、判斷所述目標雙足機器人是否處于雙足支撐相內;

24、若是,則對所述任務標簽進行修改,并利用修改后的任務標簽重新預測得到所述目標雙足機器人的步態動作軌跡,以便利用重新預測得到的步態動作軌跡對所述目標雙足機器人進行步態運動控制,以實現所述目標雙足機器人步態的平穩切換。

25、本技術實施例還提供了一種雙足機器人步態控制裝置,包括:

26、第一獲取單元,用于獲取目標雙足機器人的本體信息;并響應于目標用戶對所述目標雙足機器人的觸發操作,生成所述用戶輸入的任務標簽和速度指令;

27、預測單元,用于將所述目標雙足機器人的本體信息、任務標簽和速度指令輸入至預先構建的步態控制模型,預測得到所述目標雙足機器人的步態動作軌跡;所述步態控制模型是利用已訓練好的靜態站立模型和動態行走模型以及仿真本體信息和速度指令,通過深度強化學習和模仿學習聯合訓練的方式訓練得到的策略網絡模型;

28、控制單元,用于利用預測得到的所述目標雙足機器人的步態動作軌跡,對所述目標雙足機器人進行步態運動控制,以實現所述目標雙足機器人各種步態間的平穩切換。

29、一種可能的實現方式中,所述目標雙足機器人的本體信息包括目標雙足機器人當前狀態的關節位置、關節速度、機身姿態、當前狀態上一周期的期望位置、以及當前狀態的步態相位向量。

30、一種可能的實現方式中,所述裝置還包括:

31、第二獲取單元,用于獲取仿真雙足機器人的第一本體信息、第一速度指令和訓練任務標簽;并將所述第一本體信息和第一速度指令輸入所述已訓練好的靜態站立模型和動態行走模型,得到第一期望動作和第二期望動作;以及根據所述訓練任務標簽,從所述第一期望動作和第二期望動作中選擇出目標期望動作;

32、第一訓練單元,用于將所述第一本體信息、第一速度指令和訓練任務標簽輸入初始步態控制模型,得到預測動作;并根據所述目標期望動作和所述預測動作,利用目標損失約束函數,對初始步態控制模型進行深度強化學習和模仿學習聯合訓練,得到所述步態控制模型;所述目標損失約束函數包含強化學習損失函數和模仿學習損失函數。

33、一種可能的實現方式中,所述初始步態控制模型為由三層前饋神經網絡組成的策略網絡模型。

34、一種可能的實現方式中,所述裝置還包括:

35、第三獲取單元,用于獲取仿真雙足機器人的第二本體信息和第二速度指令;并將所述第二本體信息和第二速度指令分別共同輸入初始靜態站立模型和初始動態行走模型,得到預測靜態動作和預測動態動作;

36、第二訓練單元,用于利用所述預測靜態動作和預測動態動作以及第一預設獎勵函數,分別對初始靜態站立模型和初始動態行走模型進行訓練,得到所述靜態站立模型和動態行走模型。

37、一種可能的實現方式中,所述第二訓練單元具體用于:

38、根據所述預測靜態動作和預測動態動作,計算所述第一預設獎勵函數的取值,并利用所述第一預設獎勵函數的取值,分別對初始靜態站立模型和初始動態行走模型進行訓練,得到所述靜態站立模型和動態行走模型;

39、所述第一預設獎勵函數包括線速度跟蹤獎勵函數、角速度跟蹤獎勵函數、關節加速度懲罰函數、關節力矩懲罰函數、關節極限位置懲罰函數、關節極限力矩懲罰函數、慣性測量單元imu姿態懲罰函數、機身橫滾和俯仰運動懲罰函數、動作平滑項函數、能耗懲罰函數、雙足雙膝間距約束函數、雙足雙膝雙髖與機身朝向的一致性約束函數、碰撞懲罰函數中的至少一個;

40、所述關節加速度懲罰函數、關節力矩懲罰函數、關節極限位置懲罰、關節極限力矩懲罰函數、imu姿態懲罰函數、機身橫滾和俯仰運動懲罰函數、動作平滑項函數、能耗懲罰函數、以及碰撞懲罰函數,用于幫助靜態站立模型學習平滑柔順低能耗且對硬件友好的步態的獎勵;

41、所述雙足雙膝間距約束函數、雙足雙膝雙髖與機身朝向的一致性約束函數,用于幫助動態行走模型學習訓練任務對應的平穩步態的獎勵。

42、一種可能的實現方式中,所述第一訓練單元具體用于:

43、根據所述目標期望動作和所述預測動作,計算所述強化學習損失函數和模仿學習損失函數,用以構成所述目標損失約束函數的取值;并利用所述目標損失約束函數的取值,對初始步態控制模型進行深度強化學習和模仿學習聯合訓練,得到所述步態控制模型;

44、所述強化學習損失函數的取值是根據所述第一預設獎勵函數、第二預設獎勵函數和第三預設獎勵函數確定的;所述第二預設獎勵函數包括關節模仿區分性獎勵函數和關節角速度懲罰區分性獎勵函數;所述第三預設獎勵函數包括足抬高度跟蹤區分性獎勵函數和膝關節位置跟蹤區分性獎勵函數;所述第二預設獎勵函數用于鼓勵所述步態控制模型模仿學習預設的穩定的靜態站姿;所述第三預設獎勵函數用于獎勵所述步態控制模型實現對美觀對稱平穩行走步態的學習。

45、一種可能的實現方式中,所述裝置還包括:

46、判斷單元,用于判斷所述目標雙足機器人是否處于雙足支撐相內;若是,則對所述任務標簽進行修改,并利用修改后的任務標簽重新預測得到的所述目標雙足機器人的步態動作軌跡,以便利用重新預測得到的步態動作軌跡對所述目標雙足機器人進行步態運動控制,以實現所述目標雙足機器人步態的平穩切換。

47、本技術實施例還提供了一種雙足機器人步態控制設備,包括:處理器、存儲器、系統總線;

48、所述處理器以及所述存儲器通過所述系統總線相連;

49、所述存儲器用于存儲一個或多個程序,所述一個或多個程序包括指令,所述指令當被所述處理器執行時使所述處理器執行上述雙足機器人步態控制方法中的任意一種實現方式。

50、本技術實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當所述指令在終端設備上運行時,使得所述終端設備執行上述雙足機器人步態控制方法中的任意一種實現方式。

51、本技術實施例還提供了一種計算機程序產品,所述計算機程序產品在終端設備上運行時,使得所述終端設備執行上述雙足機器人步態控制方法中的任意一種實現方式。

52、本技術實施例提供的一種雙足機器人步態控制方法、裝置、存儲介質及設備,首先獲取目標雙足機器人的本體信息;并響應于目標用戶對目標雙足機器人的觸發操作,生成用戶輸入的任務標簽和速度指令,然后再將目標雙足機器人的本體信息、任務標簽和速度指令輸入至預先構建的步態控制模型,預測得到目標雙足機器人的步態動作軌跡;其中,步態控制模型是利用已訓練好的靜態站立模型和動態行走模型以及仿真本體信息和速度指令,通過深度強化學習和模仿學習聯合訓練的方式訓練得到的策略網絡模型;接著,可以利用預測得到的目標雙足機器人的步態動作軌跡,對目標雙足機器人進行步態運動控制,以實現目標雙足機器人各種步態間的平穩切換。可見,由于本技術是在未引入任何參考步態先驗信息的情況下,僅利用雙足機器人的仿真本體信息,通過深度強化學習和模仿學習聯合訓練的方式訓練得到了步態控制模型,從而保證了該步態控制模型能夠實現對多樣步態動作軌跡的控制生成,進而用以控制目標雙足機器人各種步態間的平穩切換,有效提高了目標雙足機器人的步態控制效果。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影