導讀 加州大學伯克利分校的一個機器人專家團隊報告稱,通過使用模擬到真實的強化學習來訓練機器人,可以訓練機器人完成相對簡單的任務。在他們發(fā)...
加州大學伯克利分校的一個機器人專家團隊報告稱,通過使用模擬到真實的強化學習來訓練機器人,可以訓練機器人完成相對簡單的任務。在他們發(fā)表在《科學機器人》雜志上的研究中,該小組訓練了一個機器人在陌生的環(huán)境中行走,同時它攜帶不同的負載,并且完全沒有翻倒。
在過去的幾年里,機器人專家使用了多種技術來訓練機器人在不同的環(huán)境中高效、快速地移動。但正如這項新研究的研究人員指出的那樣,此類機器人并沒有太多有用的應用。他們認為,能夠以緩慢但高效的方式執(zhí)行日常任務的機器人會更有用。為此,他們轉向了模擬到真實的強化學習。
該技術涉及通過在模擬環(huán)境中暴露于數(shù)十億個示例來訓練機器人的模擬版本來執(zhí)行所需的任務。該方法還涉及使用獎勵/懲罰系統(tǒng)作為機器人訓練的一部分,例如,如果它在嘗試實現(xiàn)目標時做得正確,則會獲得“1”的獎勵。然而,如果它做錯了什么,它就會收到“-1”。隨著時間的推移,它會在尋求增加獎勵數(shù)量時提高其性能。
研究小組使用這種方法訓練了一個名為 Digit 的機器人,讓它在城鎮(zhèn)未知區(qū)域的人行道上行走,并在遭受大球反復攻擊后恢復,克服身體限制,走過可能會遇到危險的材料。使其絆倒、攜帶背包、將一袋垃圾放入垃圾箱以及使用手提袋攜帶個人物品。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!