加州大學(xué)伯克利分校的一個(gè)機(jī)器人專家團(tuán)隊(duì)報(bào)告稱,通過使用模擬到真實(shí)的強(qiáng)化學(xué)習(xí)來訓(xùn)練機(jī)器人,可以訓(xùn)練機(jī)器人完成相對(duì)簡(jiǎn)單的任務(wù)。在他們發(fā)表在《科學(xué)機(jī)器人》雜志上的研究中,該小組訓(xùn)練了一個(gè)機(jī)器人在陌生的環(huán)境中行走,同時(shí)它攜帶不同的負(fù)載,并且完全沒有翻倒。
在過去的幾年里,機(jī)器人專家使用了多種技術(shù)來訓(xùn)練機(jī)器人在不同的環(huán)境中高效、快速地移動(dòng)。但正如這項(xiàng)新研究的研究人員指出的那樣,此類機(jī)器人并沒有太多有用的應(yīng)用。他們認(rèn)為,能夠以緩慢但高效的方式執(zhí)行日常任務(wù)的機(jī)器人會(huì)更有用。為此,他們轉(zhuǎn)向了模擬到真實(shí)的強(qiáng)化學(xué)習(xí)。
該技術(shù)涉及通過在模擬環(huán)境中暴露于數(shù)十億個(gè)示例來訓(xùn)練機(jī)器人的模擬版本來執(zhí)行所需的任務(wù)。該方法還涉及使用獎(jiǎng)勵(lì)/懲罰系統(tǒng)作為機(jī)器人訓(xùn)練的一部分,例如,如果它在嘗試實(shí)現(xiàn)目標(biāo)時(shí)做得正確,則會(huì)獲得“1”的獎(jiǎng)勵(lì)。然而,如果它做錯(cuò)了什么,它就會(huì)收到“-1”。隨著時(shí)間的推移,它會(huì)在尋求增加獎(jiǎng)勵(lì)數(shù)量時(shí)提高其性能。
研究小組使用這種方法訓(xùn)練了一個(gè)名為 Digit 的機(jī)器人,讓它在城鎮(zhèn)未知區(qū)域的人行道上行走,并在遭受大球反復(fù)攻擊后恢復(fù),克服身體限制,走過可能會(huì)遇到危險(xiǎn)的材料。使其絆倒、攜帶背包、將一袋垃圾放入垃圾箱以及使用手提袋攜帶個(gè)人物品。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!