123,123

導(dǎo)讀加州大學(xué)伯克利分校的一個(gè)機(jī)器人專家團(tuán)隊(duì)報(bào)告稱，通過(guò)使用模擬到真實(shí)的強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練機(jī)器人，可以訓(xùn)練機(jī)器人完成相對(duì)簡(jiǎn)單的任務(wù)。在他們發(fā)...

加州大學(xué)伯克利分校的一個(gè)機(jī)器人專家團(tuán)隊(duì)報(bào)告稱，通過(guò)使用模擬到真實(shí)的強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練機(jī)器人，可以訓(xùn)練機(jī)器人完成相對(duì)簡(jiǎn)單的任務(wù)。在他們發(fā)表在《科學(xué)機(jī)器人》雜志上的研究中，該小組訓(xùn)練了一個(gè)機(jī)器人在陌生的環(huán)境中行走，同時(shí)它攜帶不同的負(fù)載，并且完全沒(méi)有翻倒。

在過(guò)去的幾年里，機(jī)器人專家使用了多種技術(shù)來(lái)訓(xùn)練機(jī)器人在不同的環(huán)境中高效、快速地移動(dòng)。但正如這項(xiàng)新研究的研究人員指出的那樣，此類機(jī)器人并沒(méi)有太多有用的應(yīng)用。他們認(rèn)為，能夠以緩慢但高效的方式執(zhí)行日常任務(wù)的機(jī)器人會(huì)更有用。為此，他們轉(zhuǎn)向了模擬到真實(shí)的強(qiáng)化學(xué)習(xí)。

該技術(shù)涉及通過(guò)在模擬環(huán)境中暴露于數(shù)十億個(gè)示例來(lái)訓(xùn)練機(jī)器人的模擬版本來(lái)執(zhí)行所需的任務(wù)。該方法還涉及使用獎(jiǎng)勵(lì)/懲罰系統(tǒng)作為機(jī)器人訓(xùn)練的一部分，例如，如果它在嘗試實(shí)現(xiàn)目標(biāo)時(shí)做得正確，則會(huì)獲得“1”的獎(jiǎng)勵(lì)。然而，如果它做錯(cuò)了什么，它就會(huì)收到“-1”。隨著時(shí)間的推移，它會(huì)在尋求增加獎(jiǎng)勵(lì)數(shù)量時(shí)提高其性能。

研究小組使用這種方法訓(xùn)練了一個(gè)名為 Digit 的機(jī)器人，讓它在城鎮(zhèn)未知區(qū)域的人行道上行走，并在遭受大球反復(fù)攻擊后恢復(fù)，克服身體限制，走過(guò)可能會(huì)遇到危險(xiǎn)的材料。使其絆倒、攜帶背包、將一袋垃圾放入垃圾箱以及使用手提袋攜帶個(gè)人物品。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

使用擬真強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人在廣闊的環(huán)境中執(zhí)行簡(jiǎn)單的任務(wù)

猜你喜歡

最新文章