使用擬真強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人在廣闊的環(huán)境中執(zhí)行簡(jiǎn)單的任務(wù) 使用新的動(dòng)態(tài)模型捕捉 DNA 折紙折疊 章魚激發(fā)了機(jī)器人的新吸力機(jī)制 新設(shè)備利用汗水能量打造健身追蹤器 科學(xué)家構(gòu)建腕足動(dòng)物的有機(jī)磷酸外殼 研究人員揭開了卵細(xì)胞中漩渦的神秘面紗 研究人員訓(xùn)練一組人工智能模型來識(shí)別大腦中的記憶形成信號(hào) 研究人員通過水微滴接觸起電實(shí)現(xiàn)氫氣形成及其調(diào)控 研究人員揭示了分枝桿菌基因組中控制壓力適應(yīng)的隱藏特征 研究人員創(chuàng)造納米膜以提高化學(xué)生產(chǎn)中的反應(yīng)速率 對(duì)新興光源能量損失的新認(rèn)識(shí) 現(xiàn)在可以很好地測(cè)量用于微芯片的新型二維材料的熱性能 數(shù)據(jù)驅(qū)動(dòng)的音樂:將氣候測(cè)量結(jié)果轉(zhuǎn)化為音樂 昆蟲如何控制翅膀:昆蟲飛行的神秘機(jī)制 多倫多大學(xué)的研究人員發(fā)現(xiàn)了一種 DNA 修復(fù)機(jī)制 藍(lán)藻如何應(yīng)對(duì)鐵短缺 使其成為地球上最成功的光合生物 改進(jìn)的中紅外納米顯微鏡可以使細(xì)菌內(nèi)部的視野清晰 30 倍 在原子尺度上發(fā)現(xiàn)學(xué)習(xí)和記憶中重要分子的神經(jīng)元門戶 了解氣候變暖對(duì)苔原碳釋放的影響 自旋電子學(xué):室溫旋轉(zhuǎn)自旋紋理的新途徑 在土壤細(xì)菌中發(fā)現(xiàn)的新型抗菌劑 山雀有著非凡的記憶力 一項(xiàng)新研究解釋了原因 結(jié)理論使圍繞行星和衛(wèi)星的管狀地圖成為可能 鈣敏感蛋白如何執(zhí)行多項(xiàng)任務(wù) 研究人員利用機(jī)器學(xué)習(xí)來創(chuàng)建基于織物的觸摸傳感器 蜜蜂在野外經(jīng)歷多種健康壓力 古生物學(xué)家發(fā)現(xiàn)了可能是已知最大的海洋爬行動(dòng)物 研究發(fā)現(xiàn)水分子的存在并不是形成的主要障礙 新模型發(fā)現(xiàn)之前的細(xì)胞分裂計(jì)算忽略了分子尺度的驅(qū)動(dòng)因素 全球研究揭示空氣中微量元素對(duì)健康的影響 研究發(fā)現(xiàn)健康飲食可降低乳腺癌幸存者患心臟病的風(fēng)險(xiǎn) 人工智能將帕金森病藥物設(shè)計(jì)速度提高十倍 了解難治性抑郁癥情緒處理偏差背后的大腦機(jī)制 研究揭示 6b 層神經(jīng)元對(duì)皮質(zhì)活動(dòng)的強(qiáng)烈影響 用于目標(biāo)蛋白穩(wěn)定性分析的新時(shí)間分辨紫外光解質(zhì)譜策略 研究人員在人類腸道中發(fā)現(xiàn)了可以作為敏感生物標(biāo)志物的神秘遺傳元件 新研究揭示了精神活性真菌中酶的結(jié)構(gòu)和進(jìn)化 短而強(qiáng)大的激光脈沖使阿秒成像成為可能 通過電場(chǎng)和電流感應(yīng)扭矩對(duì)磁力進(jìn)行電氣控制 研究人員創(chuàng)建新的人工智能管道來識(shí)別分子相互作用 科學(xué)家開發(fā)出納米銀浸漬絲縫線以對(duì)抗手術(shù)部位感染 新的標(biāo)記方法為多種 柔軟和脆弱物種的海洋傳感器提供生物粘附界面 首次實(shí)現(xiàn)量子互聯(lián)網(wǎng)的關(guān)鍵連接 致命細(xì)菌表現(xiàn)出對(duì)血液的渴望 研究人員表示動(dòng)物也應(yīng)該被納入全球碳循環(huán)模型 發(fā)現(xiàn)銀河系中最大質(zhì)量的恒星黑洞 關(guān)于雙極膜工作原理的新見解可以指導(dǎo)未來的燃料電池設(shè)計(jì) 科學(xué)家觀察細(xì)菌群落中的機(jī)械波 新的苯并呋喃合成方法能夠創(chuàng)建復(fù)雜的分子 新研究可以實(shí)現(xiàn)更多 更高效的亞穩(wěn)態(tài)材料合成
您的位置:首頁 >企業(yè)新聞 >

使用擬真強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人在廣闊的環(huán)境中執(zhí)行簡(jiǎn)單的任務(wù)

導(dǎo)讀 加州大學(xué)伯克利分校的一個(gè)機(jī)器人專家團(tuán)隊(duì)報(bào)告稱,通過使用模擬到真實(shí)的強(qiáng)化學(xué)習(xí)來訓(xùn)練機(jī)器人,可以訓(xùn)練機(jī)器人完成相對(duì)簡(jiǎn)單的任務(wù)。在他們發(fā)...

加州大學(xué)伯克利分校的一個(gè)機(jī)器人專家團(tuán)隊(duì)報(bào)告稱,通過使用模擬到真實(shí)的強(qiáng)化學(xué)習(xí)來訓(xùn)練機(jī)器人,可以訓(xùn)練機(jī)器人完成相對(duì)簡(jiǎn)單的任務(wù)。在他們發(fā)表在《科學(xué)機(jī)器人》雜志上的研究中,該小組訓(xùn)練了一個(gè)機(jī)器人在陌生的環(huán)境中行走,同時(shí)它攜帶不同的負(fù)載,并且完全沒有翻倒。

在過去的幾年里,機(jī)器人專家使用了多種技術(shù)來訓(xùn)練機(jī)器人在不同的環(huán)境中高效、快速地移動(dòng)。但正如這項(xiàng)新研究的研究人員指出的那樣,此類機(jī)器人并沒有太多有用的應(yīng)用。他們認(rèn)為,能夠以緩慢但高效的方式執(zhí)行日常任務(wù)的機(jī)器人會(huì)更有用。為此,他們轉(zhuǎn)向了模擬到真實(shí)的強(qiáng)化學(xué)習(xí)。

該技術(shù)涉及通過在模擬環(huán)境中暴露于數(shù)十億個(gè)示例來訓(xùn)練機(jī)器人的模擬版本來執(zhí)行所需的任務(wù)。該方法還涉及使用獎(jiǎng)勵(lì)/懲罰系統(tǒng)作為機(jī)器人訓(xùn)練的一部分,例如,如果它在嘗試實(shí)現(xiàn)目標(biāo)時(shí)做得正確,則會(huì)獲得“1”的獎(jiǎng)勵(lì)。然而,如果它做錯(cuò)了什么,它就會(huì)收到“-1”。隨著時(shí)間的推移,它會(huì)在尋求增加獎(jiǎng)勵(lì)數(shù)量時(shí)提高其性能。

研究小組使用這種方法訓(xùn)練了一個(gè)名為 Digit 的機(jī)器人,讓它在城鎮(zhèn)未知區(qū)域的人行道上行走,并在遭受大球反復(fù)攻擊后恢復(fù),克服身體限制,走過可能會(huì)遇到危險(xiǎn)的材料。使其絆倒、攜帶背包、將一袋垃圾放入垃圾箱以及使用手提袋攜帶個(gè)人物品。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章