在過去幾年中,可以自主生成各種類型內(nèi)容的基于機器學習的模型變得越來越先進。這些框架為制作和編譯數(shù)據(jù)集來訓練機器人算法開辟了新的可能性。
雖然一些現(xiàn)有模型可以根據(jù)文本描述生成逼真或藝術圖像,但迄今為止,開發(fā)能夠根據(jù)人類指令生成移動人物視頻的人工智能更具挑戰(zhàn)性。在預先發(fā)布在服務器arXiv上并在 IEEE/CVF 計算機視覺與模式識別會議 2024 上發(fā)表的論文中,北京理工大學、BIGAI 和北京大學的研究人員介紹了一種有前途的新框架,可以有效地解決這一任務。
“我們之前的工作《HUMANIZE》中的早期實驗表明,通過將任務分解為場景基礎和條件動作生成,兩階段框架可以增強 3D 場景中語言引導的人體動作生成,”該論文的合著者 Yixin Zhu 說。論文,告訴 Tech Xplore。
“機器人領域的一些工作也證明了可供性對模型泛化能力的積極影響,這激勵我們采用場景可供性作為這項復雜任務的中間表示。”
朱和他的同事推出的新框架建立在他們幾年前推出的生成模型之上,稱為 HUMANIZE。研究人員著手提高該模型泛化新問題的能力,例如在學習有效生成“躺在床上”動作后,創(chuàng)建逼真的動作來響應“躺在地板上”的提示。
“我們的方法分兩個階段展開:用于功能可供性圖預測的功能可供性擴散模型 (ADM) 和用于根據(jù)描述和預生成的功能可供性生成人體運動的可供性到運動擴散模型 (AMDM),”Siyuan Huang 聯(lián)合研究人員說道。論文作者解釋說。
“通過利用從人體骨骼關節(jié)和場景表面之間的距離場導出的可供性圖,我們的模型有效地將 3D 場景基礎和該任務中固有的條件運動生成聯(lián)系起來。”
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!