在過去幾年中,可以自主生成各種類型內(nèi)容的基于機(jī)器學(xué)習(xí)的模型變得越來越先進(jìn)。這些框架為制作和編譯數(shù)據(jù)集來訓(xùn)練機(jī)器人算法開辟了新的可能性。
雖然一些現(xiàn)有模型可以根據(jù)文本描述生成逼真或藝術(shù)圖像,但迄今為止,開發(fā)能夠根據(jù)人類指令生成移動人物視頻的人工智能更具挑戰(zhàn)性。在預(yù)先發(fā)布在服務(wù)器arXiv上并在 IEEE/CVF 計算機(jī)視覺與模式識別會議 2024 上發(fā)表的論文中,北京理工大學(xué)、BIGAI 和北京大學(xué)的研究人員介紹了一種有前途的新框架,可以有效地解決這一任務(wù)。
“我們之前的工作《HUMANIZE》中的早期實(shí)驗(yàn)表明,通過將任務(wù)分解為場景基礎(chǔ)和條件動作生成,兩階段框架可以增強(qiáng) 3D 場景中語言引導(dǎo)的人體動作生成,”該論文的合著者 Yixin Zhu 說。論文,告訴 Tech Xplore。
“機(jī)器人領(lǐng)域的一些工作也證明了可供性對模型泛化能力的積極影響,這激勵我們采用場景可供性作為這項(xiàng)復(fù)雜任務(wù)的中間表示。”
朱和他的同事推出的新框架建立在他們幾年前推出的生成模型之上,稱為 HUMANIZE。研究人員著手提高該模型泛化新問題的能力,例如在學(xué)習(xí)有效生成“躺在床上”動作后,創(chuàng)建逼真的動作來響應(yīng)“躺在地板上”的提示。
“我們的方法分兩個階段展開:用于功能可供性圖預(yù)測的功能可供性擴(kuò)散模型 (ADM) 和用于根據(jù)描述和預(yù)生成的功能可供性生成人體運(yùn)動的可供性到運(yùn)動擴(kuò)散模型 (AMDM),”Siyuan Huang 聯(lián)合研究人員說道。論文作者解釋說。
“通過利用從人體骨骼關(guān)節(jié)和場景表面之間的距離場導(dǎo)出的可供性圖,我們的模型有效地將 3D 場景基礎(chǔ)和該任務(wù)中固有的條件運(yùn)動生成聯(lián)系起來。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!