123,123

在過去幾年中，可以自主生成各種類型內(nèi)容的基于機(jī)器學(xué)習(xí)的模型變得越來越先進(jìn)。這些框架為制作和編譯數(shù)據(jù)集來訓(xùn)練機(jī)器人算法開辟了新的可能性。

雖然一些現(xiàn)有模型可以根據(jù)文本描述生成逼真或藝術(shù)圖像，但迄今為止，開發(fā)能夠根據(jù)人類指令生成移動(dòng)人物視頻的人工智能更具挑戰(zhàn)性。在預(yù)先發(fā)布在服務(wù)器arXiv上并在 IEEE/CVF 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議 2024 上發(fā)表的論文中，北京理工大學(xué)、BIGAI 和北京大學(xué)的研究人員介紹了一種有前途的新框架，可以有效地解決這一任務(wù)。

“我們之前的工作《HUMANIZE》中的早期實(shí)驗(yàn)表明，通過將任務(wù)分解為場(chǎng)景基礎(chǔ)和條件動(dòng)作生成，兩階段框架可以增強(qiáng) 3D 場(chǎng)景中語(yǔ)言引導(dǎo)的人體動(dòng)作生成，”該論文的合著者 Yixin Zhu 說。論文，告訴 Tech Xplore。

“機(jī)器人領(lǐng)域的一些工作也證明了可供性對(duì)模型泛化能力的積極影響，這激勵(lì)我們采用場(chǎng)景可供性作為這項(xiàng)復(fù)雜任務(wù)的中間表示。”

朱和他的同事推出的新框架建立在他們幾年前推出的生成模型之上，稱為 HUMANIZE。研究人員著手提高該模型泛化新問題的能力，例如在學(xué)習(xí)有效生成“躺在床上”動(dòng)作后，創(chuàng)建逼真的動(dòng)作來響應(yīng)“躺在地板上”的提示。

“我們的方法分兩個(gè)階段展開：用于功能可供性圖預(yù)測(cè)的功能可供性擴(kuò)散模型 (ADM) 和用于根據(jù)描述和預(yù)生成的功能可供性生成人體運(yùn)動(dòng)的可供性到運(yùn)動(dòng)擴(kuò)散模型 (AMDM)，”Siyuan Huang 聯(lián)合研究人員說道。論文作者解釋說。

“通過利用從人體骨骼關(guān)節(jié)和場(chǎng)景表面之間的距離場(chǎng)導(dǎo)出的可供性圖，我們的模型有效地將 3D 場(chǎng)景基礎(chǔ)和該任務(wù)中固有的條件運(yùn)動(dòng)生成聯(lián)系起來。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

根據(jù)語(yǔ)言提示生成人體動(dòng)作的新框架

猜你喜歡

最新文章