當(dāng)人類看一個(gè)場(chǎng)景時(shí),他們會(huì)看到物體以及它們之間的關(guān)系。在您的辦公桌上,可能有一臺(tái)筆記本電腦放在電話的左側(cè),在電腦顯示器的前面。
許多深度學(xué)習(xí)模型很難以這種方式看待世界,因?yàn)樗鼈儾涣私鈫蝹€(gè)對(duì)象之間的糾纏關(guān)系。如果不了解這些關(guān)系,設(shè)計(jì)用來(lái)幫助廚房里的人的機(jī)器人將難以遵循“拿起爐子左側(cè)的抹刀并將其放在砧板上”這樣的命令。
為了解決這個(gè)問(wèn)題,麻省理工學(xué)院的研究人員開(kāi)發(fā)了一種模型,可以理解場(chǎng)景中對(duì)象之間的潛在關(guān)系。他們的模型一次表示一種個(gè)體關(guān)系,然后結(jié)合這些表示來(lái)描述整個(gè)場(chǎng)景。這使模型能夠從文本描述中生成更準(zhǔn)確的圖像,即使場(chǎng)景包含多個(gè)以不同關(guān)系排列的對(duì)象也是如此。
這項(xiàng)工作可應(yīng)用于工業(yè)機(jī)器人必須執(zhí)行復(fù)雜的多步驟操作任務(wù)的情況,例如在倉(cāng)庫(kù)中堆放物品或組裝電器。它還使該領(lǐng)域更接近于使機(jī)器能夠像人類一樣從環(huán)境中學(xué)習(xí)并與之交互。
“當(dāng)我看著一張桌子時(shí),我不能說(shuō) XYZ 位置有一個(gè)物體。我們的頭腦不是那樣工作的。在我們的腦海中,當(dāng)我們理解一個(gè)場(chǎng)景時(shí),我們是基于對(duì)象之間的關(guān)系來(lái)真正理解它的。我們認(rèn)為,通過(guò)構(gòu)建一個(gè)可以理解物體之間關(guān)系的系統(tǒng),我們可以使用該系統(tǒng)更有效地操縱和改變我們的環(huán)境,”計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 博士生和合作伙伴 Yilun Du 說(shuō)。 - 論文的主要作者。
杜與共同主要作者李雙(CSAIL 博士生)和伊利諾伊大學(xué)厄巴納-香檳分校的研究生劉楠共同撰寫了這篇論文;以及 Joshua B. Tenenbaum,腦與認(rèn)知科學(xué)系的 Paul E. Newton 認(rèn)知科學(xué)與計(jì)算職業(yè)發(fā)展教授,CSAIL 成員;資深作者 Antonio Torralba,Delta Electronics 電氣工程和計(jì)算機(jī)科學(xué)教授,CSAIL 成員。該研究將在 12 月的神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!