當人類看一個場景時,他們會看到物體以及它們之間的關系。在您的辦公桌上,可能有一臺筆記本電腦放在電話的左側(cè),在電腦顯示器的前面。
許多深度學習模型很難以這種方式看待世界,因為它們不了解單個對象之間的糾纏關系。如果不了解這些關系,設計用來幫助廚房里的人的機器人將難以遵循“拿起爐子左側(cè)的抹刀并將其放在砧板上”這樣的命令。
為了解決這個問題,麻省理工學院的研究人員開發(fā)了一種模型,可以理解場景中對象之間的潛在關系。他們的模型一次表示一種個體關系,然后結合這些表示來描述整個場景。這使模型能夠從文本描述中生成更準確的圖像,即使場景包含多個以不同關系排列的對象也是如此。
這項工作可應用于工業(yè)機器人必須執(zhí)行復雜的多步驟操作任務的情況,例如在倉庫中堆放物品或組裝電器。它還使該領域更接近于使機器能夠像人類一樣從環(huán)境中學習并與之交互。
“當我看著一張桌子時,我不能說 XYZ 位置有一個物體。我們的頭腦不是那樣工作的。在我們的腦海中,當我們理解一個場景時,我們是基于對象之間的關系來真正理解它的。我們認為,通過構建一個可以理解物體之間關系的系統(tǒng),我們可以使用該系統(tǒng)更有效地操縱和改變我們的環(huán)境,”計算機科學與人工智能實驗室 (CSAIL) 博士生和合作伙伴 Yilun Du 說。 - 論文的主要作者。
杜與共同主要作者李雙(CSAIL 博士生)和伊利諾伊大學厄巴納-香檳分校的研究生劉楠共同撰寫了這篇論文;以及 Joshua B. Tenenbaum,腦與認知科學系的 Paul E. Newton 認知科學與計算職業(yè)發(fā)展教授,CSAIL 成員;資深作者 Antonio Torralba,Delta Electronics 電氣工程和計算機科學教授,CSAIL 成員。該研究將在 12 月的神經(jīng)信息處理系統(tǒng)會議上發(fā)表。
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!