孩子們通過觀察周圍的環(huán)境、傾聽周圍的人以及他們所見所聞之間的聯(lián)系來學習語言。此外,它有助于孩子建立他們語言的語序,如主語和動詞在句子中的位置。
在計算中,學習語言是句法和語義分析器的任務。這些系統(tǒng)是在人類注釋句子上訓練的,這些句子描述了單詞背后的結構和含義。解析器在網絡搜索、自然語言數據庫查詢和語音識別系統(tǒng)如Alexa和Siri中變得越來越重要。很快,它們也可能被用于家庭機器人。但是對于不太常見的語言來說,收集注釋數據既耗時又困難。另外,人類并不總是認同注釋,注釋本身也未必能準確反映人的自然說話方式。
在本周的自然語言處理經驗方法會議上發(fā)表的一篇論文中,麻省理工學院的研究人員描述了一種解析器,它可以通過觀察和學習更緊密地模仿兒童的語言習得過程,這可以大大擴展解析器的能力。為了學習語言的結構,解析器在沒有其他信息的情況下觀察標題視頻,并將單詞與記錄的對象和動作相關聯(lián)。給定一個新句子,解析器可以使用它已經學會的語言結構來準確預測句子的意思,而無需視頻。
這種“弱監(jiān)督”方法——這意味著它需要有限的訓練數據——模仿了孩子們如何觀察周圍的世界,在沒有任何人提供直接背景的情況下學習語言。據研究人員介紹,這種方法可以擴展數據類型,減少訓練解析器的工作量。例如,一些直接注釋的句子可以與許多更容易獲得的字幕視頻相結合,以提高性能。
將來,解析器可以用來改善人和機器人之間的自然交互。例如,配備解析器的機器人可以不斷觀察其環(huán)境,以增強其對口語命令的理解,包括當口語句子不完全符合語法或不清晰時?!叭藗冇闷洹⑦B續(xù)的思想和令人困惑的語言相互交談。你希望家里有一個能適應他們特定說話方式的機器人.并且仍然能夠發(fā)現(xiàn)它們的含義?!弊髡撸篈ndre Babu,麻省理工學院麥戈文研究所計算機科學與人工智能實驗室(CSAIL)和腦、腦與機械中心(CBMM)研究員。
解析器還可以幫助研究人員更好地理解兒童是如何學習語言的。合著者說:“孩子可以通過不同的方式獲得多余的補充信息,包括聽父母和兄弟姐妹談論世界,以及觸覺信息和視覺信息,[幫助他或她]了解世界。首席研究科學家、CSAIL信息實驗室集團負責人鮑里斯卡茨?!斑@是一個驚人的問題,要處理所有這些同時發(fā)生的感官輸入。這項工作是理解這種學習在世界上是如何發(fā)生的更大一部分?!北疚墓餐髡邽椋旱谝蛔髡逤andace Ross,電氣工程與計算機科學系和CSAIL研究生,CBMM研究員;Yevgeni Berzak' 17博士,腦與認知科學系計算心理語言學組博士后;以及CSAIL研究生Battushig Myanganbayar。
視覺學習者
在他們的工作中,研究人員將語義分析器與計算機視覺組件相結合,在視頻中訓練對象、人和活動。語義分析器通常是在用代碼注釋的句子上訓練的,代碼將每個單詞的含義與單詞之間的關系聯(lián)系起來。有些人受過靜態(tài)圖像或計算機模擬方面的訓練。羅斯說,新的解析器是第一個使用視頻進行訓練的解析器。在某種程度上,視頻在減少歧義方面更有用。如果解析器不確定句子中的動作或對象,它可以參考視頻來澄清事情。羅斯說:“有時間成分——物體之間以及物體與人之間的相互作用——也有靜態(tài)圖像或高級屬性,這些都不能只用語言來看。
研究人員匯編了一個由大約400個視頻組成的數據集,這些視頻描述了人們的許多行為,包括拿起或放下物體,然后走向它們。眾包平臺機器人土耳其人的參與者隨后為這些視頻提供了1200個字幕。他們保留了840個視頻標題的例子進行訓練和調整,并用360個進行測試。Barbu說,使用基于視覺的解析的一個優(yōu)勢是“你不需要幾乎相同數量的數據——盡管你有(數據),但你可以將其擴展到一個巨大的數據集”。
在訓練中,研究人員為解析器提供了確定句子是否準確描述給定視頻的目標。它們?yōu)榻馕銎魈峁┮曨l和匹配標題。解析器提取標題的可能含義作為邏輯數學表達式。比如“女人在摘蘋果”這句話可以表達為:xy .這些表情和視頻被輸入到由巴布和其他研究人員開發(fā)的名為“情感跟蹤器”的計算機視覺算法中。該算法查看每個視頻幀,以跟蹤對象和人如何隨時間變化,從而確定動作是否如所描述的那樣播放。這樣就決定了視頻的意思是否正確。
關系
物體、人和動作的最接近匹配表示的表達成為標題最可能的意思。最初,表達式可以引用視頻中許多不同的對象和動作,但可能含義的集合被用作訓練信號,這有助于解析器不斷降低可能性?!巴ㄟ^假設所有的句子都必須遵循相同的規(guī)則,它們都來自相同的語言,你可以通過查看許多標題視頻來進一步縮小它們的含義,”Barbu說。
p>簡而言之,解析器通過被動觀察來學習:為了確定視頻的標題是否為真,解析器必然必須識別標題的最高概率含義。“判斷視頻句子是否屬于視頻的唯一方法是[經過]中間步驟,'句子是什么意思?'否則,你不知道如何連接兩者,“巴布解釋道。“我們不會給系統(tǒng)賦予句子的含義。我們說,'有一個句子和一個視頻。句子必須適用于視頻。找出一些中間表示,使視頻成為現(xiàn)實。'”訓練為學習單詞產生句法和語義語法。給定一個新句子,解析器不再需要視頻,而是利用其語法和詞匯來確定句子結構和含義。最終,這個過程正在學習“好像你還是個孩子”,巴布說。“你看到周圍的世界,聽到人們說話以學習意義。有一天,我可以給你一個句子并詢問它意味著什么,即使沒有視覺,你也知道它的含義。”在未來的工作中,研究人員對建模相互作用感興趣,而不僅僅是被動觀察。“兒童在學習時會與環(huán)境互動。我們的想法是建立一個也會使用感知來學習的模型,”羅斯說。這項工作是支持的,一部分由CBMM,美國國家科學基金會,福特基金會研究生研究獎學金,豐田研究所和麻省理工學院,IBM腦啟發(fā)多媒體理解項目。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!