123,123,123

孩子們通過(guò)觀察周圍的環(huán)境、傾聽(tīng)周圍的人以及他們所見(jiàn)所聞之間的聯(lián)系來(lái)學(xué)習(xí)語(yǔ)言。此外，它有助于孩子建立他們語(yǔ)言的語(yǔ)序，如主語(yǔ)和動(dòng)詞在句子中的位置。

在計(jì)算中，學(xué)習(xí)語(yǔ)言是句法和語(yǔ)義分析器的任務(wù)。這些系統(tǒng)是在人類注釋句子上訓(xùn)練的，這些句子描述了單詞背后的結(jié)構(gòu)和含義。解析器在網(wǎng)絡(luò)搜索、自然語(yǔ)言數(shù)據(jù)庫(kù)查詢和語(yǔ)音識(shí)別系統(tǒng)如Alexa和Siri中變得越來(lái)越重要。很快，它們也可能被用于家庭機(jī)器人。但是對(duì)于不太常見(jiàn)的語(yǔ)言來(lái)說(shuō)，收集注釋數(shù)據(jù)既耗時(shí)又困難。另外，人類并不總是認(rèn)同注釋，注釋本身也未必能準(zhǔn)確反映人的自然說(shuō)話方式。

在本周的自然語(yǔ)言處理經(jīng)驗(yàn)方法會(huì)議上發(fā)表的一篇論文中，麻省理工學(xué)院的研究人員描述了一種解析器，它可以通過(guò)觀察和學(xué)習(xí)更緊密地模仿兒童的語(yǔ)言習(xí)得過(guò)程，這可以大大擴(kuò)展解析器的能力。為了學(xué)習(xí)語(yǔ)言的結(jié)構(gòu)，解析器在沒(méi)有其他信息的情況下觀察標(biāo)題視頻，并將單詞與記錄的對(duì)象和動(dòng)作相關(guān)聯(lián)。給定一個(gè)新句子，解析器可以使用它已經(jīng)學(xué)會(huì)的語(yǔ)言結(jié)構(gòu)來(lái)準(zhǔn)確預(yù)測(cè)句子的意思，而無(wú)需視頻。

這種“弱監(jiān)督”方法——這意味著它需要有限的訓(xùn)練數(shù)據(jù)——模仿了孩子們?nèi)绾斡^察周圍的世界，在沒(méi)有任何人提供直接背景的情況下學(xué)習(xí)語(yǔ)言。據(jù)研究人員介紹，這種方法可以擴(kuò)展數(shù)據(jù)類型，減少訓(xùn)練解析器的工作量。例如，一些直接注釋的句子可以與許多更容易獲得的字幕視頻相結(jié)合，以提高性能。

將來(lái)，解析器可以用來(lái)改善人和機(jī)器人之間的自然交互。例如，配備解析器的機(jī)器人可以不斷觀察其環(huán)境，以增強(qiáng)其對(duì)口語(yǔ)命令的理解，包括當(dāng)口語(yǔ)句子不完全符合語(yǔ)法或不清晰時(shí)?！叭藗冇闷?、連續(xù)的思想和令人困惑的語(yǔ)言相互交談。你希望家里有一個(gè)能適應(yīng)他們特定說(shuō)話方式的機(jī)器人.并且仍然能夠發(fā)現(xiàn)它們的含義?！弊髡撸篈ndre Babu，麻省理工學(xué)院麥戈文研究所計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和腦、腦與機(jī)械中心(CBMM)研究員。

解析器還可以幫助研究人員更好地理解兒童是如何學(xué)習(xí)語(yǔ)言的。合著者說(shuō)：“孩子可以通過(guò)不同的方式獲得多余的補(bǔ)充信息，包括聽(tīng)父母和兄弟姐妹談?wù)撌澜?，以及觸覺(jué)信息和視覺(jué)信息，[幫助他或她]了解世界。首席研究科學(xué)家、CSAIL信息實(shí)驗(yàn)室集團(tuán)負(fù)責(zé)人鮑里斯卡茨?！斑@是一個(gè)驚人的問(wèn)題，要處理所有這些同時(shí)發(fā)生的感官輸入。這項(xiàng)工作是理解這種學(xué)習(xí)在世界上是如何發(fā)生的更大一部分?！北疚墓餐髡邽椋旱谝蛔髡逤andace Ross，電氣工程與計(jì)算機(jī)科學(xué)系和CSAIL研究生，CBMM研究員；Yevgeni Berzak' 17博士，腦與認(rèn)知科學(xué)系計(jì)算心理語(yǔ)言學(xué)組博士后；以及CSAIL研究生Battushig Myanganbayar。

視覺(jué)學(xué)習(xí)者

在他們的工作中，研究人員將語(yǔ)義分析器與計(jì)算機(jī)視覺(jué)組件相結(jié)合，在視頻中訓(xùn)練對(duì)象、人和活動(dòng)。語(yǔ)義分析器通常是在用代碼注釋的句子上訓(xùn)練的，代碼將每個(gè)單詞的含義與單詞之間的關(guān)系聯(lián)系起來(lái)。有些人受過(guò)靜態(tài)圖像或計(jì)算機(jī)模擬方面的訓(xùn)練。羅斯說(shuō)，新的解析器是第一個(gè)使用視頻進(jìn)行訓(xùn)練的解析器。在某種程度上，視頻在減少歧義方面更有用。如果解析器不確定句子中的動(dòng)作或?qū)ο?，它可以參考視頻來(lái)澄清事情。羅斯說(shuō)：“有時(shí)間成分——物體之間以及物體與人之間的相互作用——也有靜態(tài)圖像或高級(jí)屬性，這些都不能只用語(yǔ)言來(lái)看。

研究人員匯編了一個(gè)由大約400個(gè)視頻組成的數(shù)據(jù)集，這些視頻描述了人們的許多行為，包括拿起或放下物體，然后走向它們。眾包平臺(tái)機(jī)器人土耳其人的參與者隨后為這些視頻提供了1200個(gè)字幕。他們保留了840個(gè)視頻標(biāo)題的例子進(jìn)行訓(xùn)練和調(diào)整，并用360個(gè)進(jìn)行測(cè)試。Barbu說(shuō)，使用基于視覺(jué)的解析的一個(gè)優(yōu)勢(shì)是“你不需要幾乎相同數(shù)量的數(shù)據(jù)——盡管你有(數(shù)據(jù))，但你可以將其擴(kuò)展到一個(gè)巨大的數(shù)據(jù)集”。

在訓(xùn)練中，研究人員為解析器提供了確定句子是否準(zhǔn)確描述給定視頻的目標(biāo)。它們?yōu)榻馕銎魈峁┮曨l和匹配標(biāo)題。解析器提取標(biāo)題的可能含義作為邏輯數(shù)學(xué)表達(dá)式。比如“女人在摘蘋果”這句話可以表達(dá)為：xy .這些表情和視頻被輸入到由巴布和其他研究人員開(kāi)發(fā)的名為“情感跟蹤器”的計(jì)算機(jī)視覺(jué)算法中。該算法查看每個(gè)視頻幀，以跟蹤對(duì)象和人如何隨時(shí)間變化，從而確定動(dòng)作是否如所描述的那樣播放。這樣就決定了視頻的意思是否正確。

關(guān)系

物體、人和動(dòng)作的最接近匹配表示的表達(dá)成為標(biāo)題最可能的意思。最初，表達(dá)式可以引用視頻中許多不同的對(duì)象和動(dòng)作，但可能含義的集合被用作訓(xùn)練信號(hào)，這有助于解析器不斷降低可能性?！巴ㄟ^(guò)假設(shè)所有的句子都必須遵循相同的規(guī)則，它們都來(lái)自相同的語(yǔ)言，你可以通過(guò)查看許多標(biāo)題視頻來(lái)進(jìn)一步縮小它們的含義，”Barbu說(shuō)。

p>簡(jiǎn)而言之，解析器通過(guò)被動(dòng)觀察來(lái)學(xué)習(xí)：為了確定視頻的標(biāo)題是否為真，解析器必然必須識(shí)別標(biāo)題的最高概率含義。“判斷視頻句子是否屬于視頻的唯一方法是[經(jīng)過(guò)]中間步驟，'句子是什么意思?'否則，你不知道如何連接兩者，“巴布解釋道。“我們不會(huì)給系統(tǒng)賦予句子的含義。我們說(shuō)，'有一個(gè)句子和一個(gè)視頻。句子必須適用于視頻。找出一些中間表示，使視頻成為現(xiàn)實(shí)。'”訓(xùn)練為學(xué)習(xí)單詞產(chǎn)生句法和語(yǔ)義語(yǔ)法。給定一個(gè)新句子，解析器不再需要視頻，而是利用其語(yǔ)法和詞匯來(lái)確定句子結(jié)構(gòu)和含義。

最終，這個(gè)過(guò)程正在學(xué)習(xí)“好像你還是個(gè)孩子”，巴布說(shuō)。“你看到周圍的世界，聽(tīng)到人們說(shuō)話以學(xué)習(xí)意義。有一天，我可以給你一個(gè)句子并詢問(wèn)它意味著什么，即使沒(méi)有視覺(jué)，你也知道它的含義。”在未來(lái)的工作中，研究人員對(duì)建模相互作用感興趣，而不僅僅是被動(dòng)觀察。“兒童在學(xué)習(xí)時(shí)會(huì)與環(huán)境互動(dòng)。我們的想法是建立一個(gè)也會(huì)使用感知來(lái)學(xué)習(xí)的模型，”羅斯說(shuō)。這項(xiàng)工作是支持的，一部分由CBMM，美國(guó)國(guó)家科學(xué)基金會(huì)，福特基金會(huì)研究生研究獎(jiǎng)學(xué)金，豐田研究所和麻省理工學(xué)院，IBM腦啟發(fā)多媒體理解項(xiàng)目。

計(jì)算機(jī)模型可以改善人機(jī)交互并為兒童如何學(xué)習(xí)語(yǔ)言提供見(jiàn)解

猜你喜歡

最新文章