技術(shù)提高了大型語言模型的推理能力 OpenAI將ChatGPT的語音模式推出推遲至7月 OpenAI將ChatGPT的語音模式推出推遲至7月 神經(jīng)技術(shù)引入自然語言處理技術(shù)用于創(chuàng)建虛擬助手和聊天機(jī)器人 人機(jī)協(xié)作實(shí)現(xiàn)網(wǎng)絡(luò)安全 新型AI系統(tǒng)可檢測(cè)罕見癲癇發(fā)作 無人機(jī)競(jìng)賽為神經(jīng)網(wǎng)絡(luò)人工智能進(jìn)入太空做好準(zhǔn)備 玻璃回收的自動(dòng)化機(jī)器人雜質(zhì)抓取系統(tǒng) 尖端技術(shù)可即時(shí)檢測(cè)水中的納米塑料 自動(dòng)化人工智能視覺檢測(cè)制造業(yè)的未來 大姨媽飲食要注意什么(大姨媽期間飲食方面應(yīng)該注意什么) 你有輕微腦震蕩嗎新人工智能或可幫助診斷 孕婦缺鐵性貧血吃什么好得快呢(孕婦缺鐵性貧血吃什么好得快) 鹽酸帕羅西汀片的作用和副作用用量(鹽酸帕羅西汀片的作用和副作用) 為什么鼻子里面會(huì)痛癢(為什么鼻子里面會(huì)痛) 嘴角周圍長(zhǎng)痘怎么消除小妙招(嘴角周圍長(zhǎng)痘怎么消除) 脖子左邊有根筋很疼(脖子左側(cè)有根筋疼是癌癥嗎) 老人臨終呼吸表現(xiàn)是什么(老人臨終呼吸表現(xiàn)) 減肥晚上吃香蕉會(huì)胖嗎(減肥的人能吃香蕉嗎) 甲狀腺腫瘤穿刺需要麻醉嗎(甲狀腺瘤穿刺疼嗎) 7個(gè)月的寶寶發(fā)育標(biāo)準(zhǔn)是多少呢(7個(gè)月的寶寶發(fā)育標(biāo)準(zhǔn)是多少) 頭兩邊脹是怎么回事(頭兩邊脹痛怎么回事) 院內(nèi)感染是指什么意思(院內(nèi)感染是指什么) 花椒泡著喝對(duì)身體有什么好處(泡花椒水喝有什么功效) 腰椎間盤突出按摩治療效果好嗎(腰椎間盤突出怎么按摩治療) 怎樣鍛煉肺活量最好(怎樣鍛煉肺活量) 三七粉怎么服用好早上服用還是晚上服好(三七粉怎么服用好) 為什么經(jīng)常出鼻血的原因(出鼻血的原因) 糖尿病尿少是什么原因(尿少是什么原因) 感冒早上起來吐痰有血是怎么回事(早上起來吐痰有血是怎么回事) 隱睪手術(shù)后能生育?手術(shù)有風(fēng)險(xiǎn)嗎?(隱睪手術(shù)能生育嗎) 骨髓異常增生死前癥狀(骨髓異常增生是血癌嗎) 沒有激素治療濕疹的藥膏(沒有激素的濕疹膏有哪些) 腸胃鏡檢查怎么做視頻(腸胃鏡檢查怎么做) 排卵針多少錢一針(排卵針打在什么部位) 扁桃體割除手術(shù)后多久能吃飯(扁桃體切割手術(shù)后多久可以正常吃飯) 月經(jīng)期怎么減肥最有效方法(月經(jīng)期怎么減肥最有效) 軟組織損傷用什么藥膏(軟組織傷了用什么藥) 如何運(yùn)動(dòng)瘦肚子和屁股?(如何運(yùn)動(dòng)瘦肚子) 懷孕一周的反應(yīng)和癥狀(懷孕一周的反應(yīng)) 新生兒幾個(gè)月會(huì)笑會(huì)抬頭(新生兒幾個(gè)月會(huì)笑) 月經(jīng)來了肚子痛怎么辦才能不痛了(月經(jīng)來了肚子痛怎么辦) 陰屁是什么原因引起的(陰道為什么會(huì)放屁) 蕁麻疹能不能吹風(fēng)(蕁麻疹不能吹風(fēng)嗎) 左腳外側(cè)疼是怎么回事 一用力就疼(左腳外側(cè)疼是怎么回事) 嘴唇磕破了個(gè)口子怎么辦(嘴唇磕破口子怎么快速愈合) 乙肝兩對(duì)半五項(xiàng)全部是陰性說明什么(乙肝兩對(duì)半五項(xiàng)全是陰性是什么意思) 男人肋骨有多少根(肋骨有多少根) 來月經(jīng)頭疼怎么緩解最快方法吃什么藥(來月經(jīng)頭疼怎么緩解) 成年身上有多少骨骼肌肉(成年身上有多少骨骼)
您的位置:首頁 >資訊 >

技術(shù)提高了大型語言模型的推理能力

導(dǎo)讀 像ChatGPT所支持的大型語言模型在起草法律摘要、分析客戶評(píng)論的情緒或?qū)⑽臋n翻譯成不同語言等任務(wù)上表現(xiàn)出色。這些機(jī)器學(xué)習(xí)模型通常僅使用...

像ChatGPT所支持的大型語言模型在起草法律摘要、分析客戶評(píng)論的情緒或?qū)⑽臋n翻譯成不同語言等任務(wù)上表現(xiàn)出色。

這些機(jī)器學(xué)習(xí)模型通常僅使用自然語言處理信息和回答查詢,這使得它們難以執(zhí)行需要數(shù)字或符號(hào)推理的任務(wù)。

例如,大型語言模型可能能夠記住并背誦美國(guó)歷任總統(tǒng)及其生日的列表,但如果問“1950年后當(dāng)選的哪些美國(guó)總統(tǒng)出生在星期三?”,該模型可能會(huì)失敗(答案是吉米·卡特。)

麻省理工學(xué)院等機(jī)構(gòu)的研究人員提出了一項(xiàng)新技術(shù),使大型語言模型能夠通過生成程序來解決自然語言、數(shù)學(xué)和數(shù)據(jù)分析以及符號(hào)推理任務(wù)。

他們的方法稱為自然語言嵌入式程序(NLEP),涉及提示語言模型創(chuàng)建和執(zhí)行Python程序來解決用戶的查詢,然后將解決方案輸出為自然語言。

他們發(fā)現(xiàn),NLEP使大型語言模型能夠在各種推理任務(wù)上實(shí)現(xiàn)更高的準(zhǔn)確率。這種方法也是可推廣的,這意味著一個(gè)NLEP提示可以重復(fù)用于多個(gè)任務(wù)。

NLEP還提高了透明度,因?yàn)橛脩艨梢詸z查程序以準(zhǔn)確了解模型如何推理查詢,如果模型給出了錯(cuò)誤的答案,則可以修復(fù)程序。

“我們希望人工智能能夠以透明和值得信賴的方式進(jìn)行復(fù)雜的推理。雖然還有很長(zhǎng)的路要走,但我們已經(jīng)證明,在大型語言模型中結(jié)合編程和自然語言的能力,是邁向未來人們能夠完全理解和信任人工智能模型內(nèi)部發(fā)生的事情的一個(gè)非常好的潛在第一步,”麻省理工學(xué)院博士后、NLEP論文的共同主要作者HongyinLuo博士(2022年)表示。

與羅一起參與撰寫這篇論文的還有香港中文大學(xué)研究生張?zhí)烊A、北京大學(xué)本科生葛佳欣、麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)系助理教授、計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)成員YoonKim、CSAIL高級(jí)研究員兼口語系統(tǒng)小組負(fù)責(zé)人JamesGlass等。這項(xiàng)研究將在計(jì)算語言學(xué)協(xié)會(huì)北美分會(huì)的年度會(huì)議上發(fā)表。

使用程序解決問題

許多流行的大型語言模型的工作原理是,根據(jù)一些自然語言輸入預(yù)測(cè)下一個(gè)單詞或標(biāo)記。雖然GPT-4等模型可用于編寫程序,但它們將這些程序嵌入自然語言中,這可能會(huì)導(dǎo)致程序推理或結(jié)果出現(xiàn)錯(cuò)誤。

麻省理工學(xué)院的研究人員在NLEP中采用了相反的方法。他們讓模型完全用Python代碼生成分步程序,然后在程序中嵌入必要的自然語言。

NLEP是一個(gè)包含四個(gè)步驟的問題解決模板。首先,模型調(diào)用解決任務(wù)所需的必要包或函數(shù)。第二步涉及導(dǎo)入任務(wù)所需知識(shí)的自然語言表示(例如美國(guó)總統(tǒng)生日列表)。對(duì)于第三步,模型實(shí)現(xiàn)一個(gè)計(jì)算答案的函數(shù)。最后一步,模型將結(jié)果輸出為一行自然語言,并根據(jù)需要自動(dòng)進(jìn)行數(shù)據(jù)可視化。

“它就像一個(gè)數(shù)字計(jì)算器,只要程序正確,它就總能給出正確的計(jì)算結(jié)果,”羅說。

用戶可以輕松調(diào)查程序并直接修復(fù)代碼中的任何錯(cuò)誤,而不需要重新運(yùn)行整個(gè)模型來排除故障。

這種方法也比其他一些方法效率更高。如果用戶有許多類似的問題,他們可以生成一個(gè)核心程序,然后替換某些變量,而不需要重復(fù)運(yùn)行模型。

為了促使模型生成NLEP,研究人員給了它一個(gè)編寫Python程序的總體指令,提供了兩個(gè)NLEP示例(一個(gè)是數(shù)學(xué),一個(gè)是自然語言)和一個(gè)測(cè)試問題。

“通常,當(dāng)人們進(jìn)行這種小樣本提示時(shí),他們?nèi)匀恍枰獮槊宽?xiàng)任務(wù)設(shè)計(jì)提示。我們發(fā)現(xiàn),我們可以為許多任務(wù)設(shè)置一個(gè)提示,因?yàn)樗皇墙谭▽W(xué)碩士解決一個(gè)問題的提示,而是教法學(xué)碩士通過編寫程序解決許多問題的提示,”羅說。

麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室首席科學(xué)家LeonidKarlinsky表示:“使用語言模型對(duì)代碼進(jìn)行推理,為工具使用、輸出驗(yàn)證、對(duì)模型功能和思維方式的更有條理的理解等提供了許多機(jī)會(huì)。”

“這里沒有魔法”

在提示GPT-4解決一系列符號(hào)推理任務(wù)(例如跟蹤打亂的物體或玩24點(diǎn)游戲)以及指令跟蹤和文本分類任務(wù)時(shí),NLEP的準(zhǔn)確率超過90%。研究人員發(fā)現(xiàn),NLEP的準(zhǔn)確率甚至比特定任務(wù)的提示方法高出30%。該方法還顯示出比開源LLM更好的性能。

除了提高大型語言模型的準(zhǔn)確性之外,NLEP還可以改善數(shù)據(jù)隱私。由于NLEP程序在本地運(yùn)行,因此敏感的用戶數(shù)據(jù)無需發(fā)送到OpenAI或Google等公司進(jìn)行模型處理。

此外,NLEP可以使小型語言模型表現(xiàn)得更好,而無需為某項(xiàng)任務(wù)重新訓(xùn)練模型,這可能是一個(gè)昂貴的過程。

“這里沒有什么魔法。我們沒有更昂貴或更花哨的語言模型。我們所做的就是使用程序生成而不是自然語言生成,我們可以讓它的表現(xiàn)更好,”羅說。

然而,NLEP依賴于模型的程序生成能力,因此該技術(shù)對(duì)于在有限數(shù)據(jù)集上訓(xùn)練的較小模型效果不佳。未來,研究人員計(jì)劃研究使較小語言模型生成更有效的NLEP的方法。此外,他們還希望研究提示變化對(duì)NLEP的影響,以增強(qiáng)模型推理過程的穩(wěn)健性。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章