大型語(yǔ)言模型使用一種非常簡(jiǎn)單的機(jī)制來(lái)檢索一些存儲(chǔ)的知識(shí) 研究人員發(fā)現(xiàn)真菌的進(jìn)化臨界點(diǎn) 為組合優(yōu)化問(wèn)題的高質(zhì)量解決方案提出的新型量子算法 研究記錄了大西洋洋流的減慢 催化突破產(chǎn)生自潔墻面涂料 在陽(yáng)光照射下可分解空氣污染物 白點(diǎn)癲風(fēng)能徹底治好嗎(白癜風(fēng)能治愈嗎) 睪丸囊腫是什么原因引起(睪丸囊腫怎么回事) 月經(jīng)期怎豐胸(月經(jīng)期間豐胸的辦法) 怎么能夠快速懷孕呢(怎樣才能快速懷孕呢) 八歲兒童喝什么牛奶(8歲兒童喝什么牛奶好) 喘息性支氣管炎用什么藥效果好(喘息性支氣管炎怎么辦) 女性絕經(jīng)后的保養(yǎng)措施(女性絕經(jīng)后的保養(yǎng)) 胎盤吃了對(duì)孩子命運(yùn)影響嗎(吃胎盤的功效與作用) 玫瑰花的作用和功效(桂花的作用) 激光祛斑多少錢一次?(激光祛斑多少錢) 避孕套應(yīng)該怎么戴才正確(避孕套應(yīng)該怎么戴) 眼瞼是哪個(gè)部位示意圖(眼瞼是哪) 去黑頭的藥品有哪些(去黑頭的藥物有哪些) 髓母細(xì)胞瘤是先天性的嗎嚴(yán)重嗎(髓母細(xì)胞瘤是先天性的嗎) 補(bǔ)肝的中成藥有哪些藥(補(bǔ)肝的中成藥有哪些) 男人睪丸疝氣怎么治療(疝氣怎么治療) 補(bǔ)精最好的食物(補(bǔ)精子最有效的食物) 孕早期癥狀像感冒(孕早期癥狀) 上火嘴起泡怎么快速消除掉(上火嘴起泡怎么快速消除) 經(jīng)常吃紫薯有什么好處(吃紫薯有什么好處) 增強(qiáng)免疫力食物與食療方(增強(qiáng)免疫力食物) 棗花蜜的作用和功效(棗花蜜的功效是什么) 孕前檢查查什么科(孕前檢查都是查什么) 血糖低的癥狀或表現(xiàn)和處理(血糖低的癥狀) 寶寶溢奶與吐奶區(qū)別(嬰兒溢奶和吐奶的區(qū)別) 手上長(zhǎng)瘊子怎樣治療(手上長(zhǎng)瘊子治療的方法) 桑葚干可以泡酒嗎?要用什么白酒呢(桑葚干可以泡酒嗎) 桑葉的功效與作用是什么?(桑葉的功效與作用是什么) 傷口感染化膿用什么藥好得快(傷口化膿怎么處理) 熱痙攣的急救措施(熱痙攣怎么治療) 剛出生的嬰兒?jiǎn)苣淘趺崔k(嬰兒?jiǎn)苣淘趺崔k) 來(lái)月經(jīng)期可以吃西瓜嗎?(來(lái)月經(jīng)期間能吃西瓜嗎) 腳一熱就發(fā)癢是怎么回事(腳發(fā)癢怎么辦) 腳底長(zhǎng)水泡是什么原因引起的很癢(腳底長(zhǎng)水泡是什么原因) 藿香正氣水功效與作用說(shuō)明書(shū)(藿香正氣水功效與作用) 茴香的作用與效果(茴香的功效是什么) 踝振攣檢查方法(踝震攣的癥狀) 喝酒皮膚過(guò)敏圖片大全(喝酒皮膚過(guò)敏如何處理) 每天喝綠茶能瘦嗎(每天喝綠茶能減肥嗎) 吃附片后要注意什么不能喝水(吃附片后要注意什么) 飯后多長(zhǎng)時(shí)間可以運(yùn)動(dòng)跑步(飯后多長(zhǎng)時(shí)間可以運(yùn)動(dòng)) 當(dāng)歸功效與作用是什么藥(當(dāng)歸功效與作用是什么) 您的位置:首頁(yè) >行業(yè)動(dòng)態(tài) >

大型語(yǔ)言模型使用一種非常簡(jiǎn)單的機(jī)制來(lái)檢索一些存儲(chǔ)的知識(shí)

導(dǎo)讀 大型語(yǔ)言模型(例如為 ChatGPT 等流行人工智能聊天機(jī)器人提供支持的語(yǔ)言模型)非常復(fù)雜。盡管這些模型在許多領(lǐng)域被用作工具,例如客戶支持...

大型語(yǔ)言模型(例如為 ChatGPT 等流行人工智能聊天機(jī)器人提供支持的語(yǔ)言模型)非常復(fù)雜。盡管這些模型在許多領(lǐng)域被用作工具,例如客戶支持、代碼生成和語(yǔ)言翻譯,但科學(xué)家們?nèi)匀粵](méi)有完全掌握它們的工作原理。

為了更好地了解幕后發(fā)生的事情,麻省理工學(xué)院和其他地方的研究人員研究了這些巨大的機(jī)器學(xué)習(xí)模型檢索存儲(chǔ)的知識(shí)時(shí)的工作機(jī)制。

他們發(fā)現(xiàn)了一個(gè)令人驚訝的結(jié)果:大型語(yǔ)言模型(LLM)通常使用非常簡(jiǎn)單的線性函數(shù)來(lái)恢復(fù)和解碼存儲(chǔ)的事實(shí)。此外,該模型對(duì)相似類型的事實(shí)使用相同的解碼函數(shù)。線性函數(shù)是只有兩個(gè)變量且沒(méi)有指數(shù)的方程,捕獲兩個(gè)變量之間簡(jiǎn)單的直線關(guān)系。

研究人員表明,通過(guò)識(shí)別不同事實(shí)的線性函數(shù),他們可以探索模型以了解它對(duì)新主題的了解,以及知識(shí)存儲(chǔ)在模型中的位置。

研究人員使用他們開(kāi)發(fā)的技術(shù)來(lái)估計(jì)這些簡(jiǎn)單的函數(shù),發(fā)現(xiàn)即使模型錯(cuò)誤地回答了提示,它通常也存儲(chǔ)了正確的信息。將來(lái),科學(xué)家可以使用這種方法來(lái)查找并糾正模型內(nèi)部的錯(cuò)誤,這可以減少模型有時(shí)給出錯(cuò)誤或無(wú)意義答案的傾向。

“盡管這些模型非常復(fù)雜,非線性函數(shù)需要接受大量數(shù)據(jù)的訓(xùn)練,并且很難理解,但有時(shí)它們內(nèi)部的工作機(jī)制非常簡(jiǎn)單。這就是一個(gè)例子,”電氣工程師埃文·埃爾南德斯 (Evan Hernandez) 說(shuō)計(jì)算機(jī)科學(xué) (EECS) 研究生,也是論文的共同主要作者,該論文詳細(xì)介紹了發(fā)布到arXiv預(yù)印本服務(wù)器上的這些發(fā)現(xiàn)。

埃爾南德斯與東北大學(xué)計(jì)算機(jī)科學(xué)研究生 Arnab Sharma 共同撰寫了這篇論文。他的導(dǎo)師 Jacob Andreas,EECS 副教授,計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 成員;資深作者 David Bau,東北大學(xué)計(jì)算機(jī)科學(xué)助理教授;以及麻省理工學(xué)院、哈佛大學(xué)和以色列理工學(xué)院的其他人。該研究將于 5 月 7 日至 11 日在維也納舉行的國(guó)際學(xué)習(xí)表征會(huì)議 ( ICLR 2024)上發(fā)表。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章