大型語(yǔ)言模型使用一種非常簡(jiǎn)單的機(jī)制來檢索一些存儲(chǔ)的知識(shí) 研究人員發(fā)現(xiàn)真菌的進(jìn)化臨界點(diǎn) 為組合優(yōu)化問題的高質(zhì)量解決方案提出的新型量子算法 研究記錄了大西洋洋流的減慢 催化突破產(chǎn)生自潔墻面涂料 在陽(yáng)光照射下可分解空氣污染物 白點(diǎn)癲風(fēng)能徹底治好嗎(白癜風(fēng)能治愈嗎) 睪丸囊腫是什么原因引起(睪丸囊腫怎么回事) 月經(jīng)期怎豐胸(月經(jīng)期間豐胸的辦法) 怎么能夠快速懷孕呢(怎樣才能快速懷孕呢) 八歲兒童喝什么牛奶(8歲兒童喝什么牛奶好) 喘息性支氣管炎用什么藥效果好(喘息性支氣管炎怎么辦) 女性絕經(jīng)后的保養(yǎng)措施(女性絕經(jīng)后的保養(yǎng)) 胎盤吃了對(duì)孩子命運(yùn)影響嗎(吃胎盤的功效與作用) 玫瑰花的作用和功效(桂花的作用) 激光祛斑多少錢一次?(激光祛斑多少錢) 避孕套應(yīng)該怎么戴才正確(避孕套應(yīng)該怎么戴) 眼瞼是哪個(gè)部位示意圖(眼瞼是哪) 去黑頭的藥品有哪些(去黑頭的藥物有哪些) 髓母細(xì)胞瘤是先天性的嗎嚴(yán)重嗎(髓母細(xì)胞瘤是先天性的嗎) 補(bǔ)肝的中成藥有哪些藥(補(bǔ)肝的中成藥有哪些) 男人睪丸疝氣怎么治療(疝氣怎么治療) 補(bǔ)精最好的食物(補(bǔ)精子最有效的食物) 孕早期癥狀像感冒(孕早期癥狀) 上火嘴起泡怎么快速消除掉(上火嘴起泡怎么快速消除) 經(jīng)常吃紫薯有什么好處(吃紫薯有什么好處) 增強(qiáng)免疫力食物與食療方(增強(qiáng)免疫力食物) 棗花蜜的作用和功效(棗花蜜的功效是什么) 早搏是啥意思?。ㄔ绮鞘裁锤拍睿?/a> 孕前檢查查什么科(孕前檢查都是查什么) 血糖低的癥狀或表現(xiàn)和處理(血糖低的癥狀) 寶寶溢奶與吐奶區(qū)別(嬰兒溢奶和吐奶的區(qū)別) 手上長(zhǎng)瘊子怎樣治療(手上長(zhǎng)瘊子治療的方法) 桑葚干可以泡酒嗎?要用什么白酒呢(桑葚干可以泡酒嗎) 桑葉的功效與作用是什么?(桑葉的功效與作用是什么) 傷口感染化膿用什么藥好得快(傷口化膿怎么處理) 熱痙攣的急救措施(熱痙攣怎么治療) 剛出生的嬰兒?jiǎn)苣淘趺崔k(嬰兒?jiǎn)苣淘趺崔k) 來月經(jīng)期可以吃西瓜嗎?(來月經(jīng)期間能吃西瓜嗎) 腳一熱就發(fā)癢是怎么回事(腳發(fā)癢怎么辦) 腳底長(zhǎng)水泡是什么原因引起的很癢(腳底長(zhǎng)水泡是什么原因) 藿香正氣水功效與作用說明書(藿香正氣水功效與作用) 茴香的作用與效果(茴香的功效是什么) 踝振攣檢查方法(踝震攣的癥狀) 喝酒皮膚過敏圖片大全(喝酒皮膚過敏如何處理) 每天喝綠茶能瘦嗎(每天喝綠茶能減肥嗎) 吃附片后要注意什么不能喝水(吃附片后要注意什么) 飯后多長(zhǎng)時(shí)間可以運(yùn)動(dòng)跑步(飯后多長(zhǎng)時(shí)間可以運(yùn)動(dòng)) 當(dāng)歸功效與作用是什么藥(當(dāng)歸功效與作用是什么) 您的位置:首頁(yè) >行業(yè)動(dòng)態(tài) >

大型語(yǔ)言模型使用一種非常簡(jiǎn)單的機(jī)制來檢索一些存儲(chǔ)的知識(shí)

導(dǎo)讀 大型語(yǔ)言模型(例如為 ChatGPT 等流行人工智能聊天機(jī)器人提供支持的語(yǔ)言模型)非常復(fù)雜。盡管這些模型在許多領(lǐng)域被用作工具,例如客戶支持...

大型語(yǔ)言模型(例如為 ChatGPT 等流行人工智能聊天機(jī)器人提供支持的語(yǔ)言模型)非常復(fù)雜。盡管這些模型在許多領(lǐng)域被用作工具,例如客戶支持、代碼生成和語(yǔ)言翻譯,但科學(xué)家們?nèi)匀粵]有完全掌握它們的工作原理。

為了更好地了解幕后發(fā)生的事情,麻省理工學(xué)院和其他地方的研究人員研究了這些巨大的機(jī)器學(xué)習(xí)模型檢索存儲(chǔ)的知識(shí)時(shí)的工作機(jī)制。

他們發(fā)現(xiàn)了一個(gè)令人驚訝的結(jié)果:大型語(yǔ)言模型(LLM)通常使用非常簡(jiǎn)單的線性函數(shù)來恢復(fù)和解碼存儲(chǔ)的事實(shí)。此外,該模型對(duì)相似類型的事實(shí)使用相同的解碼函數(shù)。線性函數(shù)是只有兩個(gè)變量且沒有指數(shù)的方程,捕獲兩個(gè)變量之間簡(jiǎn)單的直線關(guān)系。

研究人員表明,通過識(shí)別不同事實(shí)的線性函數(shù),他們可以探索模型以了解它對(duì)新主題的了解,以及知識(shí)存儲(chǔ)在模型中的位置。

研究人員使用他們開發(fā)的技術(shù)來估計(jì)這些簡(jiǎn)單的函數(shù),發(fā)現(xiàn)即使模型錯(cuò)誤地回答了提示,它通常也存儲(chǔ)了正確的信息。將來,科學(xué)家可以使用這種方法來查找并糾正模型內(nèi)部的錯(cuò)誤,這可以減少模型有時(shí)給出錯(cuò)誤或無意義答案的傾向。

“盡管這些模型非常復(fù)雜,非線性函數(shù)需要接受大量數(shù)據(jù)的訓(xùn)練,并且很難理解,但有時(shí)它們內(nèi)部的工作機(jī)制非常簡(jiǎn)單。這就是一個(gè)例子,”電氣工程師埃文·埃爾南德斯 (Evan Hernandez) 說計(jì)算機(jī)科學(xué) (EECS) 研究生,也是論文的共同主要作者,該論文詳細(xì)介紹了發(fā)布到arXiv預(yù)印本服務(wù)器上的這些發(fā)現(xiàn)。

埃爾南德斯與東北大學(xué)計(jì)算機(jī)科學(xué)研究生 Arnab Sharma 共同撰寫了這篇論文。他的導(dǎo)師 Jacob Andreas,EECS 副教授,計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 成員;資深作者 David Bau,東北大學(xué)計(jì)算機(jī)科學(xué)助理教授;以及麻省理工學(xué)院、哈佛大學(xué)和以色列理工學(xué)院的其他人。該研究將于 5 月 7 日至 11 日在維也納舉行的國(guó)際學(xué)習(xí)表征會(huì)議 ( ICLR 2024)上發(fā)表。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章