123,123,123

大型語言模型(例如為 ChatGPT 等流行人工智能聊天機(jī)器人提供支持的語言模型)非常復(fù)雜。盡管這些模型在許多領(lǐng)域被用作工具，例如客戶支持、代碼生成和語言翻譯，但科學(xué)家們?nèi)匀粵]有完全掌握它們的工作原理。

為了更好地了解幕后發(fā)生的事情，麻省理工學(xué)院和其他地方的研究人員研究了這些巨大的機(jī)器學(xué)習(xí)模型檢索存儲的知識時的工作機(jī)制。

他們發(fā)現(xiàn)了一個令人驚訝的結(jié)果：大型語言模型(LLM)通常使用非常簡單的線性函數(shù)來恢復(fù)和解碼存儲的事實。此外，該模型對相似類型的事實使用相同的解碼函數(shù)。線性函數(shù)是只有兩個變量且沒有指數(shù)的方程，捕獲兩個變量之間簡單的直線關(guān)系。

研究人員表明，通過識別不同事實的線性函數(shù)，他們可以探索模型以了解它對新主題的了解，以及知識存儲在模型中的位置。

研究人員使用他們開發(fā)的技術(shù)來估計這些簡單的函數(shù)，發(fā)現(xiàn)即使模型錯誤地回答了提示，它通常也存儲了正確的信息。將來，科學(xué)家可以使用這種方法來查找并糾正模型內(nèi)部的錯誤，這可以減少模型有時給出錯誤或無意義答案的傾向。

“盡管這些模型非常復(fù)雜，非線性函數(shù)需要接受大量數(shù)據(jù)的訓(xùn)練，并且很難理解，但有時它們內(nèi)部的工作機(jī)制非常簡單。這就是一個例子，”電氣工程師埃文·埃爾南德斯 (Evan Hernandez) 說計算機(jī)科學(xué) (EECS) 研究生，也是論文的共同主要作者，該論文詳細(xì)介紹了發(fā)布到arXiv預(yù)印本服務(wù)器上的這些發(fā)現(xiàn)。

埃爾南德斯與東北大學(xué)計算機(jī)科學(xué)研究生 Arnab Sharma 共同撰寫了這篇論文。他的導(dǎo)師 Jacob Andreas，EECS 副教授，計算機(jī)科學(xué)與人工智能實驗室 (CSAIL) 成員;資深作者 David Bau，東北大學(xué)計算機(jī)科學(xué)助理教授;以及麻省理工學(xué)院、哈佛大學(xué)和以色列理工學(xué)院的其他人。該研究將于 5 月 7 日至 11 日在維也納舉行的國際學(xué)習(xí)表征會議 ( ICLR 2024)上發(fā)表。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

大型語言模型使用一種非常簡單的機(jī)制來檢索一些存儲的知識

猜你喜歡

最新文章