ChatGTP 等人工智能 (AI) 系統(tǒng)已經(jīng)風(fēng)靡全球。從推薦下一部值得一看的電視節(jié)目到幫助疏通交通,他們幾乎無(wú)所不在。但是,人工智能系統(tǒng)能否學(xué)習(xí)生命的語(yǔ)言并幫助生物學(xué)家揭示令人興奮的科學(xué)突破?
在《自然通訊》雜志上發(fā)表的一項(xiàng)新研究中,由哈佛大學(xué)有機(jī)與進(jìn)化生物學(xué)系 (OEB) 博士研究生 Yunha Hwang 領(lǐng)導(dǎo)的跨學(xué)科研究小組率先開(kāi)發(fā)了一種能夠破譯復(fù)雜語(yǔ)言的人工智能 (AI) 系統(tǒng)基因組學(xué)。
基因組語(yǔ)言是生物學(xué)的源代碼。它描述了基因組中編碼的生物功能和調(diào)控語(yǔ)法。研究人員問(wèn)我們是否可以開(kāi)發(fā)一個(gè)人工智能引擎來(lái)“閱讀”基因組語(yǔ)言并流利地使用該語(yǔ)言,理解基因的含義或功能和規(guī)則?該團(tuán)隊(duì)將微生物宏基因組數(shù)據(jù)集(現(xiàn)有的最大且最多樣化的基因組數(shù)據(jù)集)輸入機(jī)器以創(chuàng)建基因組語(yǔ)言模型(gLM)。
基因組數(shù)據(jù)的挑戰(zhàn)
“在生物學(xué)中,我們有一本已知單詞的字典,研究人員在這些已知單詞的范圍內(nèi)進(jìn)行工作。問(wèn)題在于,這部分已知單詞只占生物序列的不到百分之一,”黃說(shuō),“基因組數(shù)據(jù)的數(shù)量和多樣性正在爆炸式增長(zhǎng),但人類無(wú)法處理如此大量的復(fù)雜數(shù)據(jù)。”
大型語(yǔ)言模型 (LLM),例如 GPT4,通過(guò)處理大量不同的文本數(shù)據(jù)來(lái)學(xué)習(xí)單詞的含義,從而能夠理解單詞之間的關(guān)系?;蚪M語(yǔ)言模型 (gLM) 從高度多樣化的宏基因組數(shù)據(jù)中學(xué)習(xí),這些數(shù)據(jù)來(lái)源于棲息在海洋、土壤和人類腸道等各種環(huán)境中的微生物。借助這些數(shù)據(jù),gLM 通過(guò)學(xué)習(xí)基因與其基因組背景之間的關(guān)系來(lái)了解每個(gè)基因的功能“語(yǔ)義”和調(diào)控“語(yǔ)法”。 gLM 與 LLM 一樣,是一種自我監(jiān)督模型——這意味著它僅從數(shù)據(jù)中學(xué)習(xí)有意義的基因表示,不需要人類分配的標(biāo)簽。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!