2021年8 月 26 日——一種名為 Atomic Rotationally Equivariant Scorer (ARES) 的新深度學(xué)習(xí)系統(tǒng)顯著改善了對 RNA 結(jié)構(gòu)的預(yù)測,而不是以前的人工智能 (AI) 模型。斯坦福大學(xué)研究人員在8 月 26 日發(fā)表在《科學(xué)》雜志上的一篇論文中描述了這一進(jìn)展,它可能有助于科學(xué)家們發(fā)現(xiàn) RNA 的生物學(xué)功能,并為發(fā)現(xiàn)新型 RNA 靶向藥物鋪平道路。
像蛋白質(zhì)一樣,RNA 分子扭曲并折疊成復(fù)雜的 3D 形狀,使它們能夠執(zhí)行廣泛的細(xì)胞功能,包括催化反應(yīng)、調(diào)節(jié)基因表達(dá)、調(diào)節(jié)先天免疫和感知小分子。
然而,盡管科學(xué)家對蛋白質(zhì)結(jié)構(gòu)的理解在過去十年中取得了長足的進(jìn)步,但他們對 RNA 結(jié)構(gòu)的了解卻遠(yuǎn)遠(yuǎn)落后,盡管人類基因組中轉(zhuǎn)錄成 RNA 的部分大約是轉(zhuǎn)錄成 RNA 的部分的 30 倍。蛋白質(zhì)的代碼。
理解蛋白質(zhì)折疊的進(jìn)展反映在預(yù)測模型的成功上,例如由谷歌 AI 分支 DeepMind 開發(fā)的AlphaFold。該模型通過利用數(shù)千種已知蛋白質(zhì)結(jié)構(gòu)中的序列-結(jié)構(gòu)關(guān)系,學(xué)會了如何根據(jù)氨基酸序列準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)。
然而,在 RNA 的情況下,可用的訓(xùn)練數(shù)據(jù)要少得多。這部分是因為 RNA 結(jié)構(gòu)目前還沒有被很好地理解,并且因為 RNA 序列信息提供的關(guān)于 3D RNA 結(jié)構(gòu)的信息比蛋白質(zhì)的情況少。
為了解決這個問題,由斯坦福大學(xué)博士研究生、Atomic AI 創(chuàng)始人兼首席執(zhí)行官 Raphael Townshend 領(lǐng)導(dǎo)的研究人員設(shè)計了 ARES,以根據(jù)最小假設(shè)進(jìn)行 RNA 結(jié)構(gòu)預(yù)測。ARES 深度神經(jīng)網(wǎng)絡(luò)接受每個原子的 3D 坐標(biāo)和化學(xué)元素類型的結(jié)構(gòu)模型作為輸入,然后預(yù)測模型與未知真實 3D RNA 結(jié)構(gòu)的均方根偏差。
ARES 不包含關(guān)于結(jié)構(gòu)模型的哪些特征與評估其準(zhǔn)確性相關(guān)的任何假設(shè)。即使是雙螺旋、堿基對、核苷酸和氫鍵等基本結(jié)構(gòu)概念也沒有預(yù)先編程到系統(tǒng)中。
與在數(shù)千種已知蛋白質(zhì)結(jié)構(gòu)上訓(xùn)練的 AlphaFold 不同,ARES 訓(xùn)練數(shù)據(jù)僅限于 18 個 RNA 分子,這些分子在 1994 年至 2006 年間發(fā)表了實驗確定的結(jié)構(gòu)。
為了評估 ARES 識別以前未見過的 RNA 的準(zhǔn)確結(jié)構(gòu)模型的能力,斯坦福大學(xué)的研究人員編制了一個基準(zhǔn)數(shù)據(jù)集,其中包含七年來在 RNA-Puzzles 競賽中獲勝的參賽作品,這是由 RNA 科學(xué)界組織的一項長期挑戰(zhàn). 根據(jù) RNA-Puzzles 的規(guī)則,當(dāng)社區(qū)科學(xué)家通過實驗發(fā)現(xiàn)新的 RNA 結(jié)構(gòu)時,他們不會公布細(xì)節(jié),直到其他 RNA-Puzzles 參與者提交了他們的結(jié)構(gòu)預(yù)測,然后根據(jù)他們與該結(jié)構(gòu)的匹配程度進(jìn)行判斷。實驗確定的結(jié)構(gòu)。
對于 RNA-Puzzles 數(shù)據(jù)集中的每個 RNA 結(jié)構(gòu),研究人員使用 Rosetta FARFAR2 采樣軟件生成了至少 1,500 個結(jié)構(gòu)模型。然后,他們應(yīng)用經(jīng)過訓(xùn)練的 ARES 神經(jīng)網(wǎng)絡(luò)為每個模型生成一個分?jǐn)?shù)。還使用了其他三種評分方法進(jìn)行比較。
使用 ARES,10 個得分最高的結(jié)構(gòu)模型包括 81% 的基準(zhǔn) RNA 的實驗正確模型。相比之下,其他三種評分方法在不到 50% 的時間內(nèi)包含正確的結(jié)構(gòu)。
接下來,研究人員將 ARES 的預(yù)測輸入到四輪新的 RNA-Puzzles 盲結(jié)構(gòu)預(yù)測挑戰(zhàn)賽中。四個實驗確定但未發(fā)表的待預(yù)測 RNA 結(jié)構(gòu)包括腺病毒 VA-I RNA、嗜熱地芽孢桿菌T-box 鑒別器 tRNAGly、枯草芽孢桿菌T-box tRNAGly 和諾卡氏菌T-box tRNAIIe(蛋白質(zhì)數(shù)據(jù)庫 ID) 6OL3、6PMO、6POM 和 6UFM)。對于所有四種 RNA,ARES “贏得”了挑戰(zhàn),產(chǎn)生了任何方法中最準(zhǔn)確的結(jié)構(gòu)模型。
在未來的工作中,研究人員計劃為 ARES 提供除原子坐標(biāo)和每個原子的化學(xué)元素類型之外的更多信息,以查看這種額外的輸入是否會提高性能。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!