蛋白質(zhì)已經(jīng)進化到能夠勝任各種任務(wù),從收縮肌肉到消化食物再到識別病毒。為了設(shè)計出更好的蛋白質(zhì)(包括抗體),科學家經(jīng)常在不同位置反復突變氨基酸(按順序排列以組成蛋白質(zhì)的單位),直到產(chǎn)生的蛋白質(zhì)具有更好的功能,例如引發(fā)更強的免疫反應或更有效地從大氣中捕獲二氧化碳。
但可能的氨基酸序列比世界上的沙粒還要多。而找到最佳蛋白質(zhì),進而找到最佳潛在藥物,通常成本高昂,甚至不可能。
斯坦福大學的科學家開發(fā)出了一種基于機器學習的新方法,可以更快、更準確地預測導致更好抗體藥物的分子變化。
該方法于7月4日發(fā)表在《科學》雜志上,將蛋白質(zhì)骨架的3D結(jié)構(gòu)與基于氨基酸序列的大型語言模型相結(jié)合,使研究人員能夠在幾分鐘內(nèi)找到罕見且理想的突變,而這些突變通常只能通過詳盡的實驗才能找到。
“人工智能和藥物開發(fā)領(lǐng)域的大量努力都集中在收集有關(guān)某種分子在某項任務(wù)中表現(xiàn)如何的大量數(shù)據(jù),以便計算機能夠?qū)W習到足夠的知識來設(shè)計出更好的版本,”金說。“值得注意的是,我們已經(jīng)證明,結(jié)構(gòu)可以代替大量數(shù)據(jù),而計算機仍能學習。”
“現(xiàn)在,更多的抗體實際上有機會得到優(yōu)化,”同時也是Arc研究所創(chuàng)新研究員的Hie說道。
彎曲成形
當面臨尋找最佳氨基酸序列的挑戰(zhàn)時,科學家通常會投入數(shù)百萬美元,在微型、簡化的生物系統(tǒng)中進行測試。他們希望培養(yǎng)皿中最好的藥物也能成為人類的最佳藥物。
“這需要大量的猜測和檢查,”Hie說。“許多智能算法的目標是消除其中的猜測。”
為了加快這一進程,科學家開發(fā)了類似ChatGPT的機器學習算法,該算法根據(jù)數(shù)百萬種蛋白質(zhì)的氨基酸序列進行訓練,以預測理想的突變。
然而,這些模型通常會讓科學家發(fā)現(xiàn),一旦在實驗室中產(chǎn)生序列,它們就會變得不穩(wěn)定或比開始時更糟糕。
部分原因是蛋白質(zhì)的功能不僅取決于氨基酸序列,還取決于該序列的三維結(jié)構(gòu)。例如,為了引發(fā)免疫反應,抗體必須具有正確的形狀才能與病毒表面的分子結(jié)合。
研究團隊認為,開發(fā)更好的預測算法的關(guān)鍵在于結(jié)構(gòu)。因此,他們將基于序列的大型語言模型確定的一長串可能有益的突變限制為那些能夠保留起始蛋白質(zhì)3D形狀的突變。
試驗場
2022年12月,該團隊在最近停產(chǎn)的SARS-CoV-2抗體療法上進行了測試。
“主流理論認為,改進這種抗體的嘗試會失敗,”醫(yī)學生、生物物理學研究生、這項研究的主要作者VarunShanker說。“這種病毒太聰明了。它在數(shù)百萬人中傳播的過程中不斷進化,知道如何變異才能避開這些抗體。”
使用純序列模型來優(yōu)化蛋白質(zhì),效果僅提高了兩倍。但采用結(jié)構(gòu)引導方法后,該團隊看到了25倍的提升。
“我們終于趕上了病毒,”同時也是SarafanChEM-H化學/生物界面培訓項目研究員的Shanker說道。
教舊模型新技巧
使用人工智能開發(fā)更好藥物的大部分努力都依賴于“訓練”或“監(jiān)督”模型,這涉及生成有關(guān)獨特蛋白質(zhì)序列功能和性能的大量數(shù)據(jù)。這種方法需要大量時間,并會產(chǎn)生針對特定蛋白質(zhì)執(zhí)行特定任務(wù)的定制模型。
該模型不需要輸入任何有關(guān)蛋白質(zhì)的功能、功能如何或任何實驗室實驗的信息。由于結(jié)構(gòu)與功能緊密相關(guān),蛋白質(zhì)的坐標成為性能的代表。
對于COVID抗體的研究,他們不僅將結(jié)構(gòu)限制在抗體本身,還將結(jié)構(gòu)限制在抗體與病毒結(jié)合時。從此,他們的模型無需任何訓練就能“學會”抗體結(jié)合的一些規(guī)則。
早期實驗表明,該方法可推廣到其他類型的蛋白質(zhì),如酶,它們有助于催化人體內(nèi)的化學反應。到目前為止,研究人員發(fā)現(xiàn)該模型為科學家指明了數(shù)十種蛋白質(zhì),平均而言,其中一半比起點更好。
這一工具可能有助于快速應對新出現(xiàn)或正在發(fā)展的疾病。它還降低了制造更有效藥物的門檻。
更強效的藥物意味著需要的劑量更低,這意味著一定劑量的藥物可以使更多患者受益。對于艾滋病毒等傳染病,研究表明,大劑量但不頻繁的抗體可以保護患者免受感染,這可能是一種變革。
該團隊正在向任何人免費提供他們的模型和代碼。
“這是一個令人興奮的例子,展示了深度學習的力量,它使構(gòu)建更好蛋白質(zhì)的過程變得民主化,”Shanker說。“這不僅讓人們能夠開發(fā)新藥,還開辟了以前無法進入的科學探索新領(lǐng)域。”
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!