123,123,123

由于測序技術(shù)成本的下降和可用計(jì)算能力的增加，如今科學(xué)家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋找分子針一樣。

機(jī)器學(xué)習(xí)(ML)和其他人工智能(AI)工具可以顯著加快數(shù)據(jù)分析過程，但大多數(shù)ML工具對于非ML專家來說很難訪問和使用。最近，開發(fā)了自動化機(jī)器學(xué)習(xí)(AutoML)方法，可以自動設(shè)計(jì)和部署ML工具，但它們通常非常復(fù)雜，并且需要ML的設(shè)施，而AI領(lǐng)域以外的科學(xué)家很少有這種設(shè)施。

哈佛大學(xué)和麻省理工學(xué)院Wyss生物啟發(fā)工程研究所的一組科學(xué)家現(xiàn)在通過構(gòu)建一個新的、全面的AutoML平臺來滿足這一未滿足的需求，該平臺專為幾乎沒有ML經(jīng)驗(yàn)的生物學(xué)家設(shè)計(jì)。他們的平臺稱為BioAutoMATED，可以使用核酸、肽或聚糖序列作為輸入數(shù)據(jù)，其性能可與其他AutoML平臺相媲美，同時需要最少的用戶輸入。該平臺在CellSystems上發(fā)表的一篇新論文中有所描述，可從GitHub下載。

“我們的工具適用于那些無法構(gòu)建自己的自定義ML模型的人，他們發(fā)現(xiàn)自己會問這樣的問題，“我有這個很酷的數(shù)據(jù)集，ML是否適用于它?如何將其放入ML模型中?機(jī)器學(xué)習(xí)的復(fù)雜性阻礙了我進(jìn)一步研究這個數(shù)據(jù)集，那么我該如何克服它呢?'”D.“我們想讓其他領(lǐng)域的生物學(xué)家和專家更容易地使用ML和AutoML的強(qiáng)大功能來回答基本問題，并幫助發(fā)現(xiàn)有意義的生物學(xué)。”

面向所有人的AutoML

像許多偉大的想法一樣，成為BioAutoMATED的種子不是在實(shí)驗(yàn)室里種下的，而是在午餐時種下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一張餐桌上一起吃飯時，他們意識到盡管該研究所享有世界級生物研究目的地的聲譽(yù)，但只有少數(shù)在那里工作的頂級專家能夠構(gòu)建和訓(xùn)練ML模型可以大大有利于他們的工作。

Soenksen說：“我們決定我們需要為此做點(diǎn)什么，因?yàn)槲覀兿Ｍ鸚yss處于人工智能生物技術(shù)革命的前沿，我們也希望這些工具的開發(fā)由生物學(xué)家推動，為生物學(xué)家服務(wù)。”WyssInstitute的博士后研究員，也是科技領(lǐng)域的連續(xù)創(chuàng)業(yè)者。“現(xiàn)在，每個人都同意人工智能是未來，但四年前當(dāng)我們有了這個想法時，它并不是那么明顯，特別是對于生物研究。所以，它開始作為我們想要構(gòu)建的工具來服務(wù)我們自己和我們的Wyss同事，但現(xiàn)在我們知道它可以提供更多服務(wù)。”

雖然已經(jīng)開發(fā)了各種AutoML系統(tǒng)來簡化從數(shù)據(jù)集生成ML模型的過程，但它們通常都有缺點(diǎn);其中，每個AutoML工具都被設(shè)計(jì)為在搜索最佳解決方案時僅查看一種類型的模型(例如，神經(jīng)網(wǎng)絡(luò))。這將生成的模型限制在一組狹窄的可能性中，而實(shí)際上，完全不同類型的模型可能更優(yōu)化。另一個問題是，大多數(shù)AutoML工具并不是專門為將生物序列作為輸入數(shù)據(jù)而設(shè)計(jì)的。已經(jīng)開發(fā)了一些使用語言模型來分析生物序列的工具，但這些工具缺乏自動化功能并且難以使用。

為了為生物學(xué)構(gòu)建一個強(qiáng)大的一體式AutoML，該團(tuán)隊(duì)修改了三個現(xiàn)有的AutoML工具，每個工具都使用不同的方法來生成模型：AutoKeras，用于搜索最佳神經(jīng)網(wǎng)絡(luò);DeepSwarm，它使用基于群體的算法來搜索卷積神經(jīng)網(wǎng)絡(luò);和TPOT，它使用多種方法搜索非神經(jīng)網(wǎng)絡(luò)，包括遺傳編程和自學(xué)習(xí)。BioAutoMATED然后為所有三種工具生成標(biāo)準(zhǔn)化的輸出結(jié)果，以便用戶可以輕松地比較它們并確定哪種類型從他們的數(shù)據(jù)中產(chǎn)生最有用的見解。

該團(tuán)隊(duì)構(gòu)建的BioAutoMATED能夠?qū)⑷魏伍L度、類型或生物功能的DNA、RNA、氨基酸和聚糖(在細(xì)胞表面發(fā)現(xiàn)的糖分子)序列作為輸入。BioAutoMATED自動預(yù)處理輸入數(shù)據(jù)，然后生成可以僅根據(jù)序列信息預(yù)測生物學(xué)功能的模型。

該平臺還具有許多功能，可幫助用戶確定他們是否需要收集額外數(shù)據(jù)以提高輸出質(zhì)量，了解模型最“關(guān)注”序列的哪些特征(因此可能更具生物學(xué)意義),并為未來的實(shí)驗(yàn)設(shè)計(jì)新的序列。

核苷酸和肽和聚糖

為了測試他們的新框架，該團(tuán)隊(duì)首先使用它來探索改變一段稱為核糖體結(jié)合位點(diǎn)(RBS)的RNA序列如何影響核糖體與RNA結(jié)合并將其轉(zhuǎn)化為蛋白質(zhì)的效率大腸桿菌。他們將序列數(shù)據(jù)輸入BioAutoMATED，BioAutoMATED確定了一個由DeepSwarm算法生成的模型，該模型可以準(zhǔn)確預(yù)測翻譯效率。

該模型的性能與專業(yè)ML專家創(chuàng)建的模型一樣好，但生成時間僅為26.5分鐘，并且只需要用戶輸入10行代碼(其他模型可能需要750多行)。他們還使用BioAutoMATED來確定序列的哪些區(qū)域似乎對確定翻譯效率最重要，并設(shè)計(jì)可以通過實(shí)驗(yàn)測試的新序列。

然后他們繼續(xù)試驗(yàn)將肽和聚糖序列數(shù)據(jù)輸入BioAutoMATED，并使用結(jié)果來回答有關(guān)這些序列的特定問題。該系統(tǒng)生成了關(guān)于肽序列中的哪些氨基酸對于確定抗體與藥物雷珠單抗(Lucentis)結(jié)合的能力最重要的高度準(zhǔn)確的信息，并且還根據(jù)其序列將不同類型的聚糖分為免疫原性和非免疫原性組.該團(tuán)隊(duì)還使用它來優(yōu)化基于RNA的腳趾開關(guān)的序列，為新的腳趾開關(guān)的設(shè)計(jì)提供信息，用于實(shí)驗(yàn)測試，用戶的輸入編碼最少。

“最終，我們能夠證明BioAutoMATED可以幫助人們1)識別生物數(shù)據(jù)中的模式，2)就該數(shù)據(jù)提出更好的問題，以及3)快速回答這些問題，所有這些都在一個框架內(nèi)進(jìn)行——無需成為ML專家自己，”凱蒂柯林斯說，她目前是劍橋大學(xué)的研究生，在麻省理工學(xué)院攻讀本科期間從事該項(xiàng)目。

與任何其他ML工具一樣，任何借助BioAutoMATED預(yù)測的模型都需要盡可能在實(shí)驗(yàn)室中進(jìn)行實(shí)驗(yàn)驗(yàn)證。但該團(tuán)隊(duì)希望它可以進(jìn)一步集成到不斷增長的AutoML工具集中，有朝一日將其功能擴(kuò)展到生物序列之外的任何類似序列的對象，例如指紋。

“機(jī)器學(xué)習(xí)和人工智能工具已經(jīng)存在了一段時間，但只是隨著最近用戶友好界面的發(fā)展，它們才開始流行起來，就像ChatGPT一樣，”JimCollins說，他也是麻省理工學(xué)院醫(yī)學(xué)工程與科學(xué)Termeer教授。“我們希望BioAutoMATED能夠讓下一代生物學(xué)家更快、更容易地發(fā)現(xiàn)生命的基礎(chǔ)。”

“使非專家能夠使用這些平臺對于能夠利用ML技術(shù)的全部潛力來解決生物學(xué)及其他領(lǐng)域長期存在的問題至關(guān)重要?？铝炙箞F(tuán)隊(duì)的這一進(jìn)步是使AI成為關(guān)鍵合作者的重要一步對于生物學(xué)家和生物工程師來說，”Wyss創(chuàng)始董事DonIngber博士說，他也是哈佛醫(yī)學(xué)院和波士頓兒童醫(yī)院的JudahFolkman血管生物學(xué)教授，以及HansjörgWyss生物啟發(fā)工程教授哈佛大學(xué)JohnA.Paulson工程與應(yīng)用科學(xué)學(xué)院(SEAS)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

以最少的編碼對生物序列進(jìn)行簡單的一體化分析設(shè)計(jì)和解釋

猜你喜歡

最新文章