2021年6 月 20 日——一種名為 molDiscovery 的計算機算法使用來自小分子的質(zhì)譜數(shù)據(jù)來預(yù)測未知物質(zhì)的身份,這可能會節(jié)省研究人員尋找具有醫(yī)療用途的新天然產(chǎn)品的時間和金錢。6 月 17 日,Nature Communications報道了這種新方法。
小分子是低分子量的有機化合物,大小約為 1 nm。確定特定樣品中存在或不存在哪些分子以及這些分子是否已知的能力在整個生命科學中具有廣泛的應(yīng)用。
例如,在醫(yī)學中,醫(yī)生在患者血液或組織樣本中尋找小分子生物標志物以進行疾病診斷和預(yù)后,而流行病學家則在人群飲食和環(huán)境中尋找小分子以識別疾病風險因素。在藥理學中,小分子因其作為治療藥物的潛力而受到關(guān)注。
molDiscovery 算法基于預(yù)訓(xùn)練的概率模型將小分子與其質(zhì)譜相匹配,從而提高了小分子識別的效率和準確性。
由于其速度,該算法能夠在科學家們的研究早期提醒他們是偶然發(fā)現(xiàn)了一個真正獨特的分子,還是只是重新發(fā)現(xiàn)了已知的東西。
“科學家們浪費了大量時間來分離已知的分子,基本上是重新發(fā)現(xiàn)青霉素,”共同作者、卡內(nèi)基梅隆大學計算機科學學院助理教授 Hosein Mohimani 博士在一份聲明中說。“早期檢測分子是否已知可以節(jié)省時間和數(shù)百萬美元,并有望使制藥公司和研究人員更好地尋找可能導(dǎo)致新藥開發(fā)的新型天然產(chǎn)品。”
可以由一組質(zhì)量峰表示的質(zhì)譜作為小分子的“指紋”或唯一標識符。molDiscovery 算法的工作原理是將從樣品中獲取的質(zhì)譜與小分子數(shù)據(jù)庫中的數(shù)百萬個分子結(jié)構(gòu)進行比較。
molDisocovery 核心的概率模型是根據(jù)北美大眾銀行 (MoNA) 的參考光譜和美國國立衛(wèi)生研究院 (NIH) 天然產(chǎn)物圖書館的分子光譜對進行訓(xùn)練的。
概率模型采用 P(logRank∣bondType) 形式,其中 logRank 表示相應(yīng)小分子片段的質(zhì)量峰強度,bondType 是 SC、OP、PC、CC、NC、OC 或這些的成對組合債券。
為了測試該系統(tǒng),研究人員在全球天然產(chǎn)物社會分子網(wǎng)絡(luò) (GNPS) 存儲庫中的超過 800 萬個光譜上運行了 molDiscovery,這是一個用于共享質(zhì)譜數(shù)據(jù)的開放獲取知識庫。molDiscovery 系統(tǒng)能夠以 0% 的錯誤發(fā)現(xiàn)率 (FDR) 識別 3,185 個獨特的小分子,與基于化學領(lǐng)域知識的現(xiàn)有方法相比增加了 6 倍。
在具有已知基因組的 GNPS 存儲庫的一個子集上,molDiscovery 能夠正確地將 19 個已知和三個假定的生物合成基因簇與其分子產(chǎn)物聯(lián)系起來。
作者還指出,與以前的方法相比,molDiscovery 適用于更廣泛的分子質(zhì)量,對于非常小的分子(< 400 Da)表現(xiàn)不佳,并且對于重小分子(> 1000 Da)在計算上變得不足。
molDiscovery 系統(tǒng)可以處理質(zhì)量高達 2000 Da 的分子,這是 Dereplicator+ 處理質(zhì)量的兩倍,Dereplicator+ 是 Mohimani 實驗室開發(fā)的早期系統(tǒng),用于根據(jù)化學結(jié)構(gòu)搜索質(zhì)譜。
標簽:
免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!