麻省理工學(xué)院 (MIT) 和法國巴斯德研究所的科學(xué)家開發(fā)了一種在個人計(jì)算機(jī)上重建包括人類基因組在內(nèi)的全基因組的技術(shù)。這種技術(shù)比當(dāng)前最先進(jìn)的方法快大約一百倍,并使用五分之一的資源。這項(xiàng)研究于 9 月 14 日發(fā)表在Cell Systems雜志上,其靈感來自于單詞而非字母為語言模型提供濃縮構(gòu)建塊的方式,從而可以更緊湊地表示基因組數(shù)據(jù)。
“我們可以在一臺普通的筆記本電腦上快速組裝整個基因組和宏基因組,包括微生物基因組,”麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的西蒙斯數(shù)學(xué)教授、該研究的作者Bonnie Berger (@lab_berger)說。“這種能力對于評估與疾病和細(xì)菌感染(例如敗血癥)相關(guān)的腸道微生物組變化至關(guān)重要,以便我們能夠更快地治療它們并挽救生命。”
自人類基因組計(jì)劃以來,基因組組裝項(xiàng)目取得了長足的進(jìn)步,該計(jì)劃于 2003 年完成了第一個完整的人類基因組的組裝,耗資約 27 億美元,并進(jìn)行了十多年的國際合作。但是,雖然人類基因組組裝項(xiàng)目不再需要數(shù)年時間,但它們?nèi)匀恍枰獛滋鞎r間和強(qiáng)大的計(jì)算機(jī)能力。第三代測序技術(shù)可提供具有數(shù)萬個堿基對的 TB 級高質(zhì)量基因組序列,但事實(shí)證明,使用如此大量數(shù)據(jù)的基因組組裝具有挑戰(zhàn)性。
為了比目前的技術(shù)更有效地進(jìn)行基因組組裝,包括在所有可能的讀數(shù)對之間進(jìn)行成對比較,Berger 及其同事轉(zhuǎn)向了語言模型。研究人員基于 de Bruijn 圖(一種用于基因組組裝的簡單、高效的數(shù)據(jù)結(jié)構(gòu))的概念,開發(fā)了一種最小化空間 de Bruin 圖 (mdBG),該圖使用稱為最小化器的短核苷酸序列而不是單個核苷酸。
“我們的最小空間 de Bruijn 圖僅存儲了總核苷酸的一小部分,同時保留了整個基因組結(jié)構(gòu),使它們比經(jīng)典 de Bruijn 圖效率高出幾個數(shù)量級,”Berger 說。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!