癌細胞與健康細胞有何不同?一種名為“ikarus”的新機器學(xué)習(xí)算法知道答案,由 MDC 生物信息學(xué)家 Altuna Akalin 領(lǐng)導(dǎo)的團隊在《基因組生物學(xué)》雜志上報道。人工智能程序發(fā)現(xiàn)了腫瘤的基因特征。
在識別海量數(shù)據(jù)中的模式時,人類無法與人工智能 (AI) 匹敵。特別是,稱為機器學(xué)習(xí)的 AI 分支通常用于查找數(shù)據(jù)集中的規(guī)律性——無論是用于股票市場分析、圖像和語音識別,還是用于細胞分類。為了可靠地區(qū)分癌細胞和健康細胞,由亥姆霍茲協(xié)會 (MDC) Max Delbrück 分子醫(yī)學(xué)中心生物信息學(xué)和組學(xué)數(shù)據(jù)科學(xué)平臺負責(zé)人 Altuna Akalin 博士領(lǐng)導(dǎo)的團隊現(xiàn)已開發(fā)出機器學(xué)習(xí)程序稱為“伊卡魯斯”。
該程序在腫瘤細胞中發(fā)現(xiàn)了一種模式,這種模式對不同類型的癌癥很常見,由基因的特征組合組成。根據(jù)該團隊在《基因組生物學(xué)》雜志上的論文,該算法還檢測到這種模式中以前從未與癌癥明確相關(guān)的基因類型。
機器學(xué)習(xí)本質(zhì)上意味著算法使用訓(xùn)練數(shù)據(jù)來學(xué)習(xí)如何自己回答某些問題。它通過在數(shù)據(jù)中搜索有助于解決問題的模式來做到這一點。在訓(xùn)練階段之后,系統(tǒng)可以從它所學(xué)的知識中進行概括,以評估未知數(shù)據(jù)。“在專家已經(jīng)清楚地區(qū)分‘健康’和‘癌細胞’細胞的情況下,獲得合適的訓(xùn)練數(shù)據(jù)是一項重大挑戰(zhàn),”該論文的第一作者 Jan Dohmen 說道。
驚人的成功率
此外,單細胞測序數(shù)據(jù)集通常很嘈雜。這意味著它們包含的有關(guān)單個細胞的分子特征的信息不是很精確——可能是因為在每個細胞中檢測到的基因數(shù)量不同,或者因為樣品的處理方式并不總是相同。正如 Dohmen 和他的同事、該研究的聯(lián)合負責(zé)人 Vedran Franke 博士所報告的那樣,他們篩選了無數(shù)出版物并聯(lián)系了相當(dāng)多的研究小組,以獲得足夠的數(shù)據(jù)集。該團隊最終使用來自肺癌和結(jié)直腸癌細胞的數(shù)據(jù)來訓(xùn)練算法,然后將其應(yīng)用于其他類型腫瘤的數(shù)據(jù)集。
在訓(xùn)練階段,ikarus 必須找到一個特征基因列表,然后將其用于對細胞進行分類。“我們嘗試并改進了各種方法,”Dohmen 說。正如三位科學(xué)家所說,這是一項耗時的工作。“關(guān)鍵是ikarus最終使用兩個列表:一個用于癌癥基因,另一個用于來自其他細胞的基因,”弗蘭克解釋道。在學(xué)習(xí)階段之后,該算法也能夠可靠地區(qū)分其他類型癌癥(例如組織樣本)中的健康細胞和腫瘤細胞來自肝癌或神經(jīng)母細胞瘤患者。它的成功率往往非常高,這甚至讓研究小組感到驚訝。“我們沒想到會有一個共同的特征可以如此精確地定義不同類型癌癥的腫瘤細胞,”Akalin 說。“但我們?nèi)匀徊荒苷f這種方法是否適用于所有類型的癌癥,”Dohmen 補充道。為了將 ikarus 變成一種可靠的癌癥診斷工具,研究人員現(xiàn)在想要在其他類型的腫瘤上進行測試。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!