CUNY SPH 的研究人員及其同事最近發(fā)布了一種強(qiáng)大的新數(shù)據(jù)結(jié)構(gòu),用于分析用于開源統(tǒng)計(jì)計(jì)算的基因組數(shù)據(jù)。
在基因組研究中,科學(xué)家分析 DNA 的各個(gè)方面,例如拷貝數(shù)、突變和化學(xué)修飾,以了解基因如何發(fā)揮作用以及如何導(dǎo)致癌癥等疾病。然而,這些實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)提出了在進(jìn)行任何統(tǒng)計(jì)分析之前需要克服的信息學(xué)挑戰(zhàn):就像一個(gè)拼圖的碎片不能整齊地拼在一起,每個(gè)樣本在不同的基因組位置都有觀察結(jié)果。
為應(yīng)對(duì)這一挑戰(zhàn),紐約市立大學(xué) SPH 校友和高級(jí)數(shù)據(jù)科學(xué)家 Marcel Ramos、副教授 Levi Waldron 以及來自哈佛大學(xué) TH Chan 公共衛(wèi)生學(xué)院、哈佛醫(yī)學(xué)院和 Roswell Park 綜合癌癥中心的同事開發(fā)了一種名為“RaggedExperiment”的新方法R/Bioconductor 統(tǒng)計(jì)編程環(huán)境。它允許有組織地表示這種“參差不齊”的基因組數(shù)據(jù),保留所有信息并提供工具,使以不同方式轉(zhuǎn)換和分析此類數(shù)據(jù)變得更加容易。
“在用于多組學(xué)數(shù)據(jù)分析的 Bioconductor 生態(tài)系統(tǒng)中,沒有用于無損表示參差不齊的基因組數(shù)據(jù)的 Bioconductor 數(shù)據(jù)類,也沒有用于促進(jìn)靈活轉(zhuǎn)換為矩陣表示(例如編碼突變的數(shù)量或每個(gè)基因的拷貝數(shù))的方法,”說拉莫斯。“RaggedExperiment 為基因組數(shù)據(jù)分析師的工具箱添加了一個(gè)更強(qiáng)大、更高效、更不容易出錯(cuò)的工具。”
“Marcel 多年來開發(fā)和改進(jìn)了這個(gè)軟件,它已經(jīng)找到了一個(gè)重要的用戶群,所以我很高興正式描述它并將其發(fā)表在生物信息學(xué)領(lǐng)域的頂級(jí)期刊之一,”Waldron 說。“通過增強(qiáng)我們分析和理解基因組數(shù)據(jù)的能力,這一發(fā)展為提高我們對(duì)疾病的認(rèn)識(shí)和開發(fā)更好的治療方法開辟了新的可能性。”
RaggedExperiment 包根據(jù) Bioconductor 項(xiàng)目的 Artistic 2.0 許可公開提供,用于開源生物信息學(xué),并在GitHub上進(jìn)行開放開發(fā)和問題跟蹤。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!