CUNY SPH 的研究人員及其同事最近發(fā)布了一種強大的新數(shù)據(jù)結(jié)構(gòu),用于分析用于開源統(tǒng)計計算的基因組數(shù)據(jù)。
在基因組研究中,科學家分析 DNA 的各個方面,例如拷貝數(shù)、突變和化學修飾,以了解基因如何發(fā)揮作用以及如何導致癌癥等疾病。然而,這些實驗產(chǎn)生的數(shù)據(jù)提出了在進行任何統(tǒng)計分析之前需要克服的信息學挑戰(zhàn):就像一個拼圖的碎片不能整齊地拼在一起,每個樣本在不同的基因組位置都有觀察結(jié)果。
為應對這一挑戰(zhàn),紐約市立大學 SPH 校友和高級數(shù)據(jù)科學家 Marcel Ramos、副教授 Levi Waldron 以及來自哈佛大學 TH Chan 公共衛(wèi)生學院、哈佛醫(yī)學院和 Roswell Park 綜合癌癥中心的同事開發(fā)了一種名為“RaggedExperiment”的新方法R/Bioconductor 統(tǒng)計編程環(huán)境。它允許有組織地表示這種“參差不齊”的基因組數(shù)據(jù),保留所有信息并提供工具,使以不同方式轉(zhuǎn)換和分析此類數(shù)據(jù)變得更加容易。
“在用于多組學數(shù)據(jù)分析的 Bioconductor 生態(tài)系統(tǒng)中,沒有用于無損表示參差不齊的基因組數(shù)據(jù)的 Bioconductor 數(shù)據(jù)類,也沒有用于促進靈活轉(zhuǎn)換為矩陣表示(例如編碼突變的數(shù)量或每個基因的拷貝數(shù))的方法,”說拉莫斯。“RaggedExperiment 為基因組數(shù)據(jù)分析師的工具箱添加了一個更強大、更高效、更不容易出錯的工具。”
“Marcel 多年來開發(fā)和改進了這個軟件,它已經(jīng)找到了一個重要的用戶群,所以我很高興正式描述它并將其發(fā)表在生物信息學領域的頂級期刊之一,”Waldron 說。“通過增強我們分析和理解基因組數(shù)據(jù)的能力,這一發(fā)展為提高我們對疾病的認識和開發(fā)更好的治療方法開辟了新的可能性。”
RaggedExperiment 包根據(jù) Bioconductor 項目的 Artistic 2.0 許可公開提供,用于開源生物信息學,并在GitHub上進行開放開發(fā)和問題跟蹤。
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!