利用基因組學的力量來尋找重大疾病的風險因素或尋找親屬依賴于分析大量基因組的昂貴且耗時的能力。由約翰霍普金斯大學計算機科學家共同領導的一個團隊通過創(chuàng)建一個基于云的平臺來公平競爭,該平臺使基因組學研究人員能夠輕松訪問世界上最大的基因組學數據庫之一。
被稱為 AnVIL(基因組數據科學分析、可視化和信息學實驗室空間)的新平臺使任何研究人員都能通過互聯網連接訪問數千種分析工具、患者記錄和超過 300,000 個基因組。這項工作是國家人類基因組研究所 (NHGRI) 的一個項目,今天發(fā)表在Cell Genomics上。
“AnVIL 正在顛覆基因組學數據共享的模式,通過以新方式連接研究人員和數據集,為科學提供前所未有的新機會,并有望實現令人興奮的新發(fā)現,”項目聯合負責人、彭博計算機科學與生物學杰出教授 Michael Schatz 說。在約翰霍普金斯大學。
通常,基因組分析始于研究人員將大量數據從中央倉庫下載到他們自己的數據中心,這一過程不僅耗時、低效且昂貴,而且還使與其他機構的研究人員合作變得困難。
“AnVIL 將為各種規(guī)模的機構帶來變革,尤其是那些沒有資源建立自己的數據中心的小型機構。我們希望 AnVIL 能夠公平競爭,讓每個人都有平等的機會進行發(fā)現,”沙茨說。
癌癥或心血管疾病等疾病的遺傳風險因素通常非常微妙,需要研究人員分析數千名患者的基因組以發(fā)現新的關聯。單個人類基因組的原始數據包含約 40GB,因此下載數千個基因組可能需要幾天到幾周的時間:單個基因組需要大約 10 張 DVD 的數據,因此傳輸數千意味著移動“數萬張 DVD”數據,”沙茨說。
此外,許多研究需要整合在多個機構收集的數據,這意味著每個機構都必須下載自己的副本,同時確保維護患者數據的安全。隨著研究人員開始進行規(guī)模越來越大的研究,需要同時分析數十萬到數百萬個基因組,預計這一挑戰(zhàn)在未來會變得更大。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯系刪除!