印第安納州西拉斐特——使用機器學習進行藥物開發(fā)的挑戰(zhàn)之一是為計算機創(chuàng)建一個從一組數(shù)據(jù)點中提取所需信息的過程。藥物科學家必須提取生物數(shù)據(jù)并訓練軟件,以了解典型的人體將如何與藥物組合相互作用。
普渡大學的藥物發(fā)現(xiàn)研究人員創(chuàng)建了一個新的數(shù)據(jù)挖掘框架,用于訓練機器學習模型。這個名為Lemon的框架可以幫助藥物研究人員更好地挖掘蛋白質數(shù)據(jù)庫(PDB),這是一個擁有超過14萬種生物分子結構的綜合資源,每周都有新的結構發(fā)布。這項工作發(fā)表在10月15日的《生物信息學》雜志上。
普渡大學科學學院分析和物理化學助理教授Gaurav Chopra說:“PDB是藥物發(fā)現(xiàn)領域的重要工具。”問題是,整理所有積累的數(shù)據(jù)可能需要很多時間。機器學習可以有所幫助,但你仍然需要一個強大的框架,計算機可以從中快速分析數(shù)據(jù),以幫助創(chuàng)建一個安全有效的框架。。"
檸檬軟件平臺是一個帶有Python綁定的快速C 11庫,幾分鐘就能開采出PDB。在PDB加載所有傳統(tǒng)mmCIF文件大約需要290分鐘,但Lemon在8核電腦上應用簡單的工作流程大約需要6分鐘。Lemon允許用戶編寫自定義函數(shù),將它們包含在其軟件包中,并以標準方式開發(fā)自定義函數(shù),從而為整個科學界生成獨特的基準測試數(shù)據(jù)集。
與Chopra合作開發(fā)化學博士平臺的Jonathan Jonathan Fine表示:“沉積在PDB的實驗結構為結構和計算生物學的科學和教育帶來了很多進步,有助于推動藥物開發(fā)等領域的發(fā)展?!薄拔覀儎?chuàng)建了Lemon作為一站式商店,可以快速挖掘整個數(shù)據(jù)庫,提取對藥物開發(fā)至關重要的有用生物信息?!?
Lemon之所以得名,是因為它最初旨在為藥物設計軟件創(chuàng)建基準測試集,并識別lemon與在PDB無法很好建模的生物分子之間的相互作用。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!