醫(yī)生根據(jù)癥狀或在體內(nèi)的位置使用標(biāo)準(zhǔn)的疾病分類(lèi)來(lái)幫助診斷。這些分類(lèi)被稱(chēng)為疾病分類(lèi),可以幫助醫(yī)生知道哪些疾病是密切相關(guān)的,所以它們可能是由相同的潛在問(wèn)題或相同的治療方法引起的。
了解疾病的一個(gè)重要部分是估計(jì)其遺傳度,即個(gè)體疾病的遺傳變異百分比是由遺傳變異和環(huán)境因素(如接觸污染、感染或創(chuàng)傷)引起的。傳統(tǒng)上,為了計(jì)算特定疾病的遺傳率,研究人員需要昂貴的數(shù)據(jù)集,其中應(yīng)該包含各種醫(yī)學(xué)和遺傳數(shù)據(jù)以及家庭關(guān)系的詳細(xì)知識(shí)。在一項(xiàng)新的研究中,芝加哥大學(xué)的數(shù)據(jù)科學(xué)家估計(jì)了遺傳力,并利用電子健康記錄中的數(shù)據(jù)繪制了數(shù)千種疾病之間的關(guān)系圖。
該研究于2019年12月3日發(fā)表于《自然通訊》,計(jì)算了平均壽命內(nèi)各種疾病患病率的統(tǒng)計(jì)曲線(xiàn),表明這種趨勢(shì)傾向于發(fā)生在生命早期或晚期。研究人員還創(chuàng)建了“疾病嵌入”或疾病分組,根據(jù)健康記錄中的診斷代碼和注釋顯示這些疾病之間的密切關(guān)系。利用疾病嵌入揭示的這些曲線(xiàn)和模式的相似性,研究人員可以估計(jì)疾病之間的遺傳力和遺傳相關(guān)性。
UChicago的數(shù)據(jù)科學(xué)家、該論文的資深作者Andrey Rzhetsky博士說(shuō):“過(guò)去對(duì)疾病之間的遺傳力或遺傳與環(huán)境之間的相關(guān)性的每一個(gè)新的估計(jì)都是一件大事。”“在這里,我們可以估計(jì)成千上萬(wàn)的遺傳力值和成千上萬(wàn)的相關(guān)性,這在過(guò)去是非常昂貴和大規(guī)模的?!?
早發(fā)和晚發(fā)
為了建立該團(tuán)隊(duì)的統(tǒng)計(jì)模型,本文的第一作者、博士后研究員耿耿介博士使用了Truven MarketScan的數(shù)據(jù),這是一個(gè)11年間美國(guó)1.51億人不明健康索賠的數(shù)據(jù)庫(kù)。這些數(shù)據(jù)還包括丹麥國(guó)家患者登記中心(21年560萬(wàn))和瑞典國(guó)家健康登記中心(44年940萬(wàn))的數(shù)據(jù)。然后,他們創(chuàng)建了疾病流行率曲線(xiàn),并繪制了各年齡段患病人口的百分比。
該曲線(xiàn)記錄了整個(gè)預(yù)期壽命期間疾病患病率的統(tǒng)計(jì)顯著變化。曲線(xiàn)的不同極端和形狀表明,疾病在年輕時(shí)(早發(fā))或老年時(shí)(晚發(fā))更常見(jiàn)。研究人員還可以識(shí)別曲線(xiàn)上的下降或峰值,這可能是可能影響疾病的環(huán)境觸發(fā)事件的信號(hào),例如青春期、飲食變化、創(chuàng)傷或感染。
該團(tuán)隊(duì)還利用神經(jīng)網(wǎng)絡(luò)模型分析疾病何時(shí)出現(xiàn)在病歷中,建立了“疾病嵌入”或疾病之間的關(guān)系。這種分析是仿照自然語(yǔ)言處理,通過(guò)分析周?chē)膯卧~來(lái)定義單詞的基本語(yǔ)義。在健康檔案中,疾病就像一個(gè)詞,其一生發(fā)展的歷史記錄就是一句話(huà)。例如,隨著醫(yī)生縮小診斷范圍,“頭痛”之后可能是“偏頭痛”。因此,當(dāng)你把它們畫(huà)在二維地圖上時(shí),頭痛似乎比胃痙攣更容易引起偏頭痛。
Rzhetsky說(shuō):“系統(tǒng)正在通過(guò)優(yōu)化每種疾病的20個(gè)參數(shù),從真實(shí)的一系列患者數(shù)據(jù)中學(xué)習(xí)?!薄霸谶@種情況下,考慮到患者過(guò)去的健康史,網(wǎng)絡(luò)試圖預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。你可以像醫(yī)生診斷時(shí)你腦子里想的那樣去想?!?
識(shí)別新模式
當(dāng)他們研究數(shù)據(jù)時(shí),出現(xiàn)了幾種模式。在美國(guó)數(shù)據(jù)中,早發(fā)疾病的數(shù)量多于晚發(fā)疾病,但在人群中的發(fā)病率較低。這可能是因?yàn)槌R?guī)的新生兒篩查和兒童監(jiān)測(cè)往往會(huì)發(fā)現(xiàn)更多的疾病,或者是因?yàn)榫哂袕?qiáng)烈遺傳成分的疾病往往會(huì)更早發(fā)作,導(dǎo)致更多的死亡。
當(dāng)兩種疾病僅通過(guò)遺傳學(xué)密切相關(guān)時(shí),流行曲線(xiàn)的形狀可能會(huì)有很大不同。如果僅通過(guò)環(huán)境因素聯(lián)系起來(lái),它們非常相似,但當(dāng)環(huán)境和遺傳相關(guān)性高時(shí),曲線(xiàn)最相似。
研究人員還發(fā)現(xiàn),一些看似密切相關(guān)的疾病(如精神疾病)根據(jù)平均發(fā)病年齡被分為不同的組。例如,注意力缺陷多動(dòng)障礙和自閉癥發(fā)作較早,而精神分裂癥、雙相情感障礙和抑郁癥往往發(fā)作較晚。
賈說(shuō),如此大的健康數(shù)據(jù)集的初始操作驗(yàn)證了他們基于曲線(xiàn)形狀相似性的疾病分類(lèi)方法。在高水平上,結(jié)果與疾病組之間公認(rèn)的分類(lèi)和關(guān)聯(lián)相匹配,但是發(fā)現(xiàn)了一些事故。比如發(fā)現(xiàn)寄生蟲(chóng)感染與神經(jīng)纖維瘤病、耳膜疾病、成骨不全(脆性骨病)、先天性眼部異常等一系列非傳染性疾病一致。
按年齡和性別劃分的疾病流行曲線(xiàn)以前從未像這項(xiàng)研究那樣進(jìn)行過(guò)系統(tǒng)的比較(點(diǎn)擊此處查看500多種疾病的性別和國(guó)家分級(jí)流行曲線(xiàn)的可搜索數(shù)據(jù)庫(kù))?,F(xiàn)在,該團(tuán)隊(duì)希望改進(jìn)這些工具,并使用它們來(lái)填補(bǔ)尚未充分研究的情況下的空白。
標(biāo)簽:
免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!