根據(jù)發(fā)表在《放射學(xué):人工智能》雜志上的一份特別報告,隨著人工智能 (AI) 在放射學(xué)中的使用越來越多,在將機器學(xué)習(xí)系統(tǒng)用于現(xiàn)實世界的臨床場景之前,最大限度地減少機器學(xué)習(xí)系統(tǒng)中的偏差至關(guān)重要。
該報告是三部分系列的第一篇,概述了機器學(xué)習(xí)系統(tǒng)開發(fā)的數(shù)據(jù)處理階段使用的次優(yōu)實踐,并提出了緩解它們的策略。
“在開發(fā)機器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)處理階段,會發(fā)生 12 種次優(yōu)實踐,每一種都可能使系統(tǒng)產(chǎn)生偏見,”放射學(xué)教授兼醫(yī)學(xué)博士 Bradley J. Erickson 說。明尼蘇達(dá)州羅切斯特梅奧診所的人工智能實驗室。“如果這些系統(tǒng)性偏差未被識別或無法準(zhǔn)確量化,則會出現(xiàn)次優(yōu)結(jié)果,從而限制人工智能在現(xiàn)實世界中的應(yīng)用。”
Erickson 博士表示,正確處理數(shù)據(jù)的話題越來越受到關(guān)注,但關(guān)于正確管理大數(shù)據(jù)的指南卻很少。
“監(jiān)管挑戰(zhàn)和轉(zhuǎn)化差距仍然阻礙了機器學(xué)習(xí)在現(xiàn)實世界臨床場景中的實施。然而,我們預(yù)計放射學(xué) AI 系統(tǒng)的指數(shù)增長將加速消除這些障礙,”埃里克森博士說。“為了準(zhǔn)備機器學(xué)習(xí)系統(tǒng)以供采用和臨床實施,我們必須盡量減少偏見。”
在報告中,Erickson 博士和他的團(tuán)隊針對機器學(xué)習(xí)系統(tǒng)開發(fā)的四個數(shù)據(jù)處理步驟(每個數(shù)據(jù)處理步驟三個)中出現(xiàn)的 12 種次優(yōu)實踐提出了緩解策略,包括:
數(shù)據(jù)收集——數(shù)據(jù)集識別不當(dāng)、數(shù)據(jù)來源單一、數(shù)據(jù)來源不可靠
數(shù)據(jù)調(diào)查——探索性數(shù)據(jù)分析不充分,沒有領(lǐng)域?qū)I(yè)知識的探索性數(shù)據(jù)分析,未能觀察到實際數(shù)據(jù)
數(shù)據(jù)拆分——數(shù)據(jù)集之間的泄漏、不具代表性的數(shù)據(jù)集、對超參數(shù)的過度擬合
數(shù)據(jù)工程——不正確的特征刪除、不正確的特征重新縮放、缺失數(shù)據(jù)的管理不善
埃里克森博士說,醫(yī)學(xué)數(shù)據(jù)通常遠(yuǎn)非理想地適合作為機器學(xué)習(xí)算法的輸入。
“這些步驟中的每一個都可能容易出現(xiàn)系統(tǒng)性或隨機性偏差,”他說。“開發(fā)人員有責(zé)任在數(shù)據(jù)采樣、去識別、注釋、標(biāo)簽和管理缺失值等具有挑戰(zhàn)性的場景中準(zhǔn)確處理數(shù)據(jù)。”
根據(jù)該報告,數(shù)據(jù)收集前的仔細(xì)規(guī)劃應(yīng)包括對臨床和技術(shù)文獻(xiàn)的深入審查以及與數(shù)據(jù)科學(xué)專家的合作。
“多學(xué)科機器學(xué)習(xí)團(tuán)隊?wèi)?yīng)該擁有同時具備數(shù)據(jù)科學(xué)和領(lǐng)域(臨床)專業(yè)知識的成員或領(lǐng)導(dǎo)者,”他說。
為了開發(fā)更加異構(gòu)的訓(xùn)練數(shù)據(jù)集,Erickson 博士和他的合著者建議從不同地理位置的多個機構(gòu)收集數(shù)據(jù),使用來自不同供應(yīng)商和不同時間的數(shù)據(jù),或者包括公共數(shù)據(jù)集。
“創(chuàng)建一個強大的機器學(xué)習(xí)系統(tǒng)需要研究人員進(jìn)行偵探工作并尋找數(shù)據(jù)可能欺騙你的方式,”他說。“在你將數(shù)據(jù)放入訓(xùn)練模塊之前,你必須對其進(jìn)行分析,以確保它反映你的目標(biāo)人群。人工智能不會為你做這件事。”
Erickson 博士說,即使經(jīng)過出色的數(shù)據(jù)處理,機器學(xué)習(xí)系統(tǒng)仍然容易出現(xiàn)明顯的偏差。放射學(xué):人工智能系列的第二和第三篇報告?zhèn)戎赜谀P烷_發(fā)和模型評估和報告階段出現(xiàn)的偏差。
“近年來,機器學(xué)習(xí)已在許多臨床研究領(lǐng)域證明了它的實用性,從重建圖像和假設(shè)檢驗到改進(jìn)診斷、預(yù)后和監(jiān)測工具,”埃里克森博士說。“這一系列報告旨在識別機器學(xué)習(xí)開發(fā)過程中的錯誤做法,并盡可能多地減少這些做法。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!