根據(jù)發(fā)表在《放射學(xué):人工智能》雜志上的一份特別報(bào)告,隨著人工智能 (AI) 在放射學(xué)中的使用越來(lái)越多,在將機(jī)器學(xué)習(xí)系統(tǒng)用于現(xiàn)實(shí)世界的臨床場(chǎng)景之前,最大限度地減少機(jī)器學(xué)習(xí)系統(tǒng)中的偏差至關(guān)重要。
該報(bào)告是三部分系列的第一篇,概述了機(jī)器學(xué)習(xí)系統(tǒng)開(kāi)發(fā)的數(shù)據(jù)處理階段使用的次優(yōu)實(shí)踐,并提出了緩解它們的策略。
“在開(kāi)發(fā)機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)處理階段,會(huì)發(fā)生 12 種次優(yōu)實(shí)踐,每一種都可能使系統(tǒng)產(chǎn)生偏見(jiàn),”放射學(xué)教授兼醫(yī)學(xué)博士 Bradley J. Erickson 說(shuō)。明尼蘇達(dá)州羅切斯特梅奧診所的人工智能實(shí)驗(yàn)室。“如果這些系統(tǒng)性偏差未被識(shí)別或無(wú)法準(zhǔn)確量化,則會(huì)出現(xiàn)次優(yōu)結(jié)果,從而限制人工智能在現(xiàn)實(shí)世界中的應(yīng)用。”
Erickson 博士表示,正確處理數(shù)據(jù)的話題越來(lái)越受到關(guān)注,但關(guān)于正確管理大數(shù)據(jù)的指南卻很少。
“監(jiān)管挑戰(zhàn)和轉(zhuǎn)化差距仍然阻礙了機(jī)器學(xué)習(xí)在現(xiàn)實(shí)世界臨床場(chǎng)景中的實(shí)施。然而,我們預(yù)計(jì)放射學(xué) AI 系統(tǒng)的指數(shù)增長(zhǎng)將加速消除這些障礙,”埃里克森博士說(shuō)。“為了準(zhǔn)備機(jī)器學(xué)習(xí)系統(tǒng)以供采用和臨床實(shí)施,我們必須盡量減少偏見(jiàn)。”
在報(bào)告中,Erickson 博士和他的團(tuán)隊(duì)針對(duì)機(jī)器學(xué)習(xí)系統(tǒng)開(kāi)發(fā)的四個(gè)數(shù)據(jù)處理步驟(每個(gè)數(shù)據(jù)處理步驟三個(gè))中出現(xiàn)的 12 種次優(yōu)實(shí)踐提出了緩解策略,包括:
數(shù)據(jù)收集——數(shù)據(jù)集識(shí)別不當(dāng)、數(shù)據(jù)來(lái)源單一、數(shù)據(jù)來(lái)源不可靠
數(shù)據(jù)調(diào)查——探索性數(shù)據(jù)分析不充分,沒(méi)有領(lǐng)域?qū)I(yè)知識(shí)的探索性數(shù)據(jù)分析,未能觀察到實(shí)際數(shù)據(jù)
數(shù)據(jù)拆分——數(shù)據(jù)集之間的泄漏、不具代表性的數(shù)據(jù)集、對(duì)超參數(shù)的過(guò)度擬合
數(shù)據(jù)工程——不正確的特征刪除、不正確的特征重新縮放、缺失數(shù)據(jù)的管理不善
埃里克森博士說(shuō),醫(yī)學(xué)數(shù)據(jù)通常遠(yuǎn)非理想地適合作為機(jī)器學(xué)習(xí)算法的輸入。
“這些步驟中的每一個(gè)都可能容易出現(xiàn)系統(tǒng)性或隨機(jī)性偏差,”他說(shuō)。“開(kāi)發(fā)人員有責(zé)任在數(shù)據(jù)采樣、去識(shí)別、注釋、標(biāo)簽和管理缺失值等具有挑戰(zhàn)性的場(chǎng)景中準(zhǔn)確處理數(shù)據(jù)。”
根據(jù)該報(bào)告,數(shù)據(jù)收集前的仔細(xì)規(guī)劃應(yīng)包括對(duì)臨床和技術(shù)文獻(xiàn)的深入審查以及與數(shù)據(jù)科學(xué)專家的合作。
“多學(xué)科機(jī)器學(xué)習(xí)團(tuán)隊(duì)?wèi)?yīng)該擁有同時(shí)具備數(shù)據(jù)科學(xué)和領(lǐng)域(臨床)專業(yè)知識(shí)的成員或領(lǐng)導(dǎo)者,”他說(shuō)。
為了開(kāi)發(fā)更加異構(gòu)的訓(xùn)練數(shù)據(jù)集,Erickson 博士和他的合著者建議從不同地理位置的多個(gè)機(jī)構(gòu)收集數(shù)據(jù),使用來(lái)自不同供應(yīng)商和不同時(shí)間的數(shù)據(jù),或者包括公共數(shù)據(jù)集。
“創(chuàng)建一個(gè)強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng)需要研究人員進(jìn)行偵探工作并尋找數(shù)據(jù)可能欺騙你的方式,”他說(shuō)。“在你將數(shù)據(jù)放入訓(xùn)練模塊之前,你必須對(duì)其進(jìn)行分析,以確保它反映你的目標(biāo)人群。人工智能不會(huì)為你做這件事。”
Erickson 博士說(shuō),即使經(jīng)過(guò)出色的數(shù)據(jù)處理,機(jī)器學(xué)習(xí)系統(tǒng)仍然容易出現(xiàn)明顯的偏差。放射學(xué):人工智能系列的第二和第三篇報(bào)告?zhèn)戎赜谀P烷_(kāi)發(fā)和模型評(píng)估和報(bào)告階段出現(xiàn)的偏差。
“近年來(lái),機(jī)器學(xué)習(xí)已在許多臨床研究領(lǐng)域證明了它的實(shí)用性,從重建圖像和假設(shè)檢驗(yàn)到改進(jìn)診斷、預(yù)后和監(jiān)測(cè)工具,”埃里克森博士說(shuō)。“這一系列報(bào)告旨在識(shí)別機(jī)器學(xué)習(xí)開(kāi)發(fā)過(guò)程中的錯(cuò)誤做法,并盡可能多地減少這些做法。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!