根據(jù)發(fā)表在《放射學:人工智能》雜志上的一份特別報告,隨著人工智能 (AI) 在放射學中的使用越來越多,在將機器學習系統(tǒng)用于現(xiàn)實世界的臨床場景之前,最大限度地減少機器學習系統(tǒng)中的偏差至關重要。
該報告是三部分系列的第一篇,概述了機器學習系統(tǒng)開發(fā)的數(shù)據(jù)處理階段使用的次優(yōu)實踐,并提出了緩解它們的策略。
“在開發(fā)機器學習系統(tǒng)的數(shù)據(jù)處理階段,會發(fā)生 12 種次優(yōu)實踐,每一種都可能使系統(tǒng)產(chǎn)生偏見,”放射學教授兼醫(yī)學博士 Bradley J. Erickson 說。明尼蘇達州羅切斯特梅奧診所的人工智能實驗室。“如果這些系統(tǒng)性偏差未被識別或無法準確量化,則會出現(xiàn)次優(yōu)結(jié)果,從而限制人工智能在現(xiàn)實世界中的應用。”
Erickson 博士表示,正確處理數(shù)據(jù)的話題越來越受到關注,但關于正確管理大數(shù)據(jù)的指南卻很少。
“監(jiān)管挑戰(zhàn)和轉(zhuǎn)化差距仍然阻礙了機器學習在現(xiàn)實世界臨床場景中的實施。然而,我們預計放射學 AI 系統(tǒng)的指數(shù)增長將加速消除這些障礙,”埃里克森博士說。“為了準備機器學習系統(tǒng)以供采用和臨床實施,我們必須盡量減少偏見。”
在報告中,Erickson 博士和他的團隊針對機器學習系統(tǒng)開發(fā)的四個數(shù)據(jù)處理步驟(每個數(shù)據(jù)處理步驟三個)中出現(xiàn)的 12 種次優(yōu)實踐提出了緩解策略,包括:
數(shù)據(jù)收集——數(shù)據(jù)集識別不當、數(shù)據(jù)來源單一、數(shù)據(jù)來源不可靠
數(shù)據(jù)調(diào)查——探索性數(shù)據(jù)分析不充分,沒有領域?qū)I(yè)知識的探索性數(shù)據(jù)分析,未能觀察到實際數(shù)據(jù)
數(shù)據(jù)拆分——數(shù)據(jù)集之間的泄漏、不具代表性的數(shù)據(jù)集、對超參數(shù)的過度擬合
數(shù)據(jù)工程——不正確的特征刪除、不正確的特征重新縮放、缺失數(shù)據(jù)的管理不善
埃里克森博士說,醫(yī)學數(shù)據(jù)通常遠非理想地適合作為機器學習算法的輸入。
“這些步驟中的每一個都可能容易出現(xiàn)系統(tǒng)性或隨機性偏差,”他說。“開發(fā)人員有責任在數(shù)據(jù)采樣、去識別、注釋、標簽和管理缺失值等具有挑戰(zhàn)性的場景中準確處理數(shù)據(jù)。”
根據(jù)該報告,數(shù)據(jù)收集前的仔細規(guī)劃應包括對臨床和技術文獻的深入審查以及與數(shù)據(jù)科學專家的合作。
“多學科機器學習團隊應該擁有同時具備數(shù)據(jù)科學和領域(臨床)專業(yè)知識的成員或領導者,”他說。
為了開發(fā)更加異構的訓練數(shù)據(jù)集,Erickson 博士和他的合著者建議從不同地理位置的多個機構收集數(shù)據(jù),使用來自不同供應商和不同時間的數(shù)據(jù),或者包括公共數(shù)據(jù)集。
“創(chuàng)建一個強大的機器學習系統(tǒng)需要研究人員進行偵探工作并尋找數(shù)據(jù)可能欺騙你的方式,”他說。“在你將數(shù)據(jù)放入訓練模塊之前,你必須對其進行分析,以確保它反映你的目標人群。人工智能不會為你做這件事。”
Erickson 博士說,即使經(jīng)過出色的數(shù)據(jù)處理,機器學習系統(tǒng)仍然容易出現(xiàn)明顯的偏差。放射學:人工智能系列的第二和第三篇報告?zhèn)戎赜谀P烷_發(fā)和模型評估和報告階段出現(xiàn)的偏差。
“近年來,機器學習已在許多臨床研究領域證明了它的實用性,從重建圖像和假設檢驗到改進診斷、預后和監(jiān)測工具,”埃里克森博士說。“這一系列報告旨在識別機器學習開發(fā)過程中的錯誤做法,并盡可能多地減少這些做法。”
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!