建立可信賴AI檢核工具

資料來源:  國家衛生研究院/ 2022-12-02/ 970期, 研究發展/ 建立可信賴AI檢核工具

文:群體健康科學研究所陳豐奇研究員

近年來電腦科學的快速進展使得人工智慧(artificial intelligence,簡稱AI)在各領域的應用蓬勃發展。就醫療領域而言,AI可用於優化醫院管理,調配醫護人力,協助疫病管控,判讀醫療影像,搜尋醫療文獻,輔助醫療診斷等,目前對醫療現場不但已產生影響,在可見的未來亦可預期其衝擊將會持續擴大並加深。

然而AI並非全無缺點。AI經常是以「預測模型」或「判斷模型」的形式行使其功能,而其預測或判斷的能力是來自於對「訓練資料」的學習;例如:若希望AI模型學會判別一張醫療影像上是否顯示出腫瘤組織的存在,必須給予該模型大量經過醫師標註的影像資料―即由醫師標示出影像中何處有腫瘤,或是該影像中完全沒有腫瘤―以供模型學習。AI模型在大量掃描這些訓練資料之後,藉由調整該模型內部的參數而「學會」如何判讀腫瘤影像;因此,訓練資料的品質、模型學習的方式(演算法)以及模型開發者訓練的方式,都會影響最後模型判斷的準確性與可靠性。換句話說,在訓練資料有偏誤、模型學習方式不當或訓練方式不佳等情形下,AI模型的預測或判斷有可能發生錯誤,而這些錯誤很可能是源自於原本存在於人類社會中的偏見。一個有名的案例是美國司法體系中所使用的「COMPAS」模型―用來預測犯人再犯罪的機率,然而由於模型訓練上的偏誤,該模型被發現對於黑人存在偏見,亦即對於類似條件的犯人,COMPAS預測黑人再犯罪的機率高於白人,這使得黑人可能在法官量刑與考慮假釋條件時受到不公平的對待。

有鑑於AI模型偏誤可能造成的嚴重後果,強調AI技術的各國、國際組織與學術社群紛紛討論並建立「可信賴AI模型」的相關規範與指導原則。例如,歐盟執委會(The European Commission)於2019年4月制定了《可信賴AI的倫理指引》(Ethics Guidelines for Trustworthy AI),其中列出了可信賴AI模型的7個要件,即可信賴AI的評估清單(Assessment List for Trustworthy Artificial Intelligence;簡稱ALTAI),包括(1)人類中介與監督(human agency and oversight);(2)技術穩健性與安全性(technical robustness and safety);(3)隱私與資料治理 (privacy and data governance);(4)透明性(transparency);(5)多樣性,非歧視與公平(diversity, non-discrimination, and fairness);(6)社會與環境福祉(societal and environmental well-being);(7)當責(accountability)。這些規範已逐漸形成AI模型可信賴度的評估標準,因此未來建構、使用與維護AI模型將須考量這些要求。

從組織治理的角度而言,上述規範恐將成為「AI治理」所需遵循的標準,並且可能會進一步成為組織合規(compliance)要求的一部分。然而,目前並沒有適當的量化檢核工具供組織檢視或稽核其AI模型的發展與使用是否符合可信賴的標準。本院群體健康科學研究所陳豐奇研究員與國立陽明交通大學科技法律學院陳鋕雄院長、王仲志博士生合作,基於國際標準ISO系統的PDCA精神(plan-do-check-act)以及上述的ALTAI原則,發展出一套易於使用的可信賴AI模型成熟度評估工具(AI Trustworthiness Maturity Model,簡稱ATM model)。ATM model依據ISO稽核的精神,將ALTAI的7個要求面向的每一個區分為(1)no formal approach;(2)reactive;(3)proactive;(4)improving和(5)optimizing等5個等級,並給予量化的分數,以評估組織對AI模型的管理在個別面向中的成熟度,並可作為組織改善的依據。

每一個ALTAI面向之下,尚可進一步區分該面向之中各項組織活動的成熟度比例,可以使管理階層易於掌握組織的AI模型治理應該強化的面向與其中的分項,從而制定改善的計畫與行動。此外,管理者也可以比較改善前與改善後的圖表,以瞭解改善作為是否有效,以及過去表現優良的面向是否繼續保持良好或有所退步等。

ATM Model可以在Microsoft Excel上實作,繪製成雷達圖、長條圖或量表指針圖,對於組織治理而言是相當低成本且易於施行的評估與管理工具。相關研究成果已於IEEE SSIM 2022(International Conference on Social Sciences and Intelligence Management)發表(Wayne Chung-Chi Wang, Chih-Hsiung Chen, and Feng-Chi Chen*. An AI trustworthiness maturity model for AI governance and auditing)。