利茲大學:人工智能的優點需要更高的透明度
人工智能開發人員需要更加開放地評估他們生產的工具,以確保人們了解高科技人工智能的實際效果。
來自機構的16名研究人員呼吁對人工智能系統的評估和報告方式進行重大改變,以便其他學者和用戶可以充分了解這些工具可以做什么,不能做什么。
利茲大學計算機學院的安東尼·科恩(Anthony Cohn)教授是16月14日星期五在《科學》雜志上發表的一篇政策論文背后的<>位學者之一,該論文主張這些變化。
科恩教授也是艾倫圖靈研究所的研究員,他警告說,如果沒有人工智能的更多透明度,人們“終可能會在不應該信任一個系統的時候信任一個系統”。
人們終可能會在不應該信任一個系統的時候信任一個系統
傳統上,人工智能系統是根據“基準”進行評估的——通常是“問題實例”的大型數據集,如一組X射線掃描,異常情況以注釋的形式突出顯示。人工智能系統可以在其中的一部分上進行訓練,然后在一組看不見的實例上進行測試,沒有任何注釋,并評估它能夠預測正確注釋的能力。
然后通過匯總統計數據來衡量和報告人工智能系統的整體性能,并可能達到非常高的性能水平。雖然是衡量系統整體性能的潛在有用指標,但這些匯總統計數據可以掩蓋“少數情況”表現不佳的領域,這對任何依賴整體統計數據的人來說都有深遠的影響,他們認為人工智能系統在各方面都同樣可靠。
在用于幫助醫護人員找到診斷的人工智能中,這些系統在觀察來自特定種族或人口統計的人時可能會出現問題,因為這些實例只占其“培訓”的一小部分,或者工具在識別特定罕見疾病或異常方面的成功率可能顯著降低。
科恩教授說:“隨著人工智能如今在新聞中如此之多,以及許多關于人工智能系統性能的主張以及據稱在通用人工智能(AGI)方面取得的進展,正確理解新系統結果時取得的實際進展,以及系統的優勢和劣勢,變得更加重要。
“隱性偏見”的風險
這個問題可以適用于許多不同的領域;他補充說,一個非醫學的例子可能是一個經過訓練的系統來做出信用卡申請的決策 - 雖然它可能被證明在從先前決策數據集中提取的測試數據非常準確,但這可能會掩蓋對特定少數群體申請人的偏見。
這篇題為“重新思考人工智能評估結果報告”的論文由劍橋大學Leverhulme智能未來中心的作者Ryan Burnell博士撰寫,研究人員來自世界各地機構 - 包括利茲,哈佛大學,瓦倫西亞理工大學的瓦倫西亞人工智能研究所(VRAIN),麻省理工學院和谷歌。
人工智能的研究文化以超越當前的性能為中心,以便發表論文、贏得挑戰和排行榜。
伯內爾博士說:“人工智能的研究文化集中在超越當前的性能上,以便發表論文、贏得挑戰和排行榜。這種文化導致了對改進聚合指標的執著,并抑制了研究人員仔細詢問系統性能的積極性。相反,發布速度和整體系統準確性優先于穩健透明的評估實踐。
該論文為穩健的人工智能評估實踐制定了四項新指南,稱研究人員應盡可能詳細說明他們在開發和評估系統時使用的問題實例的細分。作者還建議,所有記錄的評估結果 - 包括成功和失敗 - 都應該提供,以便其他研究人員可以復制分析并進行后續評估。