建立對人工智慧的信任:課責性和可重複性的關鍵作用
中央研究院多次舉辦的「公共性與 AI 論壇」中,有學者提出,我們必須接受人工智慧某些方面根本無法解釋的事實。但無法解釋意味着什麼呢?
在臺灣的企業文化中,這些人工智慧的解釋問題很容易用其他替代方案來解決,這些替代方案可能是我們生活中依賴的一些後備力量,也可能是一些簡單的替代方案,比如在實在無法解釋的情況下,請經理下跪、請工程師道歉、請總經理說情。
在飛速發展的人工智慧(AI)領域,人工智慧系統的實施和可重現性已成為人們最關心的問題。隨着人工智慧技術不斷滲透到我們生活的方方面面,確保這些系統的有效實施和可靠重現對於問責制和信任度至關重要。
本文深入探討了圍繞人工智慧實施和可重複性的挑戰和考慮因素。我探討了部署人工智慧系統的複雜性、可重複性對實現一致結果的重要性,以及對利益相關者的潛在影響。
課責與責任的模糊性
我們需要理解兩個重要的術語:課責(Accountability)和責任(Responsibility),這兩個詞經常被人工智慧的創造者混用,並且讓人混肴,尤其是對不太了解法律或政策制定方式的人來說。重要的是要記住,根據不同的情況、不同的人,甚至你所在的國家,這些詞可能有不同的含義。
要準確使用這些詞語,請諮詢律師或負責任的當局。在臺灣,數位發展部應該是負責這些事務的機構。因此,在我們進一步討論之前,讓我們確保大家對這些詞語的含義有一致的認識。
責任是指確保創建人工智慧系統的人員正確履行職責。他們需要確保自己創造的人工智慧是安全的、運行良好的,並且對社會有益。課責是指如果人工智慧系統出了問題,誰必須承擔責任。如果人工智慧犯了錯誤,我們應該責怪誰?誰需要解決問題?簡而言之,課責是責任的一部分。關於課責制的定義,目前還沒有全國性的共識。
可解釋性可能達不到
一個很好的例子是美國的 FICO 公司,該公司負責計算人們的信用分數。在美國,FICO 的這些分數非常重要。它們會影響一個人一生中的重大決定,比如能否獲得貸款、是否有足夠的錢應急、是否有資格申請汽車貸款、房屋貸款和信用卡。
幾年前,FICO 舉辦了一次可解釋人工智慧競賽。這給這個不斷發展的領域帶來了很多問題。首先,計算機科學家解釋事物的方式並不總是符合其他領域的專家或日常用戶的需求。而且,這些不同的解釋方式之間似乎缺乏對話。儘管每個人都在不同的層面上工作,但卻沒有額外的幫助來確保每個人都能相互理解。
很多人認為,一個人能否理解某件事與他的大腦如何工作有很大關係。因此,我們需要弄清楚哪些人需要這些解釋。也許我們需要更好地了解這些群體的特徵,因為這些特徵可能是他們需要不同解釋的原因。此外,在使用人工智慧時,他們所扮演的不同角色也會影響他們的期望和看待事物的方式。
由於不同領域之間的對話既困難又低效,因此總是要求解釋人工智慧可能不是最好的辦法。
接受不可解釋性
中央研究院舉辦多次舉辦的「公共性與 AI 論壇」中,有學者提出,我們必須接受人工智慧某些方面根本無法解釋的事實。但無法解釋意味着什麼呢?
讓我們來看一個日常的例子。我每天開車去台北 101,但我並不真正了解我的汽車發動機是如何工作的。如果出現問題,我也沒有能力去解決;我所能做的就是盲目地相信汽車會正常運轉。有趣的是,這種不了解並沒有減少我對汽車的信任。我可以操作它,我相信操作的過程。這種信任似乎是許多社會交往的基礎。那麼,為什麼說到汽車,這種信任是可以接受的,而說到算法,這種信任卻不能接受呢?
在臺灣的企業文化中,這些人工智慧的解釋問題很容易用其他替代方案來解決,這些替代方案可能是我們生活中依賴的一些後備力量,也可能是一些簡單的替代方案,比如在實在無法解釋的情況下,請經理下跪、請工程師道歉、請總經理說情。
原因可能有很多。例如,如果汽車拋錨了,我們可以選擇呼叫道路救援,把車開到修理廠,甚至依靠校園保安。此外,還有保險機制和其他形式的支持。然而,在人機交互中,這些可見的支持結構似乎並不存在。這種缺失會讓我們覺得,與機器的互動充滿了風險,信任成為一個至關重要的問題。
也就是說,儘管民眾對汽車的複雜工作原理缺乏了解,但卻並不覺得缺乏責任感。這是因為有既定的系統來處理可能出現的任何問題。相比之下,在人工智慧方面,這些系統往往沒有那麼明確的定義或理解,這導致不確定性和不信任感。
相較於可解釋性,可逆性在臺灣並不是很熱門的主題。可逆性是支持系統的一個關鍵因素。
可逆性
可逆性(Reversibility)是指能夠撤銷或改變人工智慧系統做出的決定。當人工智慧系統做出的決定造成問題或傷害時,這一點就非常重要。能夠逆轉此類決定有助於減輕這些問題的影響,並確保系統能夠對其所作所為負責。
在軟體行業,能夠逆向操作早已成為一種良好做法。軟體開發人員通常會創建一些功能,讓用戶撤銷操作或讓系統恢復原狀。這不僅有助於修正錯誤,而且對於保持用戶的信任也非常重要。如果用戶知道他們可以輕鬆撤銷操作,他們就更有可能放心使用軟體。
如果我們將這一理念應用於人工智慧,可逆性可以成為讓人工智慧承擔責任的一種方式。如果人工智慧系統做出的決定導致了不好的結果,那麼能夠撤銷該決定就能提供一種修復方法。
為了確保我們能夠撤銷人工智慧做出的決定,我們創造人工智慧產品的方式必須能夠重複和複製,這一點非常重要。這意味着我們可以一次又一次地從人工智慧系統中,盡可能獲得相同的結果。
可逆性除了工程上需要達成,在其他領域也可能有對應的環境要處理,像是司法系統的可救濟機制,但本篇只討論工程上的產物(Artefacts)交付情境,不再多做著墨。
可重複性的意義
能夠重現結果讓我們有信心重現有問題的樣品並找出責任人。它還能讓我們重現完美的樣本,避免不同供應商在交付產品部件時產生分歧。這對投資人工智慧初創企業的人來說非常重要。它降低了監管給他們的投資帶來問題的可能性。
讓我們設想一家名為 "AI Vision Inc." 的新人工智慧初創公司。他們創造了一種新的人工智慧面部識別軟體,在開發人員的電腦上測試效果非常好。團隊非常興奮,準備開始大量複製該軟體。主要開發人員之一約翰在自己的電腦上對軟體進行了多次測試,每次都能完美運行。"他在一次團隊會議上自信地說:"這在我的電腦上也能運行。
但是,當他們開始大量複製軟體進行銷售時,他們遇到了問題。在不同硬體和作業系統的電腦上,軟體不能像預期的那樣工作。面部識別不那麼準確,軟體也不可靠。
這是一個典型的 "這在我的電腦上能用 "的問題,即軟體在不同電腦上的運行效果不同。這是軟體開發中的一個常見問題,對於人工智慧產品來說也是一個大問題,因為在人工智慧產品中,每次都能以同樣的方式運行是非常重要的。
為了解決這個問題,AI Vision 公司決定使用 "黃金樣本 "(Godlen Sample)方法。黃金樣本是指經過測試並批准用於製作大量拷貝的軟體的完美版本。在這種情況下,黃金樣本就是面部識別軟體的一個特定版本,它能可靠、準確地工作。嚴格來說,面部識別軟體的輸出無法預期,因此我們只能確保,我們能追究到最小粒度,可能出現問題的地方。
黃金樣本被用作製作大量拷貝的標準。製作的每份軟體拷貝都必須和黃金樣本一樣好用。這樣就能確保無論在哪台電腦上使用,軟體每次都能以同樣的方式運行。這也可以用來向監管機構證明,所有拷貝都符合最初的品質承諾。
當最終產品出現問題,監管機構開始提出質疑時,黃金樣本法是人工智慧產品製造商處理供應商之間分歧的好方法。它可以幫助找出哪些供應商應該對問題負責,因為在談判桌上所需的所有證據都封存在這裡。
製作黃金樣品的挑戰
封存黃金樣本並非易事。眾所周知的實用做法是軟體版本控制。然而,這並不能解決全部難題。人們認為有兩種更好的方法。一種是在雲計算行業廣泛應用的容器技術,另一種是名為 NIX 的可複製封裝工具。
軟體版本管理是不夠的
軟體版本化就像給不同版本的軟體取名字,就像給寵物金魚取名為 "Goldie II",表示它是原版 "Goldie "的更新版本。
讓我們用烹飪來做個比喻。把 PyTorch 這樣的軟體想象成我們正在烹飪的一道美味佳肴。源代碼(原始菜譜)並不足以讓我們每次都能做出一模一樣的菜肴。這不僅取決於是否有正確的配料(軟體依賴關係、編譯器和庫),還取決於如何準備和組合這些配料(編譯過程)。
將源代碼視為蛋糕的食譜。兩個人可以擁有相同的配方,但最終做出的蛋糕味道卻不同。造成這種差異的原因可能是所用配料的品質或品牌、特定的烤箱設置,甚至是烘烤蛋糕的海拔高度。在軟體世界中,配料是指庫和編譯器,而烹飪條件可以看作是特定的機器配置。
例如,PyTorch 是一個機器學習庫,就像一個特殊的蛋糕配方。它是用特定語言編寫的(就像配料),需要一個編譯器(把它想象成廚師)將其轉換成計算機可以運行的形式(烤蛋糕)。現在,即使兩個人擁有完全相同的 PyTorch 配方,也不能保證做出的蛋糕是一樣的,因為他們的廚房(計算機)和廚師(編譯器)可能是不同的。這些差異可能是由於特定的庫(配料的品質或品牌)或計算機的配置(烤箱設置)造成的。
因此,要重現相同的菜肴(或軟體結果),我們不僅需要描述菜譜(源代碼),還需要描述烹飪(編譯和運行)的確切條件。這包括所有配料的具體細節、使用的設備、精確的烤箱設置等等。這就是在人工智慧領域創建可重現的研究環境所面臨的挑戰。為了確保相同的結果,我們必須記錄過程中的每一個細節,而不僅僅是源代碼。
程式碼在業界目前多使用 Git管理。模型(model)跟資料集(data set)有若干工具跟格式還在競爭,尚未有人一統江湖,例如 Model Registr、DVC等等。
容器可能也不是最佳選擇
容器(Container )是人工智慧產品構建者常用的方法,尤其是那些依賴雲技術的產品。它們有點像虛擬盒子,裡面裝着軟體程序運行所需的一切。這包括程序本身,以及它所需的所有工具和設置。這很好,因為它意味着程序可以在任何可以運行容器的計算機上運行,就像一個盒子可以被移動到任何房間一樣。
容器在可重複性方面存在問題。可重複性意味着,如果你再次做同樣的事情,就會得到同樣的結果。這就好比烤蛋糕,如果你按照相同的配方使用相同的配料,每次烤出來的蛋糕應該都是一樣的。
但對於容器來說,這就像用每次都會改變的食譜烤蛋糕。如果你今天製作了一個容器,一年後再嘗試製作,你可能會得到不同的結果。這是因為容器使用的工具和設置可能已經改變。容器也無法描述當時用於建造的材料。
這對人工智慧來說是個問題,因為人工智慧需要可複製性。如果人工智慧做出了一個決定,我們需要能夠理解它為什麼做出這個決定,是誰製造了它。如果我們不能用同樣的材料、同樣的製作過程重現同樣的結果,就很難理解人工智慧為什麼會這樣做,也很難讓利益相關者信服。
因此,雖然容器是運行軟體程序的好工具,但它們並不能解決人工智慧的可重複性問題。它們無法確保相同的輸入(如數據或設置)總是產生相同的輸出(如決策或行動)。而這正是我們需要解決的問題,以便讓人工智慧變得負責任和可信賴。
在容器管理的選擇上,是 Docker 跟 Kubernetes 是當前業界的主要選擇。學界目前有一些研究,製作出一些雛形,但並不是很實用。這促使技術人員尋找其他方法來解決這個問題,比如 NIX,它是一種以獨特方式管理軟體套件和設置系統的工具,專門適用於開發作業系統這這種龐然大物的情境。
NIX 有潛力,但...
由於 NIX 具備讓研究具有可重複性,廣受研究員關注。你可以把它想象成一本神奇的食譜,每次使用時,所有成分和步驟都是一樣的,結果也是一樣的。這一點在研究中非常重要,因為它意味着你可以反覆進行相同的實驗,無論其他方面是否隨時間發生變化,你總會得到相同的結果。正因為如此,Nix 成為可重複研究討論中的熱門話題已經有一段時間了
既然現代人工智慧的部分成果被認為是一項科學和工程工作,那麼其他科學學科中使用的工具和原理也可以應用於人工智慧。與其他科學工作一樣,人工智慧研究涉及實驗、假設檢驗和可重複性需求。最近,一些研究顯示了使用 Nix 實現可信人工智慧的潛力。
然而,NIX 是一個非常小眾的社群驅動工具,缺乏商業支持,也不被視為所有人工智慧開發工具的優先支持選項,這些都是它的主要缺點。NIX 獨特的設計理念也導致熟練掌握這種工具的人才短缺,使得採用這種技術的公司很難找到合適的人才。與之競爭的套件管理軟體有 Canonical 的 Snap、Red Hat 的 Flatpak
法規?
據我所知,目前針對人工智慧強制監管的法規並不多,臺灣亦尚未立法。課責、責任,這些大詞在監管領域的許多文章中仍然模稜兩可,儘管要求監管的聲音正在高漲。但目前,它只是有很多討論和無休止的研討會。投資者和製造商在使用某些數據時,可能只需要注意與《通用數據保護條例》(GDPR)相關的潛在風險。當然,還有有關消費者保護的法律。
不過,事情總是會變。OpenAI 領導人呼籲制定法規,防止人工智慧毀滅人類。我們可能會看到對符合法律規定的下一代人工智慧部署方法提出更高的要求。NIX,此類工具或將發揮重要作用。
[note!] .歐盟於 2023 年 12 月 14 日通過了首個人工智慧法案,違反相關規範,可能被裁罰 3,500 萬歐元 (約 3,766 萬美元) 或全球營業額的 7%,到 750 萬歐元或營業額的 1.5% 不等罰金,具體金額取決於違規情況及公司規模。
總結
最後,當我們談論人工智慧時,記住三件事非常重要:責任、課責性和可重現性。責任就是產製者確保以正確的方式使用人工智慧。課責是指如果出了問題,要找出負責人。而可重複性是指能夠重複做同樣的事情,並得到同樣的結果。可重複性是 「黃金樣本 」方法的關鍵部分,也是原始設備製造商(OEM)世界中一種常見的做事方式。它是指製作一個完美的示例或 "黃金樣本",供其他事物進行比較。
對於想要投資人工智慧並擔心即將約來越緊縮的監管空間的人來說,可重複性應該是您應該關注的主要事項之一。也許,這裡面有一些商機?人工智慧科技基金會顧問黃逸華便認為人工智慧標準化為臺灣AI產業帶來一絲機會。
[!quote] 平心而論,臺灣可以拿得出來說嘴,而且最具全球高度及影響力的主題是,臺灣在代工領域多年累積的管理能力與優(shin)質(shian)人(de)力(gan)。在AI標準化的要求下,從數據收集、模型訓練、結果驗證到落地應用,每個環節都必須高度透明,並符合規範,換言之,一旦落實AI標準化,只要符合一定的程序、通過一定驗證,就可以不受地區限制,符合成本效益就可以,而這是臺灣管理經驗的核心優勢。
我也相當認同此觀點。
[!note] 本文原始版本發佈於 2023-06-05。本次更新,增加了補充說明以及參考文獻,
參考文獻
- Mariarosaria, Luciano (2023), Accountability in artificial intelligence: what it is and how it works.
- Doshi-Velez (2017), Accountability of AI Under the Law: The Role of Explanation
- 黃逸華:人工智慧標準化為臺灣AI產業帶來一絲機會
- 公共性與 A I論壇:演算法治理的透明度難題
- 公共性與 AI 論壇:朝向可解釋的AI:法學上的意義與運用實例
- 公共性與 AI 論壇:Explainable AI: A Sociotechnical Process
- Lev (2022), Why Reproducibility is Important for ML
- Albertoni (2023), Reproducibility of Machine Learning: Terminology, Recommendations and Open Issues
- Toward practical transparent verifiable and long-term reproducible research using Guix
- Vallet (2022), Traceability for Trustworthy AI: A Review of Models and Tools
- Przybilla, Reproducibility with Nix
- Harald Semmelrock, LibGuides: Machine Learning and AI: Research Reproducibility
- DVC - Data Version Control
- Model Registry
- NIX
- Docker
- PyTorch