人們都曾看過機器控制了世界而人類被毀滅的電影。好在這些電影是娛樂性的,而且人們都認為這些場景是不會發生的。然而,一個更應該關注的現實問題是:算法偏見。
算法偏見帶來的問題
所謂“算法偏見”是指在在看似沒有惡意的程序設計中帶著創建者的偏見,或者所采用的數據是帶有偏見的。結果當然是帶來了各種問題,例如,被曲解的谷歌搜索,合格的候選人被禁止進入醫學院,聊天機器人在推特上發布種族主義和性別歧視信息等。
算法偏見造成的最棘手的問題是,從事編程的工程師即使主觀上沒有種族主義、性別歧視、年齡歧視等傾向,也有可能造成偏見。人工智能(AI,Artificial Intelligence)本質上就是為了自學而設計的,有時它的確會出錯。當然,人們可以在事后做出調整,但最好的解決辦法是一開始就防止它發生。那么,怎樣才能讓人工智能遠離偏見呢?
具有諷刺意味的是人工智能最令人興奮的可能性之一就是能夠搭建一個沒有人類偏見的世界。比如當涉及到招聘時,一種算法可以讓男性和女性在申請同一份工作時獲得平等的待遇,或者在警務工作中防止發生種族偏見。
不管人們是否意識到,人類創造的機器確實反映了人們怎樣是看待世界的,因此也會有類似的刻板印象和世界觀。由于人工智能越來越深入到生活中,人類必須重視它。
偏見的分類
人工智能面臨的另外一個挑戰是,偏見不是以一種形式出現的,而是有各種類型的。這包括交互偏見、潛意識偏見、選擇偏見、數據驅動的偏見和確認偏見。
“交互偏見”是指用戶由于自己與算法的交互方式而使算法產生的偏見。當機器被設置向周圍環境學習時,它們不能決定要保留或者丟棄哪些數據,什么是對的,什么是錯的。相反,它們只能使用提供給它們的數據——不論是好的、壞的,還是丑的,并在此基礎上做出決策。前面提到的聊天機器人Tay便是這類偏見的一個例子。它是受到一個網絡聊天社區的影響而變得偏種族主義了。
“潛意識偏見”是指算法錯誤地把觀念與種族和性別等因素聯系起來。例如,當搜索一名醫生的圖像時,人工智能會把男性醫生的圖像呈現給一名女性,或者在搜索護士時反過來操作。
“選擇偏見”是指用于訓練算法的數據被傾向性地用于表示一個群體或者分組,從而使該算法對這些群體有利,而代價是犧牲其他群體。以招聘為例,如果人工智能被訓練成只識別男性的簡歷,那么女性求職者在申請過程中就很難成功。
“數據驅動的偏見”是指用來訓練算法的原始數據已經存在偏見了。機器就像孩子一樣:他們不會質疑所給出的數據,而只是尋找其中的模式。如果數據在一開始就被曲解,那么其輸出的結果也將反映出這一點。
最后一類是“確認偏見”,這類似于數據驅動的偏見,偏向于那些先入為主的信息。它影響人們怎樣收集信息,以及人們怎樣解讀信息。例如,如果自己覺得8月份出生的人比其他時候出生的更富有創造性,那就會偏向于尋找強化這種想法的數據。
當我們了解到這么多偏見的例子滲入到人工智能系統時,似乎會引起我們的擔憂。但重要的是要認清事實,記住這個世界本身就是有偏見的,因此,在某些情況下,人們對從人工智能中得到的結果并不奇怪。然而,并不應該如此,人們需要一個對人工智能算法和系統進行測試和驗證的過程,以便在開發期間和部署之前及早發現偏見。
人工智能算法及系統的測試與驗證
與人類不同,算法不能撒謊,因此,如果結果是有偏見的,那一定有原因:和它得到的數據有關。人類可以撒謊去解釋不雇傭某人的原因,但人工智能不能。而采用算法,就有可能知道什么時候會出現偏見,并對其進行調整,以便將來能克服這些問題。
人工智能會學習,也會犯錯。通常情況下,只有在實際環境中使用算法后才能發現任何內在的偏見,因為這些偏見在實踐中被放大了。不應把算法看成是一種威脅,而是解決任何偏見問題的好機會,并能在必要的時候加以糾正。
可以通過開發系統來發現有偏見的決策,并及時采取措施。與人類相比,人工智能特別適合采用貝葉斯(Bayesian)方法來確定某種假設的概率,從而消除所有人類偏見的可能性。這比較復雜,但是可行的,特別是考慮到人工智能的重要性(在以后幾年里只會越來越重要)。
隨著人工智能系統的建立和部署,非常重要的一點是必須理解它們是怎樣工作的,只有這樣才能通過設計讓它們具有意識,避免將來出現偏見問題。不要忘記,盡管人工智能發展非常迅速,但仍處于起步階段,還有很多值得學習和改進的地方。這種調整會持續一段時間,在此期間,人工智能會變得更聰明,將有越來越多的方法來克服偏見等問題。
技術行業總是在質疑機器是怎樣工作的,為什么這樣工作。雖然大部分人工智能是在黑盒中運作的,決策過程是隱藏的,但人工智能的透明度是建立信任和避免誤解的關鍵。
目前有很多研究都在進行幫助鑒別偏見的產生,例如Fraunhofer Heinrich Hertz研究所開展的工作。他們正在研究識別不同類型的偏見,例如前面提到的偏見,還有一些更“低級”的偏見,以及人工智能訓練和發展過程中可能出現的問題。
另外還需要考慮的是無監督訓練。目前大多數人工智能模型是通過有監督訓練生成的:采集的是明顯帶有人類選擇的標簽數據。而對于無監督訓練,使用不具任何標簽的數據,算法必須要通過自己對數據進行分類、識別和匯集。雖然這種方法通常比有監督學習慢很多數量級,但這種方法限制了人的參與,因此,能夠消除任何有意識或者無意識的人為偏見,從而避免對數據產生影響。
在底層也有很多事情可以改進。在開發新產品、網站或者功能時,技術公司需要各方面的人員。多樣性會給算法提供各種各樣的數據,而這些數據也是有偏見的。如果能有一些人去分析輸出結果,那么發現偏見的可能性會更高。
此外,還可以發揮算法審計的作用。2016年,卡耐基梅隆研究小組在網絡招聘廣告中發現了算法偏見。當他們列出了在網上尋找工作的人員后,谷歌廣告顯示,男性在高收入工作中所占比例是女性的近六倍。該小組的結論是,進行內部審計將有助于減少這類偏見。
結論
總之,機器偏見來自人的偏見。人工智能的偏見有多種方式的表現,但實際上,它只有一個來源:人類自己。
處理這一問題的關鍵在于技術公司、工程師和開發人員,他們都應該采取有效的措施來防止無意中創建一種帶有偏見的算法。通過進行算法審計并始終保持透明度,就有信心讓人工智能算法遠離偏見。
-
算法
+關注
關注
23文章
4615瀏覽量
92999 -
人工智能
+關注
關注
1791文章
47352瀏覽量
238791
原文標題:讓人工智能遠離偏見
文章出處:【微信號:iotmag,微信公眾號:iotmag】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論