盡管人工智能(AI)技術領域在最近取得了進步,但它依然在大多數基本應用上暴露出很多問題。
在一項新的研究中,科學家們對四個頂級人工智能系統的仇恨言論檢測能力進行了測試,他們發現所有系統在識別惡意、以及無害言論上都存在著不同程度的問題。
這一結果并不令人吃驚,因為構建可以理解自然語言細微差異的人工智能是一件非常困難的工作。然而,研究人員們診斷問題的方式卻是非常重要的。
為了更加精確地找出系統故障的原因,研究人們針對仇恨言論的方方面面制定了 29 種不同的測試,這會讓我們更容易地去了解克服系統缺陷的方法。同時,這些測試也正在幫助一項商業服務提升其人工智能的性能。
由牛津大學以及阿蘭?圖靈研究所科學家所領銜的論文作者們,對 16 家監管網絡仇恨言論的非營利組織的雇員進行了采訪。
研究團隊利用這些采訪將仇恨言論劃分為了 18 個不同的種類,僅側重于英語以及基于文本的仇恨言論,其中包括貶損用語、詆毀性文字以及威脅性詞匯。
他們還發現了 11 種經常讓人工智能監管者產生誤判的不含仇恨情緒的情形,其中包括在不冒犯他人的情況下使用臟話、被目標群體所接納的詆毀性詞語,以及引用原始仇恨言論對仇恨言論進行譴責的行為(也被稱為反面論證)。
研究人員針對 29 種不同情況中的每一種編寫了數十個范例,并且使用了像 “我討厭【某人】” 以及 “對我來說,你就是個【詆毀性詞語】” 這樣的 “模板” 語句,從而為七個受保護的群體生成相同的范例集合 —— 這些人都受美國法律的保護而不會遭到歧視。研究人員對被稱作 HateCheck 的最終數據集進行了開源處理,該數據集中共含有近 4000 個范例。
之后,研究人員又對兩項受歡迎的商業服務進行了測試:谷歌和 Jigsaw 的 Perspective AI、以及 Two Hat 的 SiftNinja。這兩個服務都允許客戶標記出帖子以及評論中帶有仇恨色彩的內容。
Perspective 的用戶包括 Reddit 以及像《紐約時報》、《華爾街日報》這樣的新聞機構,根據其所處理的有害信息,人工智能服務會對帖子以及評論進行標記,以供人工審查使用。
SiftNinja 的檢測標準過于寬松,進而沒有識別出幾乎所有的變化,而 Perspective 的標準則過于嚴格。它檢測出了 18 個仇恨種類中的大部分,但同時也標記出了許多像被接納的詆毀性詞語以及反面論證這樣的不含仇恨情緒的情況。
研究人員在測試谷歌的兩個學術模型時也發現了相同的模式,這些模型代表了業界中頂級的語言人工智能技術,它們同時也是其它商業性內容審核系統的基礎。學術模型還顯示出,受保護群體之間的表現并不相同 —— 有些群體的仇恨程度比其它群體更容易被錯誤歸類。
測試結果指明了當今人工智能仇恨言論檢測方面最具挑戰性的一個方面:審核太少,沒法解決問題;而審核太多,就會刪除掉邊緣化群體用來強調和保護自己的話語。
牛津大學互聯網研究院的博士候選人保羅·羅特格(Paul R?ttger)是本篇論文的共同作者。羅特格表示,“突然之間,你就會成為那些在仇恨言論中首當其沖的群體的懲罰者。”
Jigsaw 的首席軟件工程師露西·瓦瑟曼(Lucy Vasserman)表示,Perspective 利用人工審查來進行最終決策,進而克服了這些局限性。但是,這種方法無法擴展至更加龐大的平臺上。當前,Jigsaw 正在開發一種基于 Perspective 的不確定性的,同時可以對帖子及評論變更優先順序的系統。該系統可以自動移除帶有仇恨色彩的內容,并將邊緣信息標記出來。
瓦瑟曼說道,新研究最令人激動的地方在于,它為這種頂尖技術提供了一種細致的評估方式。她還表示,“論文中強調了的許多東西,例如對那些模型來說是一個挑戰的被人們所接納的詆毀性詞語。我們早就認識到了它們的存在,但卻一直很難對其進行量化處理。” 目前,Jigsaw 正在使用 HateCheck 來更好地了解自身模型間的差異,以及需要繼續改進的地方。
學術界也對此次研究的成果感到興奮。華盛頓大學語言人工智能研究員馬丁·薩普(Maarten Sap)表示,“這篇論文為我們評估行業中的系統提供了一個優良且干凈的資源,它會讓企業和用戶不斷地去提升自己的系統。”
羅格斯大學社會學助理教授托馬斯?戴維森托馬斯·戴維森(Thomas Davidson)對此表示認同。戴維森表示,語言模型的局限性以及雜亂無章的語言現象意味著,人們總會在識別仇恨言論的過程中對過松或過緊的問題進行取舍。他還說道,“HateCheck 數據集讓這些取舍變得可視化了。”
-End-
原文:
https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/
編輯:jq
-
谷歌
+關注
關注
27文章
6173瀏覽量
105633 -
人工智能
+關注
關注
1792文章
47438瀏覽量
238984
原文標題:測試四個頂級系統,科學家發現AI的仇恨言論審核能力依然很差
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論