Facebook研究人員發布了一個數據集,旨在幫助機器學習開發人員測試算法的偏差。
即使在不同的光照條件下,算法是否能夠對不同年齡、性別和膚色的人一視同仁呢?Facebook的AI Red團隊近日發布了一個名為“Casual Conversations”的數據集,用于回答這個問題。10兆字節的數據由3011名參與者錄制的視頻組成;數據集由每人約15個1分鐘片段組成,總時長超過45000分鐘。視頻分別被標記出年齡和性別,由每個參與者自我報告,膚色由訓練有素的注解者使用標準比例確定,以及照明條件,也由注解者確定。
Facebook AI Red團隊的研究經理Cristian Canton給了我一個簡單的例子,說明了開發人員是如何使用數據集的。
“考慮門戶(Portal)設備,”他說。(門戶是Facebook價值150美元的桌面智能屏幕。)“我們有一個攝像頭,可以跟蹤人們。如果我現在是工程師來構建這項技術,為了確保它的包容性,我可以獲取臨時會話數據集,通過門戶中的跟蹤算法來運行它,并測量它在哪些地方表現不好。比如說,你可能會發現,對于一個特定年齡、膚色或性別的人來說,在昏暗的光線下,這是行不通的。然后我就會知道我的算法對于特定的子組有缺陷。”
Facebook的研究人員在去年的Deepfake Detection Challenge(一項旨在開發自動識別欺詐媒體工具的競賽)的前五名獲獎者身上測試了該數據集。
在近日發布的一篇研究論文和博客文章中,他們報告說,雖然所有五種算法都在與較暗的膚色作斗爭,但在年齡、性別和光照條件等方面表現最為一致的模型并不是第一名得主Selim Seferbekov,而是排名第三的團隊NTechLab。有趣的是,排名第四的18歲的研究小組最擅長分析的是年齡在45歲以上的年齡組中的受試者的視頻。
在不同的人群中表現平平,并不是Deep Fake Challenge的評判標準之一,因為還沒有完整的非正式對話數據集。
Said Canton說:“如果我們今天重新開始比賽,也許我們會考慮尋找一個更具包容性的方法。”
Canton說,近日發布的Casual Conversations數據集只是創造人工智能公平所需工作的開始。首先,他指出,這個問題是多方面的,雖然有這樣的數據是有幫助的,但這并不是最終的解決辦法。
Image: FacebookThese pie charts show the frequency of the different tags for age, gender, apparent skin tone, and lighting conditions in the 45,186 videos that make up the Casual Conversations data set.
至于數據集開發本身,他說,該團隊還只是在“漫長旅程的第一步”。我們已經確定了年齡、性別、膚色和光照條件,但(這些視頻)都是在美國錄制的。如果我們在其他國家錄制,我們可能會發現更多我們需要考慮且尚未看到的多樣性。”
Canton指出,錄音的音頻部分也代表了尚未開發的潛力。這些音頻文件是通過要求受試者回答簡單的對話提示(如“你最喜歡的菜是什么”)而創建的,目前只針對年齡和性別進行標記。“我們還沒有對口音進行注釋,但這是未來可實現的一個潛在途徑。我們確實認為這篇文章可以有一些有趣的結果。不過,我們要測試音頻模型的包容性。”
Canton希望,將這些數據公之于眾將引發反饋,從而使數據集更豐富、更具包容性。“我很希望看到它得到采用,然后讓我的同事和學者告訴我們更多他們的想法。我們希望進行自我批評。有了反饋,我們可以不斷改進它。我們希望它成為衡量人工智能公平性的標準方式。”
Canton還希望這個數據集的發展能夠樹立一個新的標準。他對這個數據集的創建方式感到自豪,包括它是可信來源。他在我們的談話中多次強調,3000多名受試者的付出是有報酬的,并且他們了解自己的聲音和視頻圖像是如何被使用的,如果他們改變了參與的想法,以后可以退出。
他說:“我們正試圖為負責任的人工智能在未來的樣子設定一個標準,”他補充說,Facebook團隊希望“激勵更多的人記錄擴充數據集。重要的是要做正確的事情 -- 通過使用正確的工具。”
編輯:lyn
-
Facebook
+關注
關注
3文章
1429瀏覽量
54805 -
機器學習
+關注
關注
66文章
8424瀏覽量
132761 -
數據集
+關注
關注
4文章
1208瀏覽量
24730 -
AI算法
+關注
關注
0文章
252瀏覽量
12291
原文標題:人工智能算法對年齡、性別和膚色一視同仁嗎?
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論