隨著人工智能在企業和社會的應用變得越來越普遍,企業需要注意機器模型中不斷涌現的人類偏見。企業可以利用人類的智慧來獲取訓練算法所需的各種數據和輸入。
有一些方法可以避免數據集中的偏差。
在訓練人工智能(AI)算法時,取決于數據的輸入。在業務環境中尤其如此,在這種情況下,人工智能的目的可能是與客戶互動,管理自動化系統或模仿人工決策。成果與目標相符至關重要。但是,至關重要的是,企業必須能夠解決任何可能歪曲人工智能對指令或請求的響應方式的偏見。
任何新產品的設計和開發階段都是至關重要的,因為它使企業可以運行測試、識別并消除任何缺陷。如果由于某種原因而忽略了設計缺陷或產品出現故障,則可以快速解決??梢哉倩赜泄收系脑O備,同時可以發布更新和補丁來修復任何軟件問題。對于典型的軟件版本而言,這一切都很好,但是處理人工智能算法并不是那么簡單。
人工智能算法是高度復雜的系統,旨在基于機器學習(ML)執行非常具體的任務。試圖消除人工智能投入運行后所產生的任何數量的偏差可能既昂貴又費時;對于“學習”的技術而言,這也違反直覺。在設計和開發階段采用適當的流程來檢測并消除偏差會更加有效。
偏見對企業不利
人工智能的基本目的和功能被引入其基礎算法中。如果人工智能要發展出固有的偏差,它將對算法產生不利影響。這可能會嚴重影響人工智能預期提供的精度和效率,從而限制人工智能滿足其商業需求的能力,所有這些都對業務不利。
盡管有開發人員的最佳意圖,偏見總能找到一種滲透人工智能算法的方法。與任何學習過程一樣,學生也會受到其老師的影響。認可機構的教育范圍取決于其課程設置。毫不奇怪,課程越多樣化,學生越開明。同樣,更大、更多樣化的數據集有助于產生更精確、更高效的人工智能算法,從而能夠做出更明智的決策。
培訓數據和測試結果
每個成功的人工智能算法都建立在訓練數據的基礎上。但是,采購滿足業務要求的數據可能會給物流和間接費用帶來巨大挑戰,尤其是如果這些要求包括滿足大眾市場的需求時。
內部開發人員團隊,軟件工程師和質量保證專家通常來自相同的年齡范圍,性別和背景。偏差經常發生在數據收集和數據標記過程中。因此,在構建人工智能算法時,最好不要依賴某一個人或一個小組來提供將用于訓練算法的數據。為了正確地訓練算法,需要不同類型的數據和輸入。
使用為人工智能算法提供與最終服務的客戶更接近的人員和體驗的暴露能力的模型,將會更有效率。企業可以使用這一模型來訓練他們的算法,以響應現實情況,檢測出偏差發生的地方并減少其潛在影響。
社區構建的算法
培訓數據的成功獲取和實施取決于數據本身的數量、質量和多樣性。企業獲取和處理此數據的唯一方法是利用多樣化的參與者。企業需要能夠從向其提供特定人口統計信息的社區中進行選擇,包括性別、種族、母語、位置、技能、地理位置以及其他適用的過濾條件。
實際上,開發有效的算法需要大量數據。大多數企業沒有能力大規模地獲取數據。他們需要專用資源的支持才能交付新的軟件和服務。最近的一個培訓用于媒體和廣播服務的智能語音助手的項目需要超過10萬種不同的語音。這些話語最終由972個人提供,這些人被遠程組裝以訓練算法。令人難以置信的壯舉是,盡管可以在實驗室中對語音進行某種程度的模擬,但人工智能仍然需要暴露于各種真實的聲音和口音中。
言語訓練只是教學大綱的一方面。眾包解決方案還可以幫助企業訓練人工智能算法以讀取手寫文檔。最近的另一個項目需要數千個手寫樣本。數量再次成為關鍵因素,因為該算法需要盡可能廣泛的唯一樣本。遠程聚集了1,000多名參與者,以提供手寫文檔并滿足對各種內容的需求。
公正的結果
刪除可能會降低人工智能最終結果準確性的意外偏差很重要。它將永遠不會是完美的,但是人工智能會不斷學習,并且最好的機器模型是基于大量多樣數據集的模型。最好的策略是從提供數量、質量和多樣性的池中獲取培訓數據。如果訓練數據沒有多樣性,該算法將無法識別廣泛的可能性,從而使該算法無效。遠程社區使企業可以訪問此數據,并補充內部開發和測試功能。眾包測試可用于訓練人工智能算法以研究和識別語音、文本、圖像和生物識別,從而為企業提供強大的輸出,可滿足不同客戶群的需求。
責編AJX
-
AI
+關注
關注
87文章
31399瀏覽量
269804 -
模型
+關注
關注
1文章
3290瀏覽量
49022 -
機器學習
+關注
關注
66文章
8435瀏覽量
132885
發布評論請先 登錄
相關推薦
評論