欢乐颂第二季,我欲封天耳根小说零,玄幻小说完本

糟糕的數據對于人工智能來說是個大問題，隨著企業越來越接受人工智能，風險只會越來越高。人工智能和機器學習有望徹底改變很多行業，但它們也帶來了重大風險——鑒于該技術現在才剛剛開始得到大力實施，其中有很多風險尚待發現。

已經有一些公共的，令人尷尬的人工智能變壞的例子。微軟的Tay由于遭到推特釣魚(Twitter troll)的破壞，在一天之內從無辜的聊天機器人變成了一個瘋狂的種族主義者。兩年前，谷歌不得不審查“大猩猩”和“黑猩猩”這樣的關鍵詞的圖片搜索，因為它返回的結果是非洲裔美國人的照片——而這個問題仍未完全解決。

隨著企業越來越接受人工智能，風險只會越來越大。

西雅圖一家將人工智能應用于醫療保健數據的公司KenSci的人工智能的負責人Ankur Teredesai說：“我們一覺醒來就冒汗。到最后，我們談論真實的病人，真實的生活。”

KenSci的人工智能平臺向醫生和保險公司提供醫療保健建議。如果醫療記錄或用于創建預測模型的訓練集中存在錯誤，后果可能是致命的，這種情況揭示了人工智能實施的關鍵風險因素：數據實踐的質量。

人工智能的護欄壞掉了

KenSci處理來自世界各地的合作伙伴組織的數百萬患者記錄。這些信息是以不同的語言，標準和格式，并按照不同的分類方案組織起來的。

為了解決這個問題，KenSci使用本土和第三方工具，它還取決于合作伙伴的醫療保健機構。

他說：“醫療保健系統投入了大量的精力來制定協議、確保合規性、確保他們的數據資產盡可能的干凈。五年或十年前，這是個大問題，今天，由于西方世界、亞洲和澳大利亞大部分地區數字化的成熟，編碼顯著減少，世界上很多地方已經轉向標準化。”

為了減輕對人工智能的依賴所產生的風險，KenSci有三個額外的安全層。首先有防御錯誤的前線：提供護理的醫生。

Teredesai說：“我們不相信人工智能。我們相信輔助智能，我們把如何行動的決策交給醫生這樣訓練有素的專家來制定。”

他說，KenSci平臺只是提出建議，而在大多數情況下，這些建議甚至不適用于治療。他說：“我們的大部分工作都集中在成本預測、工作流分析和工作流程優化上，很多時候，我們離臨床決策只有幾步之遙。”

該公司自己的醫療專家通過評估外部傳來的數據以及數據使用方式上的限制來提供第二道防線。例如，來自男性患者治療結果的數據可能不適用于女性。

他說：“我們有一個嚴格的程序來確保模型不被評分——如果底層的數據不正確，不足以使該模型得到評分——錯進錯出。”

最后，有外部的同行評審對KenSci模型的輸出結果，以及由平臺做出決策的因素進行評審。

他說：“我們的研究人員在人工智能運動的公平性和透明度方面處于最前沿。我們相信公開出刊物，相信模型正在對分發的參數做決策，以便專家不僅可以評估模型的輸出結果，還可以評估納入該評分體系的因素和分數。為了確保KenSci平臺是開放的、透明的、接受調查的，人們花了很多心思。”

KenSci的方法顯示了公司在進一步依賴人工智能時需要實施的各種流程。

一切關乎數據

以人工智能為基礎的網絡安全初創公司Jask的首席技術官JJ Guy說，人工智能的90%是數據物流。他說，所有主要的人工智能進展都受到數據集進步的推動。

他說：“算法簡單而有趣，因為它們是干凈、簡單和離散的問題。收集、分類和標記用于訓練算法的數據集是一份苦差事——尤其是足以反映真實世界的數據集。”

他說，以應用提供逐向駕駛路線導航的程序為例。它們已經存在了幾十年，但最近才變得好用——因為有了更好的數據。

他說：“谷歌資助了一個車隊，該車隊行駛在美國的每一條道路上并對道路進行數字化繪圖。車隊將這些數據與衛星圖像和其它數據源結合起來，然后聘請一批人類監護員手動改善表示世界各地建筑、交叉口和交通信號燈的數據。隨著人工智能應用于更廣泛的問題，成功的方法將會就是那些認識到成功并不是來自算法而是來自數據整理(data wrangling)的方法。”

然而，公司在開始他們的人工智能項目之前往往沒有意識到良好的數據的重要性。

Forrester Research的分析師Michele Goetz表示：“大多數組織并不認為這是一個問題。當被問及人工智能預計會帶來什么挑戰時，擁有用于訓練人工智能的受到悉心監護的數據集居然最不受重視。”

Forrester去年進行的一項調查顯示，只有17%的受訪者表示最大的挑戰在于沒有“受到悉心監護的數據來訓練人工智能。”

她說：“但是，當公司開始進行人工智能項目時，這是從概念驗證和試點項目轉向生產系統的最大難題和障礙之一。”

451 Research的創始人兼研究副總裁Nick Patience說，最大的問題之一不是沒有足夠的數據，而是數據被鎖藏并難以訪問。

他說：“如果你的數據完全孤立，機器學習就不會奏效。例如，如果你的財務數據在甲骨文(Oracle)中，人力資源(HR)數據在Workday中，合同在Documentum存儲庫中，并且你沒有做任何事情來嘗試創建這些孤島之間的連接。”

他說，公司還沒有準備好接受人工智能。

他說：“你不妨在每個孤島中使用標準的分析工具。”

數據問題可能會干擾人工智能

即使你有數據，你仍然會遇到質量問題，以及隱藏在訓練集中的偏見。

最近的幾項研究表明，用于訓練圖像識別的人工智能的流行數據集帶有性別偏見。例如，一張男性做飯的圖片會被誤認為是女性，因為在培訓數據中，廚師往往是女性。

SpringBoard.ai的首席執行官Bruce Molloy說：“無論我們有什么偏見，要是存在各種歧視、種族或性別或年齡，那些東西都會反映在數據中。”

構建人工智能系統的公司需要考慮分析數據的數據和算法是否符合組織的原則、目標和價值。

他說：“你不能將判斷、道德和價值外包給人工智能。”

他說，這可能來自幫助人們了解人工智能如何以自己的方式做出決定的分析工具，來自內部或外部審計師，還是評估委員會。

合規性也是數據來源的一個問題——僅僅因為一個公司可以獲取信息，并不意味著它可以隨心所欲地使用信息。

IDC的認知和人工智能系統研究主管David Schubmehl說，組織已經開始審計機器學習模型，并且研究進入這些模型的數據。

他說，獨立的審計公司也開始關注它。

他說：“我認為這將成為審計過程的一部分，但與其它任何東西一樣，這是一個新興領域。組織仍在試圖弄明白什么才是最佳實踐。”

他表示，在此之前，公司要謹慎行事。

他說：“我認為我們還處在這樣的初級階段——人工智能或機器學習模型還只是向受過培訓的專業人員提供建議和幫助，而不是自己完成工作。人工智能應用程序要花更長的時間來創建，因為人們正試圖確保數據是正確的，數據得到合理的集成，并且他們擁有正確的數據類型和正確的數據集。”

普華永道公司的股東兼全球人工智能領導者Anand Rao表示，即使完全準確的數據也可能存在蓋然性的偏差。比如說，如果有一家位于中西部的保險公司利用歷史數據來訓練人工智能系統，然后擴展到佛羅里達州，該系統對于預測颶風風險將不會有用。

他說：“歷史是有效的，數據是有效的。問題是，你在哪里使用這個模型，以及如何使用這個模型?”

假數據的崛起

這些內在偏見可能難以發現，但至少它們不涉及積極嘗試弄亂結果的數據源。以在社交媒體上傳播假新聞為例，這里的問題越來越嚴重。

Rao說：“這是一場軍備競賽。”

雖然社交媒體公司正在努力解決這個問題，但黑客正在使用自己的人工智能來創建聰明得足以騙過人類的人工智能，無論是影響社交媒體還是讓廣告商相信他們才是真正的消費者。

Lucidworks首席執行官Will Hayes說：“我們已經看到了影響。看看選舉以及用機器人和其它操縱者放大消息的做法。”

那些操縱者也并不總是在俄羅斯或中國。

Hayes說：“如果一個品牌希望在社交媒體上增大影響力，營銷公司想要證明他們增加了你的曝光率，這根本就不必動用工程師來思考他們賴以操縱數據的方法。”

這就是領域知識和常識發揮作用的地方。

加里根萊曼集團(The Garrigan Lyman Group，該公司是一家營銷公司，幫助公司處理來自各種渠道的數據)的首席技術官Chris Geiser說：“了解數學和模式只能讓你走到這一步了。你要了解所有的個人數據來源，這才是最重要的事情，你越了解自己的數據，你想要達到的目標以及你的關鍵績效指標，你就越能指向正確的方向。”

對數據源進行三角測量

如果一家公司的數據有多個來源，那么在應用任何機器學習之前，以一個數據來源為準檢查另一個數據來源，這是很重要。

作為全球最大的電信公司之一，NTT集團在其網絡基礎設施中生成了大量的數據。

NTT Security的安全研究全球副總裁Kenji Takahashi說：“我們處于安全目的而使用機器學習來分析網絡流量數據。我們的最終目標是全面了解隱藏在網絡中的惡意僵尸網絡基礎設施。”

該公司目前正在投資技術，以提高機器學習培訓數據的質量。為此，NTT使用“集成(ensemble)”方法，對來自不同來源的數據分析結果進行加權投票，他這樣說道。

然后，這些數據進入超大型數據庫，將其作為機器學習的訓練數據。

他說：“就像在教室里一樣，學習任何錯漏百出的劣質課本都是非常不利的。訓練數據的質量決定了機器學習系統的性能。”

創建團隊和工具來解決問題

Infosys于1月份發布的一項調查顯示，49%的IT決策者表示他們無法部署他們想要的人工智能，因為他們的數據還沒就緒。

Infosys的高級副總裁兼產品管理和戰略主管Sudhir Jha說：“人工智能正在成為商業戰略的核心，但數據管理仍然是一個揮之不去的障礙。”

在這里，領導力才能是關鍵，對于一些開展人工智能旅程的組織來說，第一步可能是任命一位首席數據官，SAP的Leonardo和人工智能部門的全球副總裁Marc Teerlink表示，擁有首席數據官的公司能更好地管理數據。

他說：“錯進錯出。數據質量，所有權和治理都事關重大。”

普華永道的Rao說，如今的大多數公司都必須開發自己的技術來準備用于人工智能和機器學習系統的數據。為此，你需要數據科學家，如果你內部不具備這樣的腦力，你可以聘請顧問來完成這項工作。

一些前瞻的公司，例如Bluestem Brands，正在使用人工智能來處理供其它人工智能系統使用的數據。這家擁有13個不同零售品牌(包括Fingerhut和Bedford Fair)的公司已采取這種方法來確保搜索黑色服裝的顧客能獲得所有相關結果——無論供應商將這種顏色稱為“黑色”、“午夜”、“深海市蜃樓”或“深灰色(dark charcoal)”。

IT主管Jacob Wagner說：“藝術家有無限的創造力來指代同一個基本色彩的色差——它永無止境”。不僅僅是顏色。他說：“同樣的問題存在于人類解析和解釋的每個屬性上。”

Bluestem用唾手可得的碎片創建了數據準備系統。

Wagner說：“搜索技術在很大程度上正在商品化。詞法分析、文本匹配，所有這些技術已經成為典范并得到了改善，開源算法與任何專有軟件包一樣高效。”

而且并不需要動用博士級別的數據科學家來做這種事。

他說：“有了一些才華橫溢的工程師，你可以想出將它接入數據流的方法。”

Wagner是Apache Spark的忠實粉絲，Apache Spark是一個大數據引擎，它可以從很多不同來源獲取數據并對其進行切割，Apache Solr是一個開源搜索引擎。Bluestem不僅在面向客戶的方面使用它，而且還在內部使用它，以幫助編輯工作流(譯注：原文為editorial workflows，editorial可能是指iOS上的一款文本編輯神器，同時可用于制作工作流workflow)。

該公司還使用Lucidworks Fusion這樣的商業產品，后者允許商業用戶通過額外的業務邏輯來定制搜索體驗——比如說，可以將與情人節有關的查詢集中到一系列策略集中，而不需要IT人員參與。

有了正確的數據管理策略、工具和人員，你可以大大提高組織的人工智能獲得成功的可能性。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1792

文章
47373

瀏覽量
238875
機器學習

機器學習

+關注

關注
66

文章
8423

瀏覽量
132749

原文標題：人工智能最大的風險因素：數據出錯

文章出處：【微信號：D1Net08，微信公眾號：AI人工智能D1net】歡迎添加關注！文章轉載請注明出處。

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

嵌入式人工智能（EAI）將人工智能集成到機器人等物理實體中，使它們能夠感知、學習環境并與之動態交互。這種能力使此類機器人能夠在人類社會中有效地提供商品及服務。數據是一種貨幣化工具數據

發表于 12-24 00:33

嵌入式和人工智能究竟是什么關系?

應用場景。例如，在智能家居領域，嵌入式系統可以控制各種智能設備，如智能燈泡、智能空調等，而人工智能則可以實現對這些設備的

發表于 11-14 16:39

Anthropic在人工智能領域取得重大突破

　10月23日消息，美國當地時間周二，人工智能初創企業Anthropic宣布了一項重大進展。這家由前OpenAI高管創立并獲得亞馬遜支持的公司，在人工智能領域取得了新的突破，其研發的AI智能

發表于 10-23 14:56 ?475次閱讀

《AI for Science：人工智能驅動科學創新》第6章人AI與能源科學讀后感

、優化等方面的應用有了更清晰的認識。特別是書中提到的基于大數據和機器學習的能源管理系統，通過實時監測和分析能源數據，實現了能源的高效利用和智能化管理。其次，第6章通過多個案例展示了人工智能

發表于 10-14 09:27

AI for Science：人工智能驅動科學創新》第4章-AI與生命科學讀后感

閱讀這一章后，我深感人工智能與生命科學的結合正引領著一場前所未有的科學革命，以下是我個人的讀后感： 1. 技術革新與生命科學進步這一章詳細闡述了人工智能如何通過其強大的數據處理和分析能力，加速生命科學

發表于 10-14 09:21

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

人工智能：科學研究的加速器第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習、深度學習等先進技術，AI能夠處理和分析海量數據，發現傳統方法難以捕捉的模式和規律。這不僅極大地提高了

發表于 10-14 09:12

risc-v在人工智能圖像處理應用前景分析

其在人工智能圖像處理領域的應用提供更多支持。標準化和規范化推進：為了降低RISC-V的碎片化風險并促進其在全球范圍內的廣泛應用，標準化和規范化將是未來的重要趨勢。這將有助于提升RISC-V技術

發表于 09-28 11:00

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領域應用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對ai4s基本原理和原則，方法進行描訴，有利于總結經驗，擬按照要求準備相關體會材料。看能否有助于入門和提高ss

發表于 09-09 15:36

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅動科學創新

大力發展AI for Science的原因。第2章從科學研究底層的理論模式與主要困境，以及人工智能三要素（數據、算法、算力）出發，對AI for Science的技術支撐進行解讀。第3章介紹了在

發表于 09-09 13:54

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內外大咖齊聚話AI

8月28日至30日，2024深圳（國際）通用人工智能大會暨深圳（國際）通用人工智能產業博覽會將在深圳國際會展中心（寶安）舉辦。大會以“魅力AI·無限未來”為主題，致力于打造全球通用人工智能領域集產品

發表于 08-22 15:00

FPGA在人工智能中的應用有哪些？

FPGA（現場可編程門陣列）在人工智能領域的應用非常廣泛，主要體現在以下幾個方面：一、深度學習加速訓練和推理過程加速：FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性

發表于 07-29 17:05

歐盟設立人工智能風險監控部門

歐盟強調，此舉將為落實《人工智能法案》提供重要支撐。據悉，本月21日，歐盟理事會已正式通過《人工智能法案》，成為全球首部全面監管人工智能的法律。

發表于 05-30 09:57 ?384次閱讀

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V2）

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V2）課程類別課程名稱視頻課程時長視頻課程鏈接課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https

發表于 05-10 16:46

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V1）

課程類別課程名稱視頻課程時長視頻課程鏈接課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件：參賽基礎知識指引

發表于 04-01 10:40

嵌入式人工智能的就業方向有哪些?

嵌入式人工智能的就業方向有哪些? 在新一輪科技革命與產業變革的時代背景下，嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下，眾多名企也紛紛在嵌入式人工智能領域布局

發表于 02-26 10:17

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

人工智能最重大的風險：數據出錯

評論

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

嵌入式和人工智能究竟是什么關系?

Anthropic在人工智能領域取得重大突破

《AI for Science：人工智能驅動科學創新》第6章人AI與能源科學讀后感

AI for Science：人工智能驅動科學創新》第4章-AI與生命科學讀后感

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

risc-v在人工智能圖像處理應用前景分析

人工智能ai4s試讀申請

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅動科學創新

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內外大咖齊聚話AI

FPGA在人工智能中的應用有哪些？

歐盟設立人工智能風險監控部門

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V2）

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V1）

嵌入式人工智能的就業方向有哪些?