從奧巴馬到特朗普,美國一直重視在政府層面上對AI和機器學習技術的利用和開發。比如預測高中學生輟學率、分析工傷和職業病等個人化的敏感數據,對其自動編碼歸類等。不過機器學習并不是萬能藥,利用機器學習需要廣泛的數據作為基礎,過度濫用可能會產生偏見等不良后果。
就在兩年前,人工智能似乎突然出現在了美國政府的議事表中。
2016年8月,時任美國總統巴拉克·奧巴馬還擔任過《連線》雜志的客座編輯,并與麻省理工學院媒體實驗室的負責人Joi Ito就人工智能及其影響進行了訪談。
奧巴馬說:“技術開發的早期應該是百花齊放的。政府應該增提供相對輕松的渠道,大力投資研發,并確保基礎研究和應用研究之間的交流。”
兩個月后,奧巴馬政府發布了一份關于人工智能的報告,廣泛概述了當時的新興技術,該報告僅用了幾頁篇幅提到政府如何從人工智能中獲益。在奧巴馬離職之前幾周,政府發布了第二份報告,主要關注AI技術潛在的經濟影響。“AI提出了許多新的政策問題,這些問題應該是未來主管部門、國會、私營企業和公眾討論和考慮的主題。”報告中寫道。
從那以后,特朗普政府為將AI作為研究重點的機構提供了額外的指導。根據2018年5月的一份白宮報告,白宮成立了AI專責委員會,以改善聯邦政府對AI相關工作的協調,并確保美國在人工智能方面繼續保持領導地位。報告指出,該委員會的工作將包括鼓勵“機構與人工智能相關的計劃和倡議”。
在過去兩年中,各級機構越來越多地尋求利用機器學習,由橡樹嶺國家實驗室的研究人員開發的機器學習技術已被聯邦緊急事務管理局用于尋找被熔巖流吞噬的人造結構。密蘇里州開發了一種機器學習算法,來預測城市街道上何時形成坑洼。軍方已開始使用AI算法來預測坦克上的部件故障。
“預測”是美國政府應用機器學習的重要途徑
如果說上面的應用有一個共同的主題,那就是“預測”。
在機器學習中,“預測”的意思是“根據已知的東西推斷出未知的東西,”卡內基梅隆大學泰珀商學院助理教授Zachary Chase Lipton說。“事實證明,大量任務都可以通過預測模型來表達。”
將衛星照片、電話呼叫記錄、車輛的傳感器讀數等輸入系統,然后要求系統給出輸出預測。用歷史數據訓練機器學習模型,進行模式識別。然而,要想讓機器學習真正派上用場,必須明確定義輸入和輸出,Lipton說。
機器學習可以成為尋找非線性關系的理想工具。線性關系,比如與房屋大小相關的房屋成本,可以通過經典的回歸技術得到更好的解釋。但有時我們要處理的關系不是線性的。
比如,句子中各個單詞之間的關系就不是線性的,照片中像素之間的關系也不是線性的。這些關系很復雜,但機器學習已被證明可以作為尋找這些關系的一種方法。
讓數據庫井井有條
每年年底,各州的政府機構經常發布年度報告,記錄前一年的成功經驗和未來的目標。 2017年,伊利諾伊州的報告指出,創新與技術部門致力于進一步使用人工智能、聊天機器人和高級數據分析工具,“通過新技術推動伊利諾伊州以更有效的方式改善對本州公民的服務”。
DoIT首席數據科學家KrishnaIyer表示,該州去年發布了一項信息請求,以更好地了解機器學習和人工智能領域。從與供應商的談話中可以清楚地看出,該州還沒能充分利用這些技術的潛力。
“AI技術的實際應用與其潛力相比存在巨大差距。”Iyer說。
盡管缺乏正式的技術平臺,該州還是啟動了數個機器學習項目。
伊利諾伊州稅務部門已開始使用機器學習來輔助預測稅務欺詐行為,教育部們利用機器學習來更好地預測哪些學生在學業上很吃力,并可能退學。
Iyer表示,經過訓練的稅務欺詐模型,可以發現欺詐行為的歷史數據模式。該模型對那些被標記的納稅人的稅務欺詐概率進行了預測,使稅務部門更容易識別需要提供稅務申報澄清的個人。這是在過去的申請季節使用的。
伊利諾伊州預計今年秋季開始使用機器學習模型來輔助教育。模型經過未從高中畢業的學生數據的訓練,數據中包括這些學生的學校表現,他們所居住地區的人口統計數據和其他變量信息。Iyer表示,該模型為當前學生預測了低,中,高(輟學)風險,學校可以為有輟學風險的學生進行有針對性的干預。
讓數據自己對自己進行歸類
紐約市市長辦公室的數據智能創新中心(CIDI)廣泛關注利用數據解決城市內的無家可歸者、市內的經濟問題和健康問題。
最近的一項研究分析了剛擺脫無家可歸狀態的年輕人,將他們化為幾個群體中,比如經常入獄,一直有保障性住房,一直有補貼住房,早年曾無家可歸,后來曾無家可歸等等。
“這有助于我們預測哪些人可能屬于哪一群體,同時有助于我們了解每個群體的資源是什么,”CIDI執行董事Maryanne Schretzman說。
這項工作需要一些嚴肅的數據加工。 CIDI使用來自8795個人的真實數據創建了個人資料,這一過程需要從多個數據源中提取并保護敏感數據:如青少年和社區發展部、無家可歸者服務部、兒童服務管理局、監獄和醫院等。
敏感數據從未離開過市政府的內網。 Schretzman解釋說,政府使用加密文件傳輸系統實現數據的轉移。
那么機器學習在哪里發揮作用?在分類過程中。在項目開始之前,這幾個類別沒有預定義;團隊使用R統計計算環境中的TraMineR軟件包進行數據分析。
“機器學習讓你能夠指導數據自己進行分類,”Schretzman說。 “數據本身能夠對自己進行分類,這太酷了。”
躍遷:從“淺層”神經網絡到深度神經網絡
上面說的紐約市和伊利諾伊州的項目使用的技術可以算是機器學習,但只是對該技術的簡單應用。不過,美國勞工統計局(BLS)多年來一直在使用機器學習,并準備從現在的“淺層機器學習”躍遷到深度神經網絡的使用上。
每年,BLS都會收集大量數據。比如工傷和職業病調查項目包含了30萬份關于工人受傷情況的書面說明。這些響應必須進行編碼,比如要確保“reporter”和“journalist”的編碼是相同的,以及對傷情進行正確的分類等。
直到2013年,這個編碼過程都是手工完成的,大約需要20000小時才能完成。但2013年后,該機構開始使用機器學習,用手工編碼的歷史調查數據來訓練模型。現在,已有超過一半的編碼是由機器完成的。
每天晚上完成的調查都是通過自動編碼模型運行的,可以得出關于編碼結果的準確性的概率。如果這個概率低于某個水平,則發送給工作人員進行人工編碼。
BLS的經濟學家Measure表示,該部門一直使用的“淺層機器學習”非常擅長識別單詞或單詞對,但在識別文本字符串時會有困難。“有時要理解一句話,需要理解一個詞序在整體上的含義。”
比如像“沒有腦震蕩的跡象”這樣的短語中,淺層機器學習可能會識別出“腦震蕩”這個詞,甚至也會識別出“腦震蕩的跡象”,但很難識別出“no”一詞否定了“腦震蕩”。深度神經網絡可以模擬復雜的非線性關系,可能會對解決這個問題有所幫助。
BLS已經在使用Google的TensorFlow等開源軟件,在現有硬件上運行其淺層機器學習模型。不過,隨著該機構越來越多地使用深度神經網絡,它需要NVIDIA GPU服務器的處理能力。盡管云服務商也可以提供這種計算力,BLS數據的敏感性要求其需要使用并管理自己的硬件。
未來:機器學習是靈丹妙藥,但不是萬能藥
看起來,機器學習似乎可以用來解決任何問題,但事實遠非如此。
“確保你有訓練數據,”BLS的經濟學家Measure說。機器學習“無法解決所有問題,但可以解決一些問題,在可以解決的問題中,需要有大量的訓練數據,并且找不到更簡單的自動化解決方法。”
Delmolino表示,機器學習最容易應用的領域是IT票務和呼叫中心等,這些領域會產生大量的請求,擁有大量的歷史數據。他說,機器學習可以對“任何高容量,長等待時間或大量積壓”的事務產生很大影響。
Lipton警告說:“這項技術可以被使用,并不意味著它就應該被使用。由于模型的使用形成了一個反饋循環,預測警務等應用程序有可能繼續或加劇社會中已有的偏見。”
“如果警察被派去巡邏的地區是基于’犯罪會發生在哪里’,如果你去尋找犯罪,你最終可能會發現犯罪,但結果有可能是會發現更多的犯罪。一個樣本數據有偏差的模型可能認為這些社區發生了不成比例的犯罪,然后它將分配更多的警察。”Lipton補充道。
Delmolino支持關注潛在偏見的必要性。機器學習實施需要主動管理、調整模型以減少隨時間的偏差。
他說:“你不能只買一個神奇的工具然后部署,你必須意識到這些事情。”
Delmolino預測,機器學習的下一個重要步驟可能是多個模型相互作用并協同工作的能力。
“所以我想,我們會看到一些非常吸引人的需求,比如’我如何確保我的模型互相配合?’”模型之間有沒有相互溝通的方式?’”他說。
另一個墊腳石將是機器學習和機器人過程自動化的整合。 RPA提供了自動執行任務的功能,例如傳輸文件,將數據從一個字段移動到另一個字段或其他計算機進程。
Forrester分析師Craig Le Clair在談到RPA時說:“目前的情況不太理想。”但隨著機器學習與技術的整合,RPA將開始做出更多獨立于人類參與的決策。
如果將機器學習比作大腦,那么我們可以將RPA視作肢體,它提供了跨企業網絡訪問和抓取不同系統的能力,在大腦認為合適的時候做出改變。
“這些都是非常通用的工具,”Lipton談到機器學習時說,“我認為它們在任何大型組織中都能找到大量的用例,包括政府。”
-
人工智能
+關注
關注
1791文章
47336瀏覽量
238696 -
機器學習
+關注
關注
66文章
8421瀏覽量
132703 -
特朗普
+關注
關注
1文章
288瀏覽量
19820
原文標題:從奧巴馬到特朗普,美國政府全面擁抱機器學習之路
文章出處:【微信號:gh_211d74f707ff,微信公眾號:重慶人工智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論