傳統企業、AI初創公司,還是高校創新項目,所有加入這場熱潮的人都面臨AI落地難題。據英特爾預測,大規模推理時代將至,2020年,推理與訓練周期比率超過5:1,「推理」正成為人工智能落地的關鍵。這家老牌芯片公司推出了AI技術矩陣,助力企業與高校實現技術落地,地平線、南京大學、韻達和銀聯均已“入群”體驗。
AI不是圍城——外面的人依然想沖進去,但里面的人不想逃出來,而是思索如何呆得更久。
但企業難找“城門”,如何讓AI與自身業務更好的結合,實現落地亦是一大難題,即使已經入局的AI明星初創公司也并非全能選手。
據英特爾預測,2020年,推理與訓練周期比率超過5:1,“大規模推理”時代將至。這一時代的來臨將有助于打破AI落地瓶頸,而這一過程仍有不少難題需要解決,例如:
「推理」將占用近 80% 的AI 流程,這會提高對硬件的要求——加速AI深度學習推理的技術;
目前三大主流AI技術路徑:機器學習、深度學習和基于規則的學習都有局限性,面對復雜情況時,混合技術路徑才是王道;
AI初創企業以及高校實驗室大多都更專注于算法軟件方面的研究,但其研究領域,例如自動駕駛,則面臨著海量數據處理需求,這就提出對計算、存儲等硬件功能方面的挑戰。
這家51歲的老牌芯片大廠正在用AI技術矩陣解決這些難題。
2020年推理與訓練周期比率超過5:1,“大規模推理”時代將至,可打破落地瓶頸
AI迎來第三次浪潮后,以深度學習為代表的人工智能已經進入應用階段。
深度學習分為訓練和推理兩個階段。
訓練階段需要大量的算力和數據,并且對數據吞吐量要求很高;而推理方面,通常在數據量方面要求沒有那么高,但需要的是盡可能快的響應和能耗效率優化。
按照英特爾預測,到2020 年,推理周期和訓練周期之間的比率將從深度學習初期的 1:1 提高至超過 5:1。也就是說,在人工智能領域,推理的比重將會越來越重要。
英特爾稱這一轉變為“大規模推理”。
事實上,讓人工智能落地更多是推理層面的工作——根據真實世界中的少量數據,迅速地提供正確的答案。
如果未來推理將占用近 80% 的AI 流程,硬件架構就成為AI落地的重中之重。
而做大規模推理,CPU平臺具有較大優勢,用戶學習門檻低、部署速度快的同時還能保證低風險。
今年4月,第二代英特爾至強可擴展處理器全面上市,針對企業落地AI的需求,特意嵌入了新技術:
集成加速AI深度學習推理的技術,加速數據中心、企業和智能邊緣計算環境中的AI推理工作負載,例如圖像識別、對象檢測及圖像分割等。
支持英特爾傲騰數據中心級持久內存,為英特爾以數據為中心的計算產品組合提供兼具經濟性和大容量的持久內存功能。
英特爾公司執行副總裁兼數據中心事業部總經理孫納頤展示新一代英特爾至強處理器的晶圓
但沒有一種方案能解決所有問題,AI并非“一策萬能”。除硬件外,根據不同推理需求,英特爾提供不同的軟件,對深度學習推理進行大量的軟硬件調優。
傳統行業實現AI落地的主要目的之一通常是提升工作效率,物流行業的巨頭——韻達就計劃用機器視覺技術來提升快件測量的效率與質量。
英特爾AnalyticsZoo平臺提供的圖像分類技術在其中發揮了作用——利用內置的圖像識別模型,AI 應用首先能夠提取出待測量的快件輪廓,進而通過平臺提供的TensorFlow等深度學習框架,結合至強可擴展處理器提供的算力,完成從模型訓練、模型重定義到模型推理的AI處理全流程,最終獲得準確的大小件測量數據。
除了傳統行業外,互聯網公司目前也試圖用AI增強自身業務,愛奇藝將AI與云計算結合,構建了創新的Jarvis深度學習云平臺。
平臺的成功很大程度上在于提升深度學習推理效率。除至強可擴展處理器提供的強勁算力外,還基于英特爾架構處理器的技術特性,對平臺的深度學習推理進行了大量的軟、硬件調優,包括利用 OpenVINO執行的系統級優化。
來自愛奇藝的測試數據顯示,OpenVINO的引入,幫助Jarvis平臺將實時彈幕顯示的推理速度提升達5倍左右。
AI并非一策萬能,創新“三明治”結構呈現混合技術路徑優勢
如今,深度學習雖然火爆,但實現人工智能的途徑并非只有這一條,同時也要考慮是否試用。
在一些行業的AI落地過程中,例如金融的一些應用,要求結果是可追溯的,這種情況下單使用深度學習并不可取,需要選擇其他路徑。
深度學習、一般的機器學習和基于規則的學習都是目前AI領域的主流技術路徑,下圖為這三種AI技術路徑的優勢與局限性:
現階段主流AI技術路徑的優勢、適用場景和局限性總結 來源:英特爾
人工智能、機器學習及深度學習的關系示意圖來源:英特爾
可以看出,每種AI技術路徑都有其局限性,所以在現實場景中,這些技術路徑可基于不同特性來實現互補。
例如,在AI技術進行銀行卡反欺詐中,如果只使用一般的機器學習,將出現對序列化交易特征學習能力不足;而只使用深度學習,則會出現單筆交易內特征學習能力有限。
在這樣的場景下,兩大技術融合才是更好的解決路徑:區別于傳統的分類器方法或單一的RNN方法,銀聯電子商務與電子支付國家工程實驗室和眾安科技,以及英特爾公司共同提出了GBDT→GRU→RF三明治結構欺詐偵測模型架構。
融合了一般的機器學習和深度學習的三明治結構欺詐偵測模型架構
這種混合路徑,對于底層硬件設施的性能有著很高的要求,尤其是對各類AI技術的兼容性。
“三明治”這一創新模型選擇了基于英特爾至強處理器的CPU平臺——CPU架構對目前幾乎所有的AI主流技術、乃至新涌現的技術都有出色的兼容性,同時輔之各個層面的加速與優化。
GPU難發揮長處,什么才能支撐“深度森林”的計算方案?
CPU不僅能在AI主流技術上能發揮優勢,一些高校的創新技術也能基于此實現加速和優化。
同時,促進AI落地需要更早、更準確地對人工智能、深度學習領域的創新項目進行支持。這些項目往往對強勁計算力有著很高的要求。
來自南京大學機器學習與數據挖掘研究所(簡稱LAMDA 團隊)的周志華教授與他的團隊,提出了“深度森林”:一種基于樹的方法,來拓展深度學習的體系。
在設置可類比的情況下,新方法 gcForest 取得了和深度神經網絡相當甚至更好的結果,而且更容易訓練,小數據也能運行,更重要的是相比神經網絡,基于樹的方法不會存在那么困難的理論分析問題。
周志華和馮霽在論文里寫道,“我們認為,要解決復雜的問題,學習模型也需要往深了去。然而,當前的深度模型全部都是神經網絡。這篇論文展示了如何構建深度樹(deep forest),為在許多任務中使用深度神經網絡之外的方法打開了一扇門”。
深度森林 gcForest 模型結構
從一顆幼苗發展成一片森林,則需要硬件基礎設施這一“土壤”作為支撐。深度森林需要并行地在多棵樹上執行任務,而這些任務更多是需要進行決策計算。
在這方面,GPU很難發揮其長處,周志華的團隊選擇從兩個方面進行加速:一是通過分布式計算技術做出更大模型,二則是通過硬件加速來提高它的可擴展性——擁有眾核、高頻能力的英特爾架構處理器更有助于應對深度森林多任務并行處理的需求。
實現加速后,英特爾從硬件基礎設施方案出發,優化深度森林相關的算法與模型設計,幫助其實現產業落地。
此前測試顯示,深度森林在召回率和準確率方面表現優秀?;诖丝梢酝茢?,在套現欺詐行為的檢測任務上,深度森林可以助力金融企業構建更優異的反欺詐風控解決方案。
芯片巨頭+AI明星初創公司:分級存儲助力算法研發
事實上,即使AI從實驗室里走出來了,那些已入局的明星AI初創公司也不是十八般武藝樣樣精通。
不少AI初創公司都更專注于算法軟件方面的研究,在計算、存儲方面的等硬件設備上相對薄弱。
今年2月,地平線完成6億美元的B輪融資,成為全球估值第一的AI芯片初創公司,地平線曾透露,未來主戰場將是智能駕駛和AIoT。
但在利用深度學習研發AI芯片和算法的過程中,地平線面臨著海量的數據處理需求。尤其是自動駕駛領域,每天的路面數據量高達4TB。另外,這些數據通常是以幾十KB大小的小文件形式存在。
當地平線需要利用這些數據進行深度學習所需的數據處理與訓練時,對存儲系統的IOPS性能有著非常嚴苛的要求。
然而傳統HDD機械硬盤的IOPS性能并不理想,而全固態盤模式雖然IOPS能力強,但成本很高,這對存儲容量的擴展造成了限制。
分級存儲是緩解性能與容量這對矛盾的有效手段。
英特爾傲騰固態盤+HDD構建的分級存儲模式
在金山云EPC存儲集群采用的分級存儲方案中,非活動數據存放在HDD硬盤組成的存儲池,而活動數據則被置放在由英特爾傲騰固態盤DC PDC P4800X構成的緩存區中。
一項測試數據表明,這款固態盤的IOPS最高可達 500,000,同時讀取響應時間低于30微秒,并可承受最高2GB/秒的隨機寫入壓力,適用于大數據、高并發的應用場景。
數據才是AI最核心要素,大數據分析處理如何無縫過渡到AI應用?
除了毫無AI基礎的傳統企業,以及AI技術強大的公司和高校,還有一部分企業處于“尷尬”的中間地段。
那些已經擁有大數據分析處理基礎的公司如何無縫對接到AI應用呢?
英特爾認為,在AI三大支柱中——數據、算力和AI算法中,數據才是AI最核心的要素,對于那些想要平滑過渡到AI應用的企業來講,如何“釋放數據紅利”是更實際的選擇。
畢竟,2018年底有調研顯示:全球超過一半的數據創建于過去兩年,但其中只有不到2%的數據經過了分析。
而在讓人工智能走出實驗室需要一條數據分析流水線,但在這條線上,20%的任務是深度學習,但80%都是在做數據收集、數據存儲、數據管理、數據清理、數據預處理。
因此,當一家企業已有大數據分析基礎時,想要啟動AI應用構建時無需從零開始,而是要充分利用既有的數據基礎,部署AI應用。
英特爾提供的分布式深度學習庫BigDL,以及大數據分析+AI的平臺AnalyticsZoo可以幫助已有數據基礎的企業更高效地實現AI應用。
其中,AnalyticsZoo提供了統一的數據分析+ AI平臺,可將Spark,TensorFlow和BigDL程序無縫集成到一個統一的數據分析流水線中;然后,整個流水線可以透明地擴展到Hadoop/ Spark集群,以進行分布式訓練或推理。
美的 / KUKA的工業檢測平臺就是一個建立在Analytics Zoo之上的端到端數據分析流水線,這條流水線可將Spark,BigDL和TensorFlow程序無縫集成,從而構建并部署基于大數據的深度學習的,包括分布式訓練和推理,以及低延遲在線服務在內的應用程序。
改弦更張絕非最佳選擇,借助合適的平臺、從大數據分析處理平滑過渡到AI應用,對企業來講是更合算的選擇。
無論是面對企業還是高校,英特爾正致力成為一個為所有AI落地問題提供支撐與加速的公司——讓AI真正問世。
-
英特爾
+關注
關注
61文章
9999瀏覽量
172061 -
AI
+關注
關注
87文章
31335瀏覽量
269693 -
自動駕駛
+關注
關注
784文章
13904瀏覽量
166731
原文標題:AI進入大規模推理時代,英特爾技術矩陣強力支撐“深度森林”落地
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論