1.1人工智能時代:AI+將無處不在
隨著大數(shù)據(jù)的發(fā)展,計算能力的提升,人工智能近兩年迎來了新一輪的爆發(fā)。2016年谷歌AlphaGo贏得了圍棋大戰(zhàn)后,人工智能在產(chǎn)業(yè)界和資本圈引起了高度關(guān)注,成為新的風(fēng)口。
人工智能的三個核心要素是數(shù)據(jù)、算法和計算能力。人工智能之前經(jīng)歷過數(shù)次興衰,一直未能取得突破的障礙主要是數(shù)據(jù)和計算能力的限制。相比前幾次的熱潮,目前人工智能在數(shù)據(jù)、算法和計算能力方面都有堅實的基礎(chǔ)。因此,我們相信人工智能并不僅是一個風(fēng)口,而是即將迎來真正屬于自己的時代。
人工智能并不是一個單獨的存在,而必須要和其他產(chǎn)業(yè)結(jié)合起來才能創(chuàng)造提升效率,創(chuàng)造價值。未來將不存在所謂的人工智能,而是人工智能和其他產(chǎn)業(yè)的融合,也就是AI+。展望未來,AI+將無處不在。
按照當(dāng)前人工智能實現(xiàn)的基本功能來分類,主要有四部分:圖像認(rèn)知能力、語音語義理解能力、數(shù)據(jù)分析能力、整合多種能力的機器人。下面我們將分別按這幾種基本功能來介紹人工智能的應(yīng)用:
圖像認(rèn)知能力的應(yīng)用。最常見的應(yīng)用包括視頻安防人臉識別、客流統(tǒng)計、智能交通管理等面向企業(yè)的應(yīng)用,還有視頻直播中的鑒黃系統(tǒng)等方面。而在面向個人應(yīng)用方面,包括拍照軟件中的圖片分類檢索功能和相冊管理等。
語音語義理解能力的應(yīng)用。語音是人機最自然的交互方式,現(xiàn)在已經(jīng)被驗證的應(yīng)用包括客服機器人,呼叫中心,私人助理Siri,亞馬遜的Echo音響等。未來,隨著語音語義理解能力的提升,語音有望成為新一代的入口,并衍生出各種應(yīng)用。
數(shù)據(jù)分析能力的應(yīng)用。數(shù)據(jù)分析應(yīng)用范圍非常廣,在金融中有市場營銷分析,風(fēng)險管控、智能投顧等。在財務(wù)審計方面自動生成報表,文案輔助上自動給招聘文案打分并提出修改建議,人力資源上自動尋找合適的候選者,編程輔助上自動顯示相關(guān)的函數(shù)用法信息。
智能機器人。軟體機器人可以讓機器人更接近生物,做出很多人做不好的事情,例如精細(xì)抓取、肌肉仿生、穿越障礙等;微型機器人廣泛應(yīng)用于各領(lǐng)域,未來有希望跟納米技術(shù)結(jié)合,在醫(yī)療領(lǐng)域取得突破;集群機器人可以進行協(xié)同搬運,海洋探測等,應(yīng)用領(lǐng)域會進一步拓展。
人工智能整體仍處市場早期,但是未來空間巨大。根據(jù)國外調(diào)查機構(gòu)Tractica的統(tǒng)計預(yù)測數(shù)字,2016年全球人工智能收入為6.4億美元,到2025年預(yù)計將增長至368億美元。從人工智能的主要構(gòu)成來看,規(guī)模最大的細(xì)分市場分別是機器學(xué)習(xí)應(yīng)用、自然語言理解、計算機視覺、虛擬個人助手和智能機器人等。在未來10年甚至更久的時間里,人工智能將是眾多智能產(chǎn)業(yè)技術(shù)和應(yīng)用發(fā)展的突破點,市場空間非常巨大。
在產(chǎn)業(yè)發(fā)展史中,每一場重要的產(chǎn)業(yè)變革總會帶來新的重大機遇。如果能夠在新興產(chǎn)業(yè)中占據(jù)核心產(chǎn)業(yè)鏈位臵,必將能夠充分享受新興產(chǎn)業(yè)爆發(fā)性增長帶來的紅利。ARM在智能手機時代的經(jīng)歷就是最好的例證。ARM公司歷史簡介如下:
ARM公司1978年在英國成立。1985年,ARM設(shè)計了第一代32位、6MHz的處理器,用它做出了一臺RISC指令集的計算機。ARM采用的RISC指令集,全稱是"精簡指令集計算機"(reducedinstructionsetcomputer),它支持的指令比較簡單,雖然功能遠(yuǎn)不如英特爾處理器強大,但是功耗小、價格便宜。
當(dāng)時處理器行業(yè)的霸主是英特爾,它采用的是X86的CISC指令集,占據(jù)著PC處理器市場絕大多數(shù)的市場份額。ARM處理器能力不足,根本無法撼動英特爾在PC處理器的市場份額。
ARM處理器另辟蹊徑,在嵌入式設(shè)備市場找到了發(fā)展空間。它被廣泛用在各種嵌入式設(shè)備中,包括蘋果公司的牛頓PDA。這些嵌入式設(shè)備不需要處理器性能多么強大,而對功耗價格卻有很高的要求,這與ARM處理器的特性正好一拍即合。
盡管找到了市場立足點,但是整個20世紀(jì)90年代,ARM公司的業(yè)績平平,處理器的出貨量徘徊不前。直到進入21世紀(jì)之后,由于手機的快速發(fā)展,ARM處理器迎來了快速增長。
而在2007年,ARM迎來了歷史性的機遇——智能手機時代的到來。2007年,喬布斯發(fā)布了第一代iPhone,使用的就是三星制造、ARM設(shè)計的芯片。此后的每一款iPhone都采用了ARM架構(gòu),稍后推出的谷歌Android手機同樣采用了ARM架構(gòu)。
ARM架構(gòu)成為了智能手機的“事實標(biāo)準(zhǔn)”。2015年,包括高通、三星、聯(lián)發(fā)科等在內(nèi)的全球1384家移動芯片制造商都采用了ARM的架構(gòu),全球有超過85%的智能手機和平板電腦的芯片都采用的是ARM架構(gòu)的處理器,超過70%的智能電視也在使用ARM的處理器。
在此期間,ARM公司營業(yè)收入從2008年的3億英鎊增長到2013年的7.14億英鎊,同期凈利潤從0.44億英鎊增至2億英鎊,凈利潤CAGR為35.6%。
從股價表現(xiàn)來看,ARM股價受08年金融危機影響下跌到2008年底的80多英鎊,此后兩年多,連續(xù)上漲到2011年初的600多英鎊,期間漲幅超過600%。
總結(jié)起來,ARM公司之前在嵌入式處理器這個小眾市場中占據(jù)領(lǐng)導(dǎo)地位,業(yè)績一直徘徊不前。而后隨著智能手機市場爆發(fā),ARM處理器作為整個智能手機的底層硬件平臺架構(gòu),充分享受了下游市場爆發(fā)帶來的紅利。ARM公司業(yè)績在2008年到2013年出現(xiàn)了爆發(fā)性增長,而股價更是表現(xiàn)出“戴維斯雙擊”。
1.3 人工智能時代:底層計算平臺存在著大機會
在人工智能時代,人們對計算能力的需求有指數(shù)級的提高,計算能力的要求超過了摩爾定律。隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。諸如深度學(xué)習(xí)在線預(yù)測、直播中的視頻轉(zhuǎn)碼、圖片壓縮解壓縮以及HTTPS加密等各類應(yīng)用對計算的需求已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)CPU處理器的能力所及。除此之外,未來在激光雷達、無人機、無人駕駛、智能機器人等終端設(shè)備方面對計算能力也會有極大的提升。
另一方面,摩爾定律正在失效,傳統(tǒng)X86架構(gòu)下計算能力的提升開始滯后于摩爾定律。近幾年半導(dǎo)體技術(shù)改進達到了物理極限,電路越來越復(fù)雜,每一個設(shè)計的開發(fā)成本高達數(shù)百萬美元,數(shù)十億美元才能形成新產(chǎn)品投產(chǎn)能力。2016年3月24日,英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式,未來研發(fā)周期將從兩年周期向三年期轉(zhuǎn)變。至此,摩爾定律對英特爾幾近失效。
因此,計算能力的需求供給出現(xiàn)了一個巨大的缺口。一方面處理器性能再無法按照摩爾定律進行增長,另一方面數(shù)據(jù)增長對計算性能要求超過了按“摩爾定律”增長的速度。處理器本身無法滿足高性能計算(HPC:High Performance Compute)應(yīng)用軟件的性能需求。
巨大的缺口同時也是時代的機遇:傳統(tǒng)X86架構(gòu)芯片無法滿足需求,時代呼喚新一代的計算芯片平臺。誰能成為下一代硬件芯片平臺,就有望隨著海量計算需求的大爆發(fā),上演ARM在智能手機時代爆發(fā)的輝煌。
2. 人工智能芯片決勝的主戰(zhàn)場在推理環(huán)節(jié)
提起人工智能芯片,很多人認(rèn)為人工智能芯片是一條好的賽道,但是勝負(fù)已經(jīng)明了,英偉達就是最終的贏家。特別是隨著2016年以來人工智能的浪潮,英偉達股價從不到20美元一路上漲到160多美元,更是助長了這種情緒的蔓延。
我們的觀點很簡單:
目前,英偉達的GPU在訓(xùn)練場景中占據(jù)著絕對領(lǐng)導(dǎo)地位。而人工智能整體仍然處于早期階段,未來人工智能應(yīng)用的主戰(zhàn)場是在推理環(huán)節(jié),遠(yuǎn)沒有爆發(fā)。未來勝負(fù)尚未可知,各家技術(shù)路線都有機會勝出。
從應(yīng)用場景來看,人工智能芯片主要應(yīng)用在訓(xùn)練(training)和推理(inference)兩個環(huán)節(jié)。訓(xùn)練環(huán)節(jié)的作用是指利用海量數(shù)據(jù),選擇合適的訓(xùn)練方法,訓(xùn)練出一個人工智能模型。訓(xùn)練環(huán)節(jié)最關(guān)心的指標(biāo)是速度快。國內(nèi)外的人工智能巨頭公司都建立了龐大的GPU集群,以最快速度處理海量數(shù)據(jù)訓(xùn)練、驗證模型的有效性。
而在線推理環(huán)節(jié)也就是人工智能模型的實際應(yīng)用環(huán)節(jié),是指利用訓(xùn)練出來的模型來在線響應(yīng)用戶的需求。推理環(huán)節(jié)又分為兩個場景,一個是在云端數(shù)據(jù)中心響應(yīng)用戶需求,一個是在前端智能設(shè)備響應(yīng)用戶需求。
在云端數(shù)據(jù)中心,各家公有云服務(wù)廠商都紛紛部署了高性能云計算服務(wù)器,應(yīng)用于視頻編解碼、深度學(xué)習(xí)、科學(xué)計算等多種場景。隨著人工智能技術(shù)的發(fā)展,未來云端數(shù)據(jù)中心應(yīng)用場景還會有極大的豐富。
而在前端智能設(shè)備,受模型算法以及計算能力的限制,目前應(yīng)用還不多。但是基于實時性及隱私安全要求,很多應(yīng)用都會在前端部署,未來市場空間非常巨大。我們以無人駕駛和智能服務(wù)機器人為例說明。
在無人駕駛中,無人駕駛汽車需要實時處理來自激光雷達、攝像頭等多路傳感器傳輸?shù)暮A繑?shù)據(jù)并作出實時反映。如果通過云端反饋處理,則必然會增加時延和不確定性,導(dǎo)致無人汽車安全性下降。因此,無人駕駛中必須將計算平臺部署在前端。
在智能家居中,未來包括智能服務(wù)機器人在內(nèi)的智能家居設(shè)備都需要具備實時環(huán)境感知能力及語音語義理解能力等,這些也都需要強大的計算平臺作為底層支撐。而基于私密性考慮,不可能把智能家居的數(shù)據(jù)都上傳云端處理。因此,智能家居的應(yīng)用也需要計算平臺部署在前端設(shè)備中。
與訓(xùn)練環(huán)節(jié)不同,推理環(huán)節(jié)更重視性能功耗比。云端數(shù)據(jù)中心對高并發(fā)更加重視,而前端智能設(shè)備則對低延時更加重視。
從市場潛力來看,未來市場規(guī)模最大的肯定是推理環(huán)節(jié)。人工智能的發(fā)展,首先需要訓(xùn)練出足夠好的算法模型。而當(dāng)人工智能真正落地應(yīng)用時候,則需要在大量的云端數(shù)據(jù)中心或者前端智能設(shè)備上部署應(yīng)用。
以人臉識別為例,我們需要在GPU集群中經(jīng)過多次訓(xùn)練才能得到一個足夠好的人臉識別算法模型,而當(dāng)把人臉識別應(yīng)用于實際應(yīng)用時候,我們需要將模型部署在成千上萬臺服務(wù)器進行實時人臉識別,甚至在上億臺攝像機中前臵部署部分算法進行預(yù)處理。
由此可見,推理環(huán)節(jié)才是未來最大的潛在市場,也是人工智能芯片決勝的主戰(zhàn)場。在推理環(huán)節(jié)還遠(yuǎn)沒有爆發(fā)的時候。未來勝負(fù)尚未可知,各家技術(shù)路線都有機會勝出。
3.幾種芯片架構(gòu)的技術(shù)特點:各有千秋
人工智能芯片,目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計算架構(gòu),加速硬件計算能力,主要以3種類型的芯片為代表,即GPU、FPGA和ASIC,但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮諾依曼計算架構(gòu),采用人腦神經(jīng)元的結(jié)構(gòu)來提升計算能力,以IBMTrueNorth芯片為代表。由于人腦神經(jīng)元芯片距離產(chǎn)業(yè)化仍然較遠(yuǎn),我們著重討論在人工智能時代GPU,FPGA和ASIC的應(yīng)用和未來發(fā)展可能性。
按照處理器芯片的效率排序,從低到高依次是CPU、DSP、GPU、FPGA和ASIC。沿著CPU->ASIC的方向,芯片中晶體管的效率越來越高。因為FPGA&ASIC等芯片實現(xiàn)的算法直接用晶體管門電路實現(xiàn),比起指令系統(tǒng),算法直接建筑在物理結(jié)構(gòu)之上,沒有中間層次,因此晶體管的效率最高。CPU&GPU需要軟件支持,而FPGA&ASIC則是軟硬件一體的架構(gòu),軟件就是硬件。
而按照晶體管易用性排序是相反的。從ASIC到CPU,芯片的易用性越來越強。CPU&GPU的編程需要編譯系統(tǒng)的支持,編譯系統(tǒng)的作用是把高級軟件語言翻譯成機器可以識別的指令(也叫機器語言)。高級語言帶來了極大的便利性和易用性,因此用CPU&GPU實現(xiàn)同等功能的軟件開發(fā)周期要遠(yuǎn)低于FPGA&ASIC芯片。
3.1 CPU仍然是最好的通用處理器之一
CPU作為通用處理器,兼顧計算和控制,70%晶體管用來構(gòu)建Cache還有一部分控制單元,用來處理復(fù)雜邏輯和提高指令的執(zhí)行效率,如圖所示,所以導(dǎo)致計算通用性強,可以處理計算復(fù)雜度高,但計算性能一般。
目前,英特爾等芯片制造商主要通過增加CPU核數(shù)來增加計算能力,但是因為每個物理核中只有30%的晶體管是計算單元。通過這種方式來增加計算能力并不劃算,還帶來芯片功耗和價格的增加。
此外,英特爾進行CPU架構(gòu)調(diào)整的時間也在放緩。原來英特爾按照“Tick-Tock”二年一個周期進行CPU架構(gòu)調(diào)整,從2016年開始放緩至三年,更新迭代周期較長。
由此可見,CPU仍然最好的通用處理器之一,但是在高性能計算上,CPU越來越無法滿足計算能力提升的需求。
3.2 GPU具有最強大的并行計算能力
GPU主要擅長做類似圖像處理的并行計算,所謂的“粗粒度并行(coarse-grainllelism)”。圖形處理計算的特征表現(xiàn)為高密度的計算而計算需要的數(shù)據(jù)之間較少存在相關(guān)性,GPU提供大量的計算單元(多達幾千個計算單元)和大量的高速內(nèi)存,可以同時對很多像素進行并行處理。
GPU的設(shè)計出發(fā)點就是用于計算強度高、多并行的計算。GPU把晶體管更多用于計算單元,而不像CPU用于數(shù)據(jù)Cache和流程控制器。GPU中邏輯控制單元不需要能夠快速處理復(fù)雜控制。并行計算時,每個數(shù)據(jù)單元執(zhí)行相同程序,不需要繁瑣的流程控制而更需要高計算能力,因此也不需要大的cache容量。
GPU同CPU一樣也是指令執(zhí)行過程:取指令->指令譯碼->指令執(zhí)行,只有在指令執(zhí)行的時候,計算單元才發(fā)揮作用。GPU的邏輯控制單元相比CPU簡單,要想做到指令流水處理,提高指令執(zhí)行效率,必然要求處理的算法本身復(fù)雜度低,處理的數(shù)據(jù)之間相互獨立,所以算法本身的串行處理會導(dǎo)致GPU浮點計算能力的顯著降低。
GPU具有最強大的并行計算處理能力。以GP100為例,其雙精度運算能力是5.3Teraflops,單精度為10.6Teraflops(AMD雙芯RadeonProDuo是16TeraFLOPs)。而英偉達在開發(fā)者大會GTC2017上發(fā)布新一代GPU架構(gòu)Volta,首款核心為GV100據(jù)稱其在推理場景下,V100比上一代搭載GP100CPU的P100板卡,圖像處理能力提升了約10倍,延遲也下降了約30%。
3.3 FPGA:萬能芯片
FPGA即現(xiàn)場可編程門陣列,它不采用指令和軟件,是軟硬件合一的器件。FPGA由于算法是定制的,沒有CPU和GPU的取指令和指令譯碼過程,數(shù)據(jù)流直接根據(jù)定制的算法進行固定操作,計算單元在每個時鐘周期上都可以執(zhí)行,所以可以充分發(fā)揮浮點計算能力,計算效率高于CPU和GPU。
整個FPGA市場規(guī)模約50億美元。由于FPGA萬能芯片的特點,它被芯片廠商用作芯片原型設(shè)計和驗證,還廣泛使用在通訊密集型和計算密集型市場中,使用行業(yè)包括通訊、軍工、汽車電子、消費及醫(yī)療等行業(yè)。
FPGA的缺點在于進行編程要使用硬件描述語言,而掌握硬件描述語言的人才太少,限制了其使用的拓展。
3.4 ASIC:高性能功耗比的專用芯片
ASIC是一種專用芯片,與傳統(tǒng)的通用芯片有一定的差異。是為了某種特定的需求而專門定制的芯片。ASIC芯片的計算能力和計算效率都可以根據(jù)算法需要進行定制,所以ASIC與通用芯片相比,具有以下幾個方面的優(yōu)越性:體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低。但是缺點也很明顯:算法是固定的,一旦算法變化就可能無法使用。
與FPGA相比,ASIC上市速度慢,需要大量時間開發(fā),而且一次性成本(光刻掩模制作成本)遠(yuǎn)高于FPGA,但是性能高于FPGA且量產(chǎn)后平均成本低于FPGA。在同一時間點上用最好的工藝實現(xiàn)的ASIC的加速器的速度會比用同樣工藝FPGA做的加速器速度快5-10倍,而且一旦量產(chǎn)后ASIC的成本會遠(yuǎn)遠(yuǎn)低于FPGA方案。
4. FPGA未來大有可為
從技術(shù)上來看,GPU、FPGA和ASIC都各有千秋。從實際應(yīng)用來看,GPU擁有最完善的生態(tài)系統(tǒng)支撐,具有較大的先發(fā)優(yōu)勢。由于市場對此已經(jīng)充分預(yù)期,我們在此就不再贅述。
人工智能在推理環(huán)節(jié)應(yīng)用剛起步,云端要比前端設(shè)備發(fā)展速度更快。下面我們將重點講述一下云端數(shù)據(jù)中心的應(yīng)用。在數(shù)據(jù)中心,F(xiàn)PGA使用日益廣泛,而ASIC路線風(fēng)險太高,目前僅有谷歌批量部署了TPU。
4.1 FPGA已在全球七大數(shù)據(jù)中心實際部署
FPGA最大的優(yōu)點是動態(tài)可重配、性能功耗比高,非常適合在云端數(shù)據(jù)中心部署。
當(dāng)在數(shù)據(jù)中心部署之后,F(xiàn)PGA可以根據(jù)業(yè)務(wù)形態(tài)來配臵不同的邏輯實現(xiàn)不同的硬件加速功能。以騰訊云為例,當(dāng)前服務(wù)器上的FPGA板卡部署的是圖片壓縮邏輯,服務(wù)于QQ業(yè)務(wù);而此時廣告實時預(yù)估需要擴容獲得更多的FPGA計算資源,通過簡單的FPGA重配流程,F(xiàn)PGA板卡即可以變身成“新”硬件來服務(wù)廣告實時預(yù)估,非常適合批量部署。
FPGA的性能功耗比顯著高于GPU。以普遍使用在服務(wù)器中的FPGA型號A10GX660為例,性能/功耗能達到45GFLOPS/W,而對應(yīng)的GPU型號M4,性能/功耗能達到29GFLOPS/W。依次測算FPGA性能功耗比要高50%。
近兩年,全球七大超級云計算數(shù)據(jù)中心包括IBM、Facebook、微軟、AWS以及BAT都采用了FPGA服務(wù)器。在這方面,中國和美國處以同一起跑線。
4.2 行業(yè)發(fā)展趨勢:FPGA大有可為
比使用現(xiàn)狀更重要的是未來的技術(shù)和產(chǎn)業(yè)發(fā)展趨勢。從行業(yè)發(fā)展趨勢來看,我們認(rèn)為FPGA潛力被低估了,未來大有可為。具體如下:
4.2.1 算法正在快速迭代中
人工智能算法正處于快速迭代中。雖然ASIC芯片可以獲得最優(yōu)的性能,即面積利用率高、速度快、功耗低;但是AISC開發(fā)風(fēng)險極大,需要有足夠大的市場來保證成本價格,而且從研發(fā)到市場的時間周期很長,不適合例如深度學(xué)習(xí)CNN等算法正在快速迭代的領(lǐng)域。因此,推出ASIC芯片風(fēng)險非常高,且成本太高,只有谷歌等極少數(shù)公司敢于嘗試。
更重要的是,當(dāng)前人工智能算法模型的發(fā)展趨勢是從訓(xùn)練環(huán)節(jié)向推理環(huán)節(jié)走,這個過程非常有利于FPGA未來的發(fā)展。人工智能算法模型從訓(xùn)練環(huán)節(jié)走向推理環(huán)節(jié)并不是簡單搬運過去。訓(xùn)練出來的算法模型往往規(guī)模太大,復(fù)雜度太高,無法直接部署實際應(yīng)用。現(xiàn)在,人工智能算法模型研究的重要趨勢就是將訓(xùn)練后的模型再進行壓縮,在基本不損失模型精度的情況下,將模型壓縮到原來的幾十分之一,再應(yīng)用到推理環(huán)節(jié)。
以深鑒科技的研究成果為例,公司發(fā)布的論文《ESE :Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》指出,長短期記憶網(wǎng)絡(luò)(LSTM)被廣泛用于語音識別領(lǐng)域。為實現(xiàn)更高的預(yù)測精度,機器學(xué)習(xí)研究者們構(gòu)建了越來越大的模型。然而這樣的模型十分耗費計算和存儲資源。部署此類笨重的模型會給數(shù)據(jù)中心帶來很高的功耗,從而帶來很高的總擁有成本(TCO)。
公司提出了一種可以在幾乎沒有預(yù)測精度損失的情況下將LSTM模型的尺寸壓縮20倍(10倍來自剪枝和2倍來自量化)的負(fù)載平衡感知剪枝(load-balance-awarepruning)方法。
最后,它們設(shè)計了一種可以直接在這種壓縮模型上工作的硬件框架——EfficientSpeechRecognitionEngine(ESE)。該框架使用了運行頻率為200MHz的XilinxXCKU060FPGA,具有以282GOPS的速度直接運行壓縮LSTM網(wǎng)絡(luò)的性能,相當(dāng)于在未壓縮LSTM網(wǎng)絡(luò)上2.52TOPS的速度;此外,該框架執(zhí)行一個用于語音識別任務(wù)的全LSTM僅需41W功耗。在基于LSTM的語音基準(zhǔn)測試中,ESE的速度為英特爾Corei75930kCPU的43倍,英偉達PascalTitanXGPU的3倍。它的能量效率分別為以上兩種處理器的40倍和11.5倍。
這篇論文驗證了我們上述觀點:
人工智能算法正處于快速迭代中。公司提出的新算法,可以在幾乎沒有預(yù)測精度損失的情況下將LSTM模型的尺寸壓縮20倍(10倍來自剪枝和2倍來自量化)。在算法能夠帶來數(shù)量級的性能提升下,想要將算法固化在ASIC中來獲得效率提升的想法是不切實際的。
采用了搭建在FPGA上的硬件框架ESE,獲得了高一個數(shù)量級的能量效率提升。ESE的速度為英特爾Corei75930kCPU的43倍,英偉達PascalTitanXGPU的3倍。它的能量效率分別為以上兩種處理器的40倍和11.5倍。采用FPGA搭建硬件框架充分發(fā)揮了FPGA萬能芯片的特性,性能遠(yuǎn)超GPU等。
4.2.2 芯片NRE費用在指數(shù)級上升
集成電路行業(yè)的特點是贏家通吃,像CPU處理器,只有英特爾一家獨大,門檻極高。而隨著芯片制程工藝的提升,芯片NRE費用呈現(xiàn)指數(shù)級上升。這樣導(dǎo)致的結(jié)果是需要收回成本的芯片銷售規(guī)模門檻越來越高。市場上能夠滿足如此大市場規(guī)模要求的單品是非常少的。
而FPGA則可以受益于指數(shù)級成本上升帶來的規(guī)模效應(yīng)。因為FPGA的NRE成本可以攤到上千個小項目上,從而讓每個項目只分擔(dān)幾十萬美元的NRE。比如開發(fā)一款14nm的FPGA,假設(shè)需要一億美元,其性能可以達到45nmASIC的水平。然后有1000個有45nm工藝要求的項目可以采用該FPGA來解決問題,他們支付不了45nm工藝數(shù)千萬美元的NRE,但是通過分?jǐn)偟姆绞矫考抑Ц稁资f美元可以使用14nm的FPGA產(chǎn)品。
因此,隨著芯片NRE費用指數(shù)級上升,越來越多的ASIC芯片將由于達不到規(guī)模經(jīng)濟而被迫放棄,從而轉(zhuǎn)向直接基于FPGA開發(fā)設(shè)計。而FPGA可以受益于指數(shù)級成本上升帶來的規(guī)模效應(yīng)。
5.投資建議
5.1 FPGA行業(yè)呈現(xiàn)雙寡頭格局
FPGA動態(tài)可重配的,性能功耗比高,非常適合在云端數(shù)據(jù)中心部署。目前,F(xiàn)PGA云服務(wù)器也已經(jīng)在全球七大超級數(shù)據(jù)中心得到了部署,未來出貨量增長值得密切關(guān)注。
從行業(yè)發(fā)展趨勢來看,無論是快速迭代的算法,還是指數(shù)級增長的NRE費用,都有利于FPGA的發(fā)展。FPGA未來的發(fā)展大有可為。
FPGA行業(yè)呈現(xiàn)典型的雙寡頭競爭格局,主要有4家生產(chǎn)廠家都在美國。根據(jù)Gartner的數(shù)據(jù),F(xiàn)PGA器件的廠家主要有Xilinx(賽靈思)、Altera(阿爾特拉)、Lattice(萊迪思)和Microsemi(美高森美),這四家公司都在美國,總共占據(jù)了98%以上的市場份額。其中全球份額Xilinx占49%,另一家Altera占39%,剩余的占比12%。
近兩年,F(xiàn)PGA行業(yè)展開了多項并購,但是對競爭格局影響不大。2015年6月,英特爾宣布以167億美元收購Altera(阿爾特拉)。2016年上半年,紫光在公開市場收購Lattice(萊迪思)股權(quán)6.07%,11月萊迪思被Canyon Bridge以13億美元收購,但此案一直沒有獲得美國監(jiān)管單位同意。
目前國內(nèi)能夠生產(chǎn)FPGA的上市公司僅有紫光國芯(002049),而非上市公司有智多晶和AgateLogic等。
5.2 投資標(biāo)的
5.2.1 賽靈思(XLNX.O)
Xilinx(賽靈思)是全球領(lǐng)先的可編程邏輯完整解決方案的供應(yīng)商。世界上第一個FPGA就是由賽靈思設(shè)計的。賽靈思擁有FPGA市場超過50%的市場份額,下游客戶超過2萬家,產(chǎn)品被廣泛使用在芯片原型驗證、通訊、工業(yè)、宇航軍工、汽車電子等行業(yè)。
賽靈思推出了面向數(shù)據(jù)中心的FPGA解決方案,已經(jīng)被亞馬遜、騰訊、百度等多家云服務(wù)商所采納。FPGA解決方案的靈活性、高并發(fā)和高性能功耗比具有很強的競爭優(yōu)勢,能夠帶來更低的全生命周期成本。
除了在數(shù)據(jù)中心端的產(chǎn)品之外,賽靈思在前端設(shè)備方面也有非常多的積累。以ADAS為例,公司是第二大的半導(dǎo)體供應(yīng)商,正在與26家制造商正在密切合作開發(fā)96款產(chǎn)品。
為了彌補FPGA采用硬件描述語言、使用難度大的缺點,賽靈思積極打造自身的生態(tài)圈,推出reVision堆棧,幫助合作伙伴更方便地使用公司產(chǎn)品。
5.2.2 紫光國芯(002049.SZ)
公司是國內(nèi)稀缺的FPGA標(biāo)的。公司旗下的國微電子是國內(nèi)特種IC的設(shè)計龍頭,是國內(nèi)上市公司中唯一能夠量產(chǎn)FPGA的廠商,稀缺性明顯。公司FPGA、ASIC和特種微處理器常年為軍方穩(wěn)定供貨。
公司的商用可編程系統(tǒng)芯片的開發(fā)進展順利,在2016年9月正式推出國內(nèi)首款內(nèi)嵌高速接口(serdes)的千萬門級高性能FPGA芯片——PGT180H。該芯片首次集成了傳輸速率達到6.5Gbps的高速serdes模塊,最大規(guī)模可編程達到1800萬門,支持最高速率1066MbpsDDR3接口。無論從規(guī)模還是性能角度,PGT180H都代表了國內(nèi)自主知識產(chǎn)權(quán)FPGA芯片的最高水平。
我們預(yù)計公司2017年-2019年營業(yè)收入分別為16.億元、19億元和20億元,對應(yīng)每股收益分別為0.71元、0.86元和0.99元,對應(yīng)PE分別為35、29和25倍。按照公司2017年40倍市盈率,給予6個月目標(biāo)價28.4元,維持公司“推薦”評級。
6. 風(fēng)險提示
1、人工智能應(yīng)用不及預(yù)期的風(fēng)險;
2、技術(shù)路線競爭激烈的風(fēng)險。
-
FPGA
+關(guān)注
關(guān)注
1630文章
21777瀏覽量
604686 -
芯片
+關(guān)注
關(guān)注
456文章
51037瀏覽量
425470
發(fā)布評論請先 登錄
相關(guān)推薦
評論