視覺應用與人工智能(AI)正朝著精細化的方向發(fā)展,其背后的多種推動力中,最重要的兩種是高端智能手機的先進功能以及ADAS(高級駕駛輔助系統(tǒng))/自動駕駛技術。
智能手機的面部識別功能需要同時調用視覺與AI處理兩種技術,而且技術難度不斷增加。最難的部分在于非理想狀態(tài)下的面部識別,如側臉、戴帽子、部分臉被圍巾遮蓋等。為此,智能手機的攝像頭變得越來越精細,采用多種傳感器實現(xiàn)高動態(tài)范圍圖像(HDR)、雙攝變焦、圖像穩(wěn)定等功能。
第二個推動力,即ADAS,它的設計需要滿足兩大需求。第一個是面向特定功能的性能要求,比如行人偵測、駕駛員注意力監(jiān)控、道路偏離預警;第二個是降低功耗。大多數芯片都安裝在空氣流通較差的環(huán)境(沒有風扇),甚至極端溫度環(huán)境,如前擋風玻璃上后視鏡的背面。
還有一些其他驅動因素,如虛擬現(xiàn)實、增強現(xiàn)實、機器人、無人機、監(jiān)控攝像頭等技術的發(fā)展,它們的需求與上述場景大同小異。
上述功能、視覺和AI技術通常被集成到單獨的攝像頭管道,從降噪、視覺后處理等任務開始,再到圖像分類和分割。有時候,AI需要先完成場景分類,然后再執(zhí)行HDR或Bokeh焦外成像(模糊處理在日語里被稱作 boke)等精細圖像處理任務。
總體看來,目前有以下三種技術需求:
將視覺和AI處理集成在單一DSP
提升性能
極低功耗的限制
為了滿足這三種技術需求,新一代Tensilica Vision處理器應運而生。
全新Tensilica Vision Q6簡介
提高性能,我們考慮了下面幾套可選方案:
增加SIMD寬度或VLIW槽的數量。但是這樣會增加編程難度,因為很多閑散資源無法有效利用。簡單地增加算力比有效地利用算力要簡單。
多核。可以立馬將可用處理能力提高一倍(或更多),但是需要兩倍的本地內存,而且很難做到每個核計算負載的平衡
升頻。顯而易見的提高性能的方法,但代價是面積(成本)和功耗的增加
打造更高性能的新架構
Cadence決定采取第四種方案。全新Vision Q6 DSP是第五代產品,面向視覺和AI 應用量身打造,采用13級流水線,16nm工藝下可實現(xiàn)1.5GHz處理器頻率。較上一代P5,相同版圖面積條件下的頻率提升達50%。峰值性能的效率提高1.25倍。采用標準圖像處理內核時,性能提升可達2倍。
流水線構成如下:
指令前端(3級)
指令解碼與分派(2級)
AR/標量整數管道(5標量寄存器/標量流水線)
矢量DSP(3級)
讀取和寫入會在指令解碼一級完成后分別進行。同時,矢量執(zhí)行和標量執(zhí)行也分開進行,這樣可以提高標量性能,并提供了增加標量cache的機會。該cache可以提高標量處理能力50%,而且存儲器速度越慢,cache優(yōu)勢就越明顯(與沒有cache的情況相比)。
Q6的另一個新特色是添加了一個分支預測。流水線越深,這個功能就越重要,因為一旦錯過就必須清空并重新填充流水線。
Q6與P6向上兼容,為P6寫的任何代碼都可以無需修改在Q6上運行。但是Q6有一些新指令無法在P6上運行。
憑借AXI4互聯(lián)技術,Q6可以在多處理器環(huán)境中運行。用戶不僅可以使用多個Q6 核,在VQ6的系統(tǒng)中增加VisionC5來分擔AI的處理。
Q6編程
在芯片上設計一大堆高性能處理資源是很容易的,但程序員可能最終無法從高層軟件開發(fā)中獲得這些處理資源。AI采用多種框架,Q6可以實現(xiàn)以下功能:
安卓神經網絡:在安卓平臺(即非蘋果智能機)上實現(xiàn)本地AI應用
TensorFlow、TensorFlow Lite、Caffe
定制層支持:用戶可以在標準網絡基礎上自行添加特殊功能
支持多種標準神經網絡(MobileNet、Inception、Resnet、VGG、Segnet、FCN、YOLO、RCNN、SSD等)
安卓神經網絡(ANN)相對比較新,去年10月剛剛發(fā)布,到現(xiàn)在也就半年的時間。ANN提供的神經網絡API可以讓開發(fā)者無需關注具體AI處理是在應用處理器(通常是高端ARM處理器)還是在專有的AI DSP上執(zhí)行。。Q6支持運行在安卓8.1系統(tǒng)(Oreo)的ANN,可實現(xiàn)實時的優(yōu)化執(zhí)行。右圖顯示的是ANN各組件的協(xié)作方式。作為專用處理器(也可稱DSP,術語不同而已)的Q6位于流程的中心。
上圖中顯示的是現(xiàn)有Tensilica AI工具鏈,也稱為XNNC(Xtensa神經網絡編譯器)。該工具鏈需要一個神經網絡描述符(在Caffe或Tensorflow框架下)將其編譯成可以在Q6(或P6、C5)上運行的代碼。它可以自動處理許多管理工作,如DMA和tile管理。Tensilica AI處理技術采用8位定點權重,但經過幾年的發(fā)展,32位浮點和8位定點也能實現(xiàn)同樣的精度了(約0.5%量子化誤差),其好處就是可以節(jié)省大量的功耗和面積。
對于HDR、語音身份認證、圖像穩(wěn)定等特殊算法,Cadence正與相關領域的合作伙伴展開廣泛合作。我們還是Khronos公司OpenVX工作組的負責人,推動視覺處理分流標準的開發(fā)。
-
AI
+關注
關注
87文章
31272瀏覽量
269635 -
adas
+關注
關注
309文章
2189瀏覽量
208747
原文標題:新的AI時代需要新架構:Tensilica Vision Q6
文章出處:【微信號:gh_fca7f1c2678a,微信公眾號:Cadence楷登】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論