電子發燒友網報道(文/李彎彎)智能化美好新時代,計算產業的發展是必然趨勢,而算力是計算產業的基石,談到算力就必然離不開AI芯片。
長期以來市場和生態制約著國產芯片產業的發展,國外芯片巨頭定義了傳統芯片生態的規則,壟斷了國內市場,在智能化新時代,國內的AI芯片又面臨怎樣的機遇和挑戰?AI芯片產業落地需要關注哪些問題?
如今AI算法的應用越來越廣泛,對AI算力提出了很高的要求,而傳統處理器架構性能提升受限,那么AI芯片架構又該有怎樣的改進?
日前在百度技術論壇上,昆侖芯科技研發總監羅航、昆侖芯科技NPU架構負責人王京、昆侖芯科技基礎工具鏈開發負責人張釗從各個角度對上述問題進行了闡述。
國內AI芯片的機遇和挑戰
國內AI芯片面臨怎樣的機遇和挑戰?羅航從需求側和供給側談到了這個話題,他認為,從需求側來看,機遇方面,近幾年的中美博弈為國產芯片打開了市場空間,新基建、雙循環、自主可控等政策扶持也給AI芯片帶了新的機遇,另外AI芯片是一個全新的市場,全球生態格局沒有固化,這是與傳統芯片不同的地方;挑戰方面,AI產業仍處于早期階段,商業化不成熟,需求尚未爆發,對產業拉動效應未顯現。
從供給測來看,機遇方面,摩爾定律逼近極限,領先者和追趕者代差會逐步縮小,大陸已有28nm工藝儲備,中國具有資本、技術、人才的后發優勢;挑戰方面,與第一梯隊還存在非常巨大的代際差距,產品和生態還很不完善,芯片設計等底層EDA還依賴國外技術。
那么AI芯片產業產業化落地重點需要關注和解決的問題是什么?羅航談到幾點:1、芯片量產是前提,芯片研發和流片的先期投入成本巨大,通過量產平攤成本是實現盈利的唯一方法,量產規模也是衡量芯片成熟度的指標之一;2、構建軟件生態:軟件生態由軟件技術棧、開發者社區和用戶構成。構建在芯片之上的軟件生態決定芯片的可用性和市場接受度,是芯片商業模式的護城河;3、做產品而不是做項目:產品力是芯片商業模式可持續成長的關鍵因素,成熟的產品促進量產規模,形成業務飛輪閉環。
在羅航看來,AIoT相當于是萬物數據+超強算力,數據是生產資料,算力是生產力。物聯網負責海量數據生產和消費,AI芯片負責這些數據的處理和再造,二者相輔相成,缺一不可,計算速度、計算方法、通信能力、數據總量代表未來國與國之間的競爭力。
通用AI芯片架構昆侖芯XPU的優勢
昆侖芯科技是一家AI芯片公司,2021年4月完成了獨立融資,前身是百度智能芯片及架構部,昆侖芯在AI芯片上經歷了超過10年的發展歷程,2017年發布自研架構昆侖芯XPU;2020年昆侖芯1代大規模部署;2021年昆侖芯2代量產。
為什么要自研AI芯片架構,王京談到,如今各行各業都需要用到語音、圖像、自然語言處理等技術,AI算法的廣泛應用對AI算力提出更高要求,根據OpenAI分析報告,每3.5個月計算量就要翻倍,而傳統處理器架構,根據摩爾定律,晶體管數量翻倍要18-24個月,而且工作頻率、功耗、單線程性能以及核心數量的發展速度已經非常緩慢,受限于此,傳統處理器架構實際性能提升更慢了。因此,有必要開發一款通用的AI芯片架構。
相比于傳統的CPU、GPU,昆侖芯科技開發的通用AI計算處理器XPU-R改變了通用計算單元和加速計算單元的數量和分布,從高性能、TCO、通用性、易編程幾個指標來看,通用AI計算處理器XPU-R相比于CPU、GPU都表現出比較明顯的優勢。
昆侖芯2代,具有高性能分布式AI系統,芯片間互聯支持訓練和推理中模型并行&數據并行策略的通訊要求;支持硬件虛擬化,計算單元和存儲單元的物理隔離,優化了加速芯片的利用率在保證延時和吞吐量的情況下支持推理和訓練等混合工作負載;增強的通用計算能力,XPU-R架構為CLUSTER的算力提升2-3倍,進一步擴展通用AI計算能力。
以昆侖芯AI加速卡R200為例,與業界主流150W GPU相比,它的通用矩陣乘法性能加速為后者的1.7倍;視覺的目標檢測算法YOLO性能加速為1.3倍;自然語言處理約典型算法Bert性能加速為1.4倍;視覺的圖像分類模型ResNet50性能加速為1.2倍。
張釗詳細來介紹了新一代架構XPU-R,如下圖。SDNN,軟件定位神經網絡引擎,自研核心張量計算單元,加速卷積和矩陣乘等計算;CLUSTER,負責除了卷積和矩陣乘法之外的通用計算部分;GDDR6,高速內存,提供高達512GB/s的存儲帶寬,具有較高能效比和性價比,是國內業界率先支持GDDR6的廠商之一;SHARED MEMORY,片上共享內存,保證所有計算單元高并發,低延時訪問;片間互聯,提供高達200GB/s芯片間互聯帶寬,有效提升大規模分布式訓練中數據傳輸效率,減少通信延時;PCIe 4.0*16,支持PCIe第四代接口,雙向帶寬可達64GB/s,同時兼容PCIe 3.0接口規范,可靈活搭配業界已上市AI服務器。
昆侖芯原生支持開源深度學習框架飛槳(PaddlePaddle)、百度機器學習平臺BML及各種類的AI能力引擎;已經適配90%以上主流模型,推理高效支持飛槳、TensorFlow/Pytorch等框架,訓練與飛槳社區進行協同生態建設,已經開源;昆侖芯+飛槳是百度人工智能生態端到端軟硬件一體解決方案的獨特產品組合,已與多款國產操作系統、國產通用處理器完成端到端的系統適配,實現國產AI計算生態解決方案。
如今昆侖芯已經在互聯網、智慧城市、智慧工業、生物計算、智慧金融、智慧政務、智算中心以及智慧交通等各行業AI應用場景中落地。
-
處理器
+關注
關注
68文章
19295瀏覽量
230001 -
AI芯片
+關注
關注
17文章
1887瀏覽量
35053 -
AI算法
+關注
關注
0文章
251瀏覽量
12265
發布評論請先 登錄
相關推薦
評論