芯片自研的趨勢正愈演愈烈。
云服務巨頭亞馬遜最近發表聲明稱,計劃將 Alexa 語音助手的部分計算任務轉移到自主設計的定制設計芯片 Inferentia 上,以便加速任務的執行速度,同時降低成本。
這意味著亞馬遜將減少對英偉達芯片的依賴。
當用戶使用亞馬遜 Echo 智能音箱呼叫 Alexa 語音助手時,語音數據將發送到數據中心的服務器上,然后再由 AI 系統分析和處理,以文本的形式生成反饋信息,最后再轉換成 Alex 的語音,轉達給用戶。
在此之前,整套流程都是由英偉達芯片驅動的,但從今往后,亞馬遜將逐步起用自家的 Inferentia 計算芯片。該芯片發布于 2018 年,專門為執行機器學習任務而定制設計,可以加速文本轉語音、識別圖像等任務的執行速度。
亞馬遜官方介紹,AWS 云服務是使深度學習普及到普通開發者,并以低成本提供按需付費服務的頂尖基礎架構。作為加速機器學習任務的定制芯片,Inferentia 是實現這一愿景的長期戰略的一部分。
Inferentia 旨在在云端提供高性能推理,降低推理的總成本,配套的軟件開發套件(SDK)可以方便開發人員將機器學習集成到其業務中。它的特點主要是高性能,低延遲和高靈活性。
每個 Inferentia 芯片的運算性能最高可達 128 TOPS,而現有的每個 EC2 Inf1 服務最多支持 16 個 Inferentia 芯片。芯片經過了特殊優化,以最大程度地提高小樣本尺寸的吞吐量,這對于語音生成和搜索等對延遲要求很高的任務特別有用。
另一方面,Inferentia 擁有大量的片上內存,可用于緩存大型模型,而不是存儲在芯片外。由于它的處理核心(又被稱作神經核心)可以高速訪問存儲片上內存中的模型且不受片外存儲器帶寬限制,因此可以有效減少延遲對推理的重大影響。
亞馬遜表示,將 Alexa 相關任務轉移到 Inferentia 芯片,可以將延遲降低 25%,成本降低 30%。
亞馬遜還強調,開發人員可以使用 TensorFlow,PyTorch 和 MXNet 等流行框架來訓練模型,并使用 AWS Neuron SDK 輕松地將它們部署到云服務器上。Inferentia 支持 FP16,BF16 和 INT8 數據類型,還可以采用 32 位訓練模型并使用 BFloat16 以 16 位模型的速度自動運行。
近年來,亞馬遜,微軟和谷歌等公司正在大力發展云計算服務,因此需要大量的數據中心和服務器西元,由此成為了最大的計算芯片客戶。這種趨勢推動了英偉達,AMD 和英特爾等公司加大了對計算芯片的研發力度,而且相關營收也不斷增長。
但最近的趨勢顯示,越來越多的技術公司正在嘗試擺脫對傳統芯片供應商的依賴,轉向自主設計芯片的道路。比如蘋果最近推出了搭載自研中央處理器 M1 芯片的 Mac 電腦。
目前,亞馬遜的云端面部識別服務 Rekognition 也已經已開始使用 Inferentia 芯片,但仍有大部分服務依賴于英偉達芯片。
責任編輯:xj
原文標題:告別英偉達,亞馬遜計劃將Alexa語音處理任務轉移至自研芯片
-
芯片
+關注
關注
455文章
50817瀏覽量
423677 -
英偉達
+關注
關注
22文章
3776瀏覽量
91111 -
亞馬遜
+關注
關注
8文章
2666瀏覽量
83362 -
Alexa
+關注
關注
2文章
196瀏覽量
23309
原文標題:告別英偉達,亞馬遜計劃將Alexa語音處理任務轉移至自研芯片
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論