每個人都會同意高質量、高可靠性和低延遲的閃存對于 AI 芯片和應用程序的重要性。為不同的應用找到性能、功耗、安全性、可靠性和高效率之間的適當平衡至關重要。成本雖然很重要,但不應該是最重要的考慮因素。
2016 年 3 月,谷歌的 AlphaGo 在圍棋比賽中以 4:1 的優勢戰勝了 來自韓國的名譽9段棋手李世石,創造了歷史。圍棋起源于3000多年前的中國,是一種高度復雜的游戲,需要多層戰略思維。隨后,谷歌的AlphaStar在2018年底的《星際爭霸II》中與兩位世界頂級游戲玩家較量,最終以兩場5:0的比分擊敗了對手。雖然早在 1997 年,IBM 開發的計算機程序“深藍”就擊敗了當時的國際象棋大師加里·卡斯帕羅夫,但考慮到國際象棋的難度遠低于圍棋,AlphaGo 的勝利在某種程度上被稱為“ AI時代的真正到來。
人工智能的起源
從 1955 年到 1956 年,達特茅斯學院的助理教授約翰麥卡錫被公認為人工智能之父。哈佛大學的 Marvin Minsky、IBM 的 Claude Shannon 和美國貝爾實驗室的 Nathaniel Rochester 共同創造了人工智能 (AI) 的概念,他說:“如果機器可以使用不同的語言來形成抽象或概念,那么現在就可以解決各種問題為人類保留,并通過自主學習提高自己,我們稱之為人工智能。”
牛津詞典將人工智能定義為“能夠執行通常需要人類智能的任務的計算機系統的理論和開發,例如視覺感知、語音識別、決策和語言之間的翻譯。”
隨著系統的發展,人工智能技術將應用于更多的物聯網應用,如傳感、智能手機、網絡搜索、人臉或車牌識別、智能電表、工業控制和自動駕駛。
在自動駕駛領域,美國已經進行了 4 級測試(這被認為是完全自動駕駛,盡管人類駕駛員仍然可以請求控制)。5級(真正的自動駕駛,汽車完成所有駕駛,沒有駕駛艙)自動駕駛指日可待,我們不僅要依靠交通法規,還要依靠人工智能算法的開發人員來確保車輛和行人的安全。
據國際數據公司(IDC)統計,預計到2024年,全球人工智能服務占比將上升至18.4%,市值約為378億美元。這包括針對定制平臺的定制應用程序和相關支持和服務,例如深度學習架構、卷積神經網絡(一類人工神經網絡,最常用于分析視覺圖像)和人工智能相關芯片(CPU、GPU、FPGA ,TPU,ASIC)僅舉幾例。
IDC 還預測,全球數據存儲量將從 2018 年的 33ZB 飆升至 2025 年的 175ZB,其中超過 50% 將來自物聯網設備。
考慮到到 2025 年全球將部署約 140 億臺 IoT 設備,我們顯著增加云中的計算單元數量和計算能力以應對海量數據增長不是最重要的嗎?
好吧,簡短的回答是否定的。它沒有考慮從端點到云端的數據傳輸鏈中的帶寬和延遲等真正挑戰,這就是“邊緣計算”如此迅速興起的原因。
無需增加帶寬和服務器數量即可應對物聯網設備的快速增長。最好將應用程序移動到端點設備,這樣就無需將所有數據發送到云端進行處理、傳輸、存儲和分析。例如,在工業自動化應用中,數據存儲距離影響效率——5G移動設備制造商如果不加強端點人工智能和改革計算存儲架構,可能會遇到嚴重的電池壽命問題。
安全是另一個重要問題,尤其是在萬物互聯 (IoE) 時代,機密信息、數據泄露或黑客事件屢見不鮮。在邊緣進行計算可以最大限度地減少數據在“云-管道-端點”路徑中傳輸的次數,在這種情況下,在確保數據和網絡安全的同時降低功耗和系統總擁有成本。
比較人工智能芯片
AI技術分為兩類;訓練和推理。訓練由 CPU、GPU 和 TPU 在云端執行,以不斷增加用于構建數據模型的數據庫資源。推理依賴于訓練好的數據模型,更適合完成邊緣設備和特定應用。它通常由ASIC和FPGA芯片處理。
人工智能相關芯片包括 CPU、GPU、FPGA、TPU 和 ASIC。為了了解這些芯片之間的比較,這里重點比較了 5 個關鍵因素。這些是:
計算
靈活性
兼容性,
力量
成本。
- 中央處理器
CPU開發的計算能力強,軟硬件兼容性首屈一指。但是由于馮諾依曼架構的限制,數據需要在內存和處理器之間來回傳輸。與其他解決方案相比,這限制了平均處理速度以及在功耗和成本方面推動自身發展的能力。
- 圖形處理器
由于采用了計算統一設備架構,例如英偉達的 GPU 可以主觀地讀取內存位置并通過共享虛擬內存來提高計算能力。平均計算能力超過 CPU 數百甚至數千倍。
GPU 發展起來具有良好的軟硬件兼容性,但在功耗和成本效率方面需要改進。對硬件(例如額外的冷卻系統)的投資對于減少任何熱量問題也至關重要。
- ASIC
ASIC 芯片專為特定應用而設計。它們的計算能力、整體功耗和成本效率可以在驗證和調整后進行優化。
- FPGA
FPGA的軟硬件兼容性值得稱道,即使整體計算能力、成本效率和功耗都不是最好的。對于開發者來說,從 FPGA 開始開發 AI 芯片仍然是一個好主意。
突破馮諾依曼建筑的界限
被傳統計算設備廣泛采用的馮諾依曼架構并沒有將計算和存儲分開,而是更側重于計算。處理器和內存之間無休止的數據傳輸消耗了大約 80% 的時間和功率。學術界已經提出了許多不同的方法來解決這個問題——通過光互連和 2.5D/3D 堆疊實現高帶寬數據通信。通過增加高速緩存層的數量和接近數據的存儲(例如高密度片上存儲)來減少內存訪問延遲和功耗。
但是人腦中的計算和存儲有什么區別嗎?我們是否使用左半球進行計算而右半球用于存儲?明顯不是。人腦的計算和存儲在同一個地方進行,無需數據遷移。
那么,學術界和工業界都渴望找到一種類似于人腦結構的新架構,能夠將計算和存儲有機地結合起來,也就不足為奇了。解決方案是“計算存儲設備”,直接使用存儲單元進行計算,或者將計算單元分類,使它們對應不同的存儲單元——最大限度地減少數據遷移帶來的功耗。
存儲行業的一些制造商已經探索了不同的選擇。例如,非易失性存儲器(NVM)存儲數模轉換器產生的模擬信號并輸出計算能力。同時,輸入電壓和輸出電流在NVM中起到可變電阻的作用,模擬電流信號通過模數轉換器轉換為數字信號。這樣就完成了從數字信號輸入到數字信號輸出的轉換過程。這種做法最大的優勢是可以充分利用成熟的20/28nm CMOS工藝,而不是像CPU/GPU那樣追求昂貴的7nm/5nm先進工藝。
隨著成本和功耗的降低,延遲得到了顯著改善,這對于無人機、智能機器人、自動駕駛、安防監控等應用至關重要。
一般來說,端點推理過程的計算復雜度較低,涉及的任務相對固定。硬件加速功能對通用性要求不高,無需頻繁更改架構。這更適合內存計算的實現。相關統計顯示,2017年之前,人工智能無論是訓練還是參考,都是在云端完成的;但到 2023 年,邊緣端設備/芯片上的 AI 參考將占據一半以上的市場份額,總計 20-300 億美元。對于 IC 制造商來說,這是一個巨大的市場。
人工智能需要什么樣的閃存?
每個人都會同意高質量、高可靠性和低延遲的閃存對于 AI 芯片和應用程序的重要性。為不同的應用找到性能、功耗、安全性、可靠性和高效率之間的適當平衡至關重要。成本雖然很重要,但不應該是最重要的考慮因素。
審核編輯:郭婷
評論
查看更多