“計算革命在計算機歷史上只發生過三次,第一次是 70 年代的 CPU,第二次是 90 年代的 GPU,而 Graphcore 就是第三次革命,他們的芯片(IPU,智能處理單元)是這個世界偉大新架構的一種?!闭f這話的是 ARM 公司創始人、英國半導體之父赫爾曼·豪瑟(Hermann Hauser)。 他口中的 Graphcore,是來自英國的 AI 芯片公司。這家公司創辦于2016年,在芯片領域有著多年經驗的奈杰爾·圖恩(Nigel Toon)擔任聯合創始人和 CEO,曾創辦過兩家處理器公司的西蒙·諾爾斯(Simon Knowles)擔任聯合創始人和 CTO。
這家分公司遍布多個國家和地區的公司,于 2019 年進入中國。9 月 19 日,DeepTech 和 Graphcore 高級副總裁兼中國區總經理盧濤,就相關問題進行了交流。
他表示,Graphcore 的主要技術是以 IPU 處理器、為 IPU 打造的Poplar 軟件?;?IPU 處理器和 Poplar 軟件棧,Graphcore 的產品最后以用在IPU服務器中的PCIe 卡、IPU 系統產品 IPU-Machine和 IPU-POD 的形式呈現給用戶。 Graphcore 已經取得了一些階段性進展。截止目前,IPU 已達到一萬多片的發貨規模,并服務于全球超過 100 家的機構,其主要應用在互聯網大規模數據中心、高校和科研機構等。同時,IPU 也在支撐醫療、金融、生命科學、汽車、金融和計算領域方面的應用。 2019 年初,AI 教父杰夫·欣頓(Geoff Hinton)在接受記者采訪的時候,被問未來什么樣的計算系統會更像大腦?他的回答是:“我認為我們需要轉向不同類型的計算機。幸運的是,我這里有一個...” 欣頓伸手進入他的錢包,拿出一個又大又亮的硅片——一個 Graphcore IPU 芯片。IPU帶來可持續發展路徑
2016 年,全球 AI 產業進入高速發展階段。在過去,大概每隔三個月,模型參數規模就會提高一倍。2018 年 10 月,谷歌的 BERT 模型有 3.3 億個參數。2019 年3 月,OPEN AI 的大型語言模型 GPT-2 達到 15.5 億個參數。2020 年,GPT-3 達到 1750億個參數。GPT-3 模型完成一次完整訓練,要耗費千萬美金級別的花銷。這樣的密集計算,很難帶來持續發展。那么,是否有可持續發展的路徑? 在論文《EfficientNet:對卷積神經網絡的模型縮放的重新思考》(EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks)中,論文作者通過平衡神經網絡的深度、寬度、圖片分辨率,再通過找到平衡點、并把底層卷積改變之后,找到了大幅減小參數數量的方法,與此同時準確度也得到提升。盧濤認為,這是未來的代表方向之一。 2020 年上半年,微軟機器學習科學家 Sujeeth Bharadwaj 分享了 IPU訓練 CXR 模型的卓越性能,IPU 在運行微軟COVID-19 影像分析算法 EfficientNet 和SONIC時表現亮眼,在 30 分鐘內完成了英偉達傳統芯片需 5 個小時的訓練工作量。
圖 | 微軟用IPU和GPU訓練用于新冠算法模型的對比 從 Graphcore 的角度來看,不管是 CPU 還是 GPU,都不是針對 AI 應用而生。CPU 是標量處理器,它主要做模擬性判斷,用于幫助程序員針對固定模式進行編程。CPU 特別適合的架構是通過大量的模擬處理器開發手機 App 和外包服務器。GPU 是針對圖像處理而生,相比 CPU 來說 GPU 在并行度和向量機上都有很大提升。 概括來說,GPU 主要應用在主流 AI 平臺,它并不是為 AI 而生的處理器。Graphcore 進行大量分析后發現,AI 計算具有高度并行、低密度計算等特點,不管做圖像處理模型、還是語言處理模型,都會在底層表達成一個計算圖。盧濤認為,真正面向未來的 AI 處理器,必須是針對計算圖來進行處理,而 Graphcore 的IPU 正是以計算圖為核心的智能處理器。
三項變革性技術:計算、數據、通信
進入中國后,Graphcore 一直努力接近開發者,盧濤在 9 月 19 日中關村論壇的演講結尾,特意提到該公司在中文網站 graphcore.cn、微信和知乎的開發者創新社區,并鼓勵更多開發者來到上述平臺,獲取 Graphcore 的資源和支持來進行創新。 對此做法,他解釋稱,Graphcore 希望將權利移交給創新者。那么,首先要給創新者提供新的平臺,讓他有新的可能性。如果開發者的算法不適合 GPU,并不一定代表你的算法無效,而是你需要一個新平臺?;诖耍珿raphcore 提供了非常先進的AI 處理器、以及大規模 IPU 集群系統。 2020 年 7 月 15 日,Graphcore 發布基于 7nm 的第二代 IPU 處理器——GC200,以及用于 Mk2m IPU 和 IPU 系統產品的技術:計算、數據、通信。
GC200 基于臺積電 7nm 工藝,有 594 億個晶體管,是當前單一芯片最大規模的處理器。GC200 仍然延續了第一代的“同構眾核”架構,所不同的是,制造工藝從16nm,提升為最新的 7nm。 GC200 的處理器片上存儲也從 300MB 提升到 900MB,晶體管數量超出英偉達2020 年 5 月發布最新旗艦 A100。GC200 的處理器核心從上一代的 1217 提升到1472,能執行 8832 個單獨的并行線程,系統性能提升 8 倍以上。在數據處理方面,GC200 延續之前的高帶寬高容量表現,這對于應對一些復雜 AI 模型及算法很有幫助,官方表示它可支持具有數千億個參數的最大模型。 此外,Graphcore 還首次提出 IPU-EXCHANGE-MEMORY,這是一種交換式的儲存架構。Graphcore在M2000每個IPU-Machine里面通過IPU-Exchange-Memory技術,提供了將近超過100倍的帶寬以及大約10倍的容量,這對于很多復雜的AI模型算法是非常有幫助的。 針對 AI 計算集群,Graphcore 打造了 IPU-Fabric 技術,這是為 AI 橫向擴展而生的通信技術,它的優點是彈性大、低時延。有了 IPU-Fabric 之后,用戶可以輕松構建出高彈性低時延的計算平臺。M2000是 Graphcore 推出的基于 GC200 的刀片型服務器,每片能提供 1PetaFlop 的算力支持。M2000 可以被看作是 Graphcore IPU 系統產品部署的最小單元,基于它可以很方便地創建各種規模的集群。
圖| IPU-Fabric(來源:Graphcore)
Graphcore 協同 IPU 從零打造了一個以圖為抽象編程模型的軟件Poplar。通過這套軟件SDK,不管是使用浪潮還是戴爾的服務器,更或者是使用單個 M2000 以及大規模計算系統 IPU-POD,Graphcore 都能使用同一套軟件進行編程。 Graphcore 還在 Poplar 層面上,提供了很多軟件庫。以ML框架為例,其可以支持標準的 PyTorch、TensorFlow 與 ONNX 等。同時,Graphcore 認為,對一個系統而言,運維和管理也非常重要。為此,Graphcore 基于開源做了集群管理套件。 在整個處理器研發過程中,Graphcore 認為開放非常重要。盧濤表示,開源是因為創新需要對底層有很多可見度。Graphcore 認為要把權利移交給開發者,并于2020 年 7 月開源了所有的計算圖庫源代碼和機器學習算法模型。 在構建社區方面,Graphcore 在金山云上構建了一個開發者云,其主要面向商業用戶、高校、科研機構和個人研究者。盧濤表示,這一且都是為了幫助創新者,可以在在機器智能中實現下一波突破,以及幫助用戶實現在 CPU、GPU 上沒有辦法實現的創新。 Graphcore 至今成立了四年多的時間,期間已得到紅杉資本的支持,也獲得了寶馬、博世、微軟、三星、DELL 等企業的投資。經過幾年的發展,Graphcore 已經發展為遍布全球的機構。 對于加入中國,該公司創始人奈杰爾·圖恩(Nigel Toon)表示:“有遠見的中國公司已經開始著手布局自己在 AI 領域的藍圖。也許這就是為什么 Graphcore 在中國找到了熱情,并如此深度的參與。Graphcore 已經開始為一些頗有建樹的中國公司提供技術支持,并將助力推動中國那些發展最快、最具創新性的 AI 初創企業?!? 盧濤也對 DeepTech 表示,中國的企業非常擅長把創新進行大批量的快速落地部署,Graphcore 覺得中國是最大的市場之一。在快速落地部署中,Graphcore 也可以進一步打磨自己的產品。此外,IPU 也能幫助用戶釋放出更多潛能,今天在CPU 和 GPU 上做不好的事情,在 IPU 上可能會釋放極大潛力。
-End-
原文標題:一家英國明星芯片公司“悄然”入華!叫板英偉達A100,設定中國為其最大市場
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
芯片
+關注
關注
456文章
50890瀏覽量
424304 -
晶體管
+關注
關注
77文章
9701瀏覽量
138365
原文標題:一家英國明星芯片公司“悄然”入華!叫板英偉達A100,設定中國為其最大市場
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論