以下文章來源于騰訊云 ,作者YHQ
“我們的仿真工具呢?”
“沒有,還在談。”
“驗證環境怎么說?”
“還沒有。”
“那……驗證流程呢?”
“也沒有。“
那是2019年1月。加入騰訊,Lynda正準備擼起袖子,大干一場,卻劈面遭遇“一問三沒有”。
“我們是從零開始做芯片。”
面試時,主導芯片設計工作的Henry給她打過心理預防針。
Lynda正好想參與芯片研發的全過程,倒不怕從頭開始。但她實在沒料到,連仿真工具、驗證環境、驗證流程這些必備品都能 “三無”。
眾所周知,芯片研發高門檻、高投入、高風險,而驗證工程師就是守門員。軟件開發尚可后期不斷改bug,芯片如果設計問題沒被前期驗證發現,一旦流片,只能淪為一塊“磚頭”。
因此,很多芯片公司對設計工程師與驗證工程師的人員配比是1:3。而在蓬萊實驗室,Lynda只有一個并肩作戰的驗證同事,和一行代碼都沒有的驗證條件。
這時候,Lynda才開始明白Henry口中的“從零開始”意味著什么,以及她面臨著怎樣一場艱難的戰役。
1
一個差點解體的團隊
在騰訊云副總裁、云架構平臺部總經理謝明看來,芯片這場戰役,騰訊“蓄謀已久、勢在必行”。
這個團隊肩負著QQ等國民級應用的后臺架構,站在騰訊海量業務數據沖刷的前線,深刻地明白底層技術創新對上層應用的放大價值。
2013年,QQ相冊已經發展成騰訊最大的一個存儲類業務。
讓用戶訪問相冊的速度更快、體驗更順滑,成了一個很急迫的需求。轉化成相應的技術問題,就是圖片能否更快地轉碼?能否在不損畫質的情況下壓縮?能否以更低的成本存儲?
他們反復地追問。
伴隨著軟件架構上永無止盡的自我超越,團隊敏銳地察覺到,只有在硬件上也作出創新,才能實現更深層次的突破。
一個做軟件出身的團隊,怎么去做硬件?
一圈研究之后,他們決定先拿FPGA(可編程陣列邏輯)試水。FPGA相比起芯片容錯率高,但在吞吐率、延遲、功耗和靈活性等維度上都很平衡。尤其是在處理海量數據時,FPGA相比GPU具有超低延時的顯著優勢。
事實驗證了這種判斷。2015年,團隊集中力量研發的圖片編碼FPGA,取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時,也幫助QQ相冊很大程度上降低了存儲成本。他們看到了在FPGA方向探索和深入的可能性。
2016年前后,由AlphaGo引爆的AI熱潮更把FPGA拉入了主流視野。團隊通過FPGA對深度學習模型的CNN算法進行加速后,處理性能達到通用CPU的4倍,而單位成本僅為1/3。
FPGA效果雖好,但技術門檻比較高,“如果把FPGA云化,是不是一個能夠擴大應用的解決路徑?”
帶著這樣的期待,2017年1月20日,騰訊云推出了國內首款FPGA云服務器,希望以云計算的方式,將FPGA能力推廣到更多企業。
從效果上來說,在FPGA云服務器上進行FPGA硬件編程的企業,確實能將性能提升至通用CPU服務器的30倍以上,而只需支付相當于通用CPU約40%的費用。以一家著名的基因檢測公司為例,傳統用CPU需要檢測一周的基因序列,FPGA可以壓縮到數小時完成。
然而,殘酷的現實給團隊從頭到腳澆了盆冷水,云化后的FPGA,沒能如預期般迅速席卷整個行業。
一方面,許多企業還是無法獨立勝任FPGA開發,需要更加上層的服務;另一方面,GPU成本的迅速下降,也給FPGA造成了巨大的沖擊。
云端商業化的受挫,把團隊的熱情從巔峰一下子打到了谷底,同時也把一個問題赤裸裸地拋到整個團隊的眼前:FPGA對業務的價值究竟有多大?FPGA還能繼續做嗎?
受此打擊,團隊在2018年也近乎分崩離析,人員開始集中式地離開。
2
柳暗花明,“蓬萊”問世
時間進入2019年。那是人工智能規模化應用的元年,內外部業務都提出了對AI芯片的強烈訴求。
在FPGA云服務器受挫后,騰訊需要重新思考硬件之路要怎么走下去。
AI芯片,要不要做?
這個問題被提出來的時候,管理層有過反對的聲音,擔心技術人員只是頭腦發熱,只是為了追逐熱點,只是看似自信的盲目自負,但也沒有明令禁止小團隊的探索。
以小規模、低成本、特定應用場景的方式先行試水,成了大家的共識。
云架構平臺部將第一款芯片敲定AI推理方向,取名“蓬萊”,希望這款芯片能像中國古代神話里的海外仙山一樣,穩固地立于洶涌波濤之上。
這支硬件突圍小分隊,也被正式命名為“蓬萊實驗室”。
經歷過FPGA,蓬萊實驗室對硬件編程語言已經相當熟練,也在標準接口、總線等方面積累了一些平臺化的設計。然而,兩者的研發要求,不可同日而語。
如果說做FPGA是搭現成的積木,那么做芯片就是直接從原木著手來制造積木。FPGA出了問題可以重新編程,而芯片只有一次流片機會,一旦出錯,付諸東流。
此外, FPGA的資源是現成固定的,芯片的資源卻是由自己定義的。
一個字,就是要“摳”:用最小的資源做最大的事。
芯片架構工程師Rick用“裝修”改“重建”來形容整個蓬萊項目。
一開始,團隊以為能把之前FPGA的技術較為簡單地轉成芯片。做著做著發現,以為終歸只是以為——FPGA架構在芯片中能直接復用的并不多,團隊只能把原來的架構整個拆掉,重寫的代碼量高達85%。
像DDR存儲器這樣的重中之重,芯片廠商通常會有專門的驗證人員負責,而剛起步的蓬萊實驗室沒這個條件,只能靠搶時間把功課補回來。
2020年1月,蓬萊芯片流片完成,被合作方快遞到深圳。新冠疫情剛剛在全國范圍內暴發,公司已經開啟集體遠程辦公。
● 流片完成的蓬萊芯片被快遞回深圳
Henry戴著手套取到快遞,用酒精仔細消毒后,帶到空空蕩蕩的辦公樓,大開著窗戶和風扇,和幾個同事一起開始點亮操作。
所謂點亮,就是給芯片上電,首先看有沒有短路冒煙,接著就是測試一些基本功能。
是芯片還是“磚頭”,成敗在此一舉。
● 調試蓬萊芯片的時鐘
結果,芯片的時鐘頻率一直沒出來。要知道,時鐘頻率是芯片的“節拍器”,沒有時鐘頻率,芯片的不同模塊等于沒對好表,就無法協同工作。
是不是這塊芯片的問題?實驗人員換了一塊芯片,依然沒有信號輸出。
再換一塊,還是沒有。
現場鴉雀無聲。實驗人員已經不敢動手了。
有人忍不住開玩笑,是不是該回家改簡歷了?但大家心里更多的是疑惑:
雖然人少、資源少、白手起家,但蓬萊實驗室從設計人員到驗證人員,都有信心說,每一步都做好了。到底是哪里不對呢?
在無比凝重的氣氛中,放板、上電、讀取信號……
第四塊芯片,亮了。剩下的所有芯片,也都沒問題。
真相就是這么簡單。28納米工藝的芯片,不良率只有3%,偏偏隨機測試的前三片就全趕上了,讓他們把“生一胎”的緊張情緒體驗到十足。
經歷這名副其實的一波三折,騰訊第一款芯片,宣告問世。
3
更上一層,“紫霄”凌云
蓬萊芯片的實戰表現也不負眾望,助力騰訊推出中國第一臺獲準進入醫院臨床應用的智能顯微鏡,實現自動識別醫學圖像、統計細胞數目并直接顯示在視野上,性能表現完全符合設計要求。
● 蓬萊芯片在智能顯微鏡上調試
高效地造出直面應用、性能卓越的芯片,這條路,騰訊走得通。
終端芯片蓬萊的問世,只是完成了從0到1的任務。團隊已經迫不及待的要從1到N,向著大規模云端芯片進軍。
蓬萊實驗室負責人Alex將大芯片申請立項戲稱為“A輪融資”。
初試鋒芒之后,團隊需要向公司說明,為什么需要用更大的投入去做大規模芯片?在短期和長期能否保持領先性?如何與內外部業務結合創造價值?
騰訊這次面臨的決策,要容易做得多。
蓬萊的成功給了足夠的信心和底氣。蓬萊實驗室邊走路邊成長,完成了一次次蛻變,建立起完整、嚴謹、規范的芯片研發體系和流程。
這已經是一支“正規軍”。
更重要的是,團隊證明了騰訊做芯片的優勢和站位。
謝明解釋說,從行業來看,做芯片除了要考慮技術和工藝,最大的難點在于對芯片的“定義”。傳統芯片廠商的優勢在于前者,但芯片做出來之后再去匹配需求,在很多場景下真實性能是損失的。Google、騰訊這類科技企業的優勢在于自身就是需求方,對需求的理解和洞察最深刻、最透徹。
方向沒有問題,技術和工藝也沒問題,騰訊高級執行副總裁、TEG(技術工程事業部)總裁盧山給予了全面支持,并通過總辦爭取到了更多的headcount和資金。
有了公司戰略的支持,團隊志氣昂揚奔赴更大的戰場。蓬萊實驗室副總監Austin決定兵分兩路,在AI推理和視頻編解碼上并行推進。
AI小分隊繼續做蓬萊的2.0版“紫霄”。這是《封神演義》里鴻鈞老祖所居宮殿的名字。在穩固的仙山上牢筑“紫霄”,代表了新的野心:
這次,他們將目標直接定為業界第一。
紫霄所有的架構都圍繞著有效算力去做。團隊優化片上緩存設計,并摒棄競品常用的GDDR6內存,采用先進的2.5D封裝技術,把HBM2e內存與AI芯片合封在一起,從而把內存帶寬提升了近40%。
技術迭代一日千里。紫霄立項后,業內最高性能表現又被競品刷新。雖然紫霄的設計性能相比這個最高表現還足夠“安全”,但團隊還打算繼續加碼。
經過研究,他們在芯片內部增加了計算機視覺CV加速器以及視頻編解碼加速器,可創新性地大幅減小AI芯片和x86 CPU之間的交互和等待。
即便因此而增加了兩個復雜的自研模塊,團隊仍然在計劃的6個月時間里完成了從架構確定到驗證以及流片的全部流程。
2021年9月10日,紫霄順利點亮。
在圖片和視頻處理、自然語言處理、搜索推薦等應用場景下,這款芯片打破了制約算力發揮的瓶頸點,最終在實際業務場景性能表現達到了業界標品的2倍。
4
獨立自研,“滄海”一笑
2022年3月5日,Derick和他帶領的視頻編解碼小分隊收到流片回來的芯片“滄海”,又正逢深圳因疫情而全面遠程辦公。
他們申請特批進入空空蕩蕩的辦公樓。這情景,和兩年前點亮蓬萊時何其相似。
不曾想到,點亮蓬萊時的一波三折,同樣重現。克服了一些調試中的意外,在一片歡呼中,騰訊的第三款芯片、同時也是完全自主研發的第一款芯片滄海成功點亮。
從蓬萊到紫霄再到滄海,從28納米工藝到12納米工藝,從8個人發展到100多人,從仿真工具一無所有到“天箭驗證平臺”正式落成,從努力跟上合作伙伴的節奏到獨立做完全SOC。
蓬萊實驗室,完成了一場“芯”路進化。
此外,在應用方向上不同于蓬萊和紫霄主打AI,滄海是一款視頻轉碼芯片。
如果說QQ相冊圖片的轉碼問題是蓬萊實驗室做硬件的最早契機,那滄海問世,正是完成了一次對初心的呼應。
多媒體業務從圖片時代進化到音視頻直播時代,4K/8K超高清的數字內容如潮水一般持續沖擊著云計算基礎設施。每增加一個比特的數據,都會帶來相應的轉碼算力和CDN帶寬成本。這是一道直觀而嚴峻的數學題。
滄海小分隊的目標非常清晰,那就是要做一款業界最強的視頻轉碼芯片,把壓縮率發揮到極致。
好在,騰訊豐富的多媒體應用場景,以及騰訊云覆蓋的眾多直播互動頭部客戶,為滄海的研發提供了得天獨厚的分析和驗證條件。
團隊先是推出了滄海的核心自研模塊——硬件視頻編碼器“瑤池”,并決定在滄海完成研發之前給瑤池一次大考。
這個大考就是2020年的MSU世界編解碼大賽,由莫斯科國立大學(MSU)主辦,十多年來一直是全球視頻壓縮領域最具影響力的頂級賽事之一,吸引了包括英特爾、英偉達、谷歌、華為、阿里和騰訊在內的國內外知名科技企業參與。
結果是,瑤池實現1080P@60Hz的視頻實時編碼,力壓群雄獲得了SSIM (結構相似性)、PSNR(峰值信噪比)和VMAF(視頻多方法評估融合)等各項客觀指標評測第一名,以及人眼主觀評價第一的好成績,相比起第二名領先了一個身位。
經此硬仗,滄海在技術上得到了充分檢閱。
化滄海為一粟。滄海最終實現以更小的數據量、更小的帶寬提供相同質量的視頻,壓縮率相比行業最佳表現還提高了30%以上。
5
“100G”時代,雙木參天
在多媒體、AI處理積極求變的同時,底層的云服務器也面臨著相似的問題:
當軟件優化帶來的性能提升無法讓產品擁有區別于競品的明顯競爭力時,如何讓性能突破現有天花板?
騰訊的另一個部門,將目光投向了軟硬協同與硬件加速。
2019年,騰訊迎來云計算業務上的里程碑——云服務器規模突破了100萬。
騰訊云副總裁、騰訊網絡平臺部總經理鄒賢能敏銳地觀察到,隨著服務器接入帶寬不斷提升,服務器用于網絡處理的CPU資源也越來越多。
能否以更低成本的方式來實現服務器網絡處理,同時還提供更高的網絡性能?
面對這樣“既要、又要”的挑戰,鄒賢能決定給服務器做個減法:“把網絡數據處理的負擔從CPU卸載出來。”
“智能網卡”的想法就這樣誕生了。
● 騰訊智能網卡“銀杉”
所謂智能網卡,一方面像普通網卡一樣肩負起服務器的對外網絡訪問,實現不同服務器和數據中心之間的網絡互聯。另一方面,它額外帶有CPU/FPGA/內存等智能單元,能分擔一部分服務器的虛擬化計算任務,實現服務器整體網絡和存儲性能的加速。
換句話說,網絡平臺部要做的事,是要在網卡里新裝一個服務器。
一開始,團隊希望找到一款現成的商用板卡來減少工作量。
網卡硬件負責人Hayden牽頭開展方案論證和調研,但商用芯片的加速引擎不支持私有協議成為當時直面的第一大挑戰,也是最大的障礙。一些著名的網卡設備商聽了騰訊的要求就搖頭:
“現在網卡的功能很簡單,你們這個要求太復雜了,很難實現的。”
還有些直白地質疑:“網卡數量這么多,可靠性要求高,你們自己搞得定嗎?”
難道智能網卡項目剛起步就要流產?
鄒賢能給團隊指明了方向:“既然智能網卡是云數據中心追求極致性能與成本的關鍵部件,如果市面上沒有滿足騰訊需求的產品,那我們就自己造一個。”
方向明確之后,路線也很快清晰起來:先從基于FPGA自研智能網卡起步,再開展智能網卡芯片研發。
2020年9月,騰訊第一代基于FPGA的自研智能網卡正式上線,命名為“水杉”,寄寓著團隊希望產品可以像這種珍稀喬木一樣適應性強、快速生長。
疫情期間各種突發需求砸來,初生的水杉沒有被挑戰壓彎。
Hayden回憶道,一個大客戶本身采用了UDP音視頻協議,在屬性上是“不可靠”、允許丟包的,極大地依賴網絡吞吐和穩定性,卻要求高并發、高質量的音視頻傳輸效果。
水杉智能網卡迎難而上,通過大幅提升服務器的網絡性能,幫助該客戶完成了24小時零丟包的極限壓力測試,穩定上線運行,交出了一份漂亮的答卷。
水杉投入應用后,第二代智能網卡“銀杉”的研發工作也緊鑼密鼓地啟動,并于2021年10月正式上線。這一代智能網卡的網絡端口翻了一番,達到了2*100G。
在又一棵參天大樹的支撐下,騰訊云對外推出了業界首款自研第六代100G云服務器。
它的計算性能提升最大220%、存儲性能最大提升100%。單節點接入網絡帶寬相比上一代最大提升4倍,延時下降50%。
● “銀杉”搭載在自研100G云服務器上
“兩棵樹”在網絡硬件卸載上取得的巨大收益,令團隊興奮不已。
當FPGA路線逐漸逼近性能和功耗的瓶頸,網絡平臺部決定再一次把主動權掌握在自己手里。
6
“玄靈”乍現,芯事未完
騰訊的第四款芯片,也是首款智能網卡芯片應運而生。
它也有一個 “仙氣十足”的名字——“玄靈”, 按照計劃,這款7納米工藝的芯片將在2022年底流片。
Hayden受命快速組建起了玄靈芯片研發團隊,不斷挑戰多個“mission impossible”。
從性能指標來看,玄靈支持設備數量將提升到10K以上,相對商業芯片提升6倍。同時,它的性能相對商業芯片也可提升4倍,通過將原來運行在主機CPU上的虛擬化、網絡/存儲IO等功能卸載到芯片,可實現主機CPU的0占用。
這顆短小精悍的芯片,充分詮釋了面向未來極致性能的“玄”,與面向各類業務需求靈活加速的“靈”。
目前,玄靈項目正在緊鑼密鼓地進行智能網卡流片前的驗證和測試,打造騰訊云下一代高性能網絡基礎設施;
蓬萊實驗室的AI推理芯片紫霄和視頻轉碼芯片滄海則將量產,與騰訊業務深度融合應用;
還有一些新的芯片項目也在醞釀成長,繼續探索有需要的技術方向,豐富這一本“山海經”。
騰訊海量業務面臨的全新挑戰,以及云計算高速發展的必然要求,“倒逼”騰訊走上了這條造芯之路。這些從業務需求出發的芯片,必定會深入現實應用來證明自身的價值。
“我們不是無中生有、拍腦袋要去做芯片。我們一開始就知道,騰訊的需求足夠大,足夠我們去做這件事。”盧山說道。
從2010年起,騰訊就開始以云服務的方式對外開放自身的數字技術與連接能力,奔赴這場產業數字化轉型升級的時代大潮。躬身入局,騰訊看到深度的數實融合正在引領全真互聯的技術趨勢。
騰訊的芯事,最終將在數實融合的星辰大海中得到回響。
審核編輯:符乾江
-
芯片
+關注
關注
456文章
50873瀏覽量
424080 -
騰訊
+關注
關注
7文章
1656瀏覽量
49463
發布評論請先 登錄
相關推薦
評論