嵌入式 AI
AI 簡報 20221125 期
1. 能逆襲蘋果A16芯片嗎?高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200,誰能成為2023年智能手機高端芯片霸主?
原文:
https://mp.weixin.qq.com/s/IWSolPkauAJEGYARg9Iheg
11月22日晚上7點,vivo召開vivo X90系列新品發(fā)布會,推出全新旗艦X90系列。其中,vivo X90 和vivo X90 Pro搭載聯(lián)發(fā)科天璣9200系列,X90首發(fā)天璣9200處理器,搭載自研芯片V2,內置4810mAh大電池,支持120W雙芯閃充,起始定價3699元,X90 Pro起始定價4999元。在3000元到5000元價位段智能手機領域,vivo選擇了聯(lián)發(fā)科的新品。
在高于800美元的高端旗艦手機當中,vivo選擇了高通產品。vivo X90 Pro+搭載高通驍龍8 Gen2,首發(fā)LPDDR5x + UFS 4.0,4700mAh電池,80W有線快充,50W無線快充。12GB+256GB版本售價6499元。
11月16日,高通驍龍8Gen2正式官宣后,海外媒體報道,三星下一代旗艦Galaxy S23,S23 +和S23 Ultra將采用驍龍8Gen2,這個系列預計會在2023年1月份發(fā)布。在微博上,數(shù)碼博主爆料,小米13系列將搭載滿血版驍龍8 Gen2,其最高頻率達到3.2GHz,同時在調校中會釋放滿血性能,在游戲表現(xiàn)上可能會更上一層。
高通、聯(lián)發(fā)科是安卓手機芯片的主要供應商,他們如何看待2023年智能手機市場?作為高端旗艦芯片,兩款芯片的極致性能對比,哪些優(yōu)勢顯現(xiàn)?在智能手機和元宇宙生態(tài)圈的融合當中,誰又是最有潛力的選手?
2. IBM全新AIU芯片:5nm工藝,230億晶體管!深度學習處理性能強勁!
原文:https://mp.weixin.qq.com/s/RR0ACES8j8bZvULjyy5MfA
IBM 研究院推出了一款AI處理器,名為人工智能單元(Artificial Intelligent Unit,AIU),這是IBM首個用于運行和訓練深度學習模型的完整 SoC。IBM聲稱,其比通用CPU工作更快、更高效。
AIU:32個處理器核心、230億個晶體管
這款AIU芯片是IBM研究院AI硬件中心投入五年開發(fā)出的結果,AI硬件中心于2019年啟動,專注于開發(fā)下一代芯片與AI系統(tǒng)。該中心的目標是,計劃未來每年將AI硬件效率提升2.5倍。到2029年,將AI模型的訓練和運行速度拉高1000倍。
據(jù)IBM介紹,該芯片采用5nm制程工藝,共有32個處理器核心和230億個晶體管,在設計易用性方面,與普通顯卡相當,能夠介入任何帶有PCI插槽的計算機或服務器。AIU芯片,旨在支持多種格式并簡化從圖像識別到自然語言處理的人工智能工作流程。
AIU芯片與傳統(tǒng)用于訓練的GPU芯片有何不同?一直以來,深度學習模型依賴于CPU加GPU協(xié)處理器的組合進行訓練與運行。GPU最初是為沉浸圖形圖像而開發(fā),后來人們發(fā)現(xiàn)其在AI領域有著顯著優(yōu)勢,因此GPU在AI訓練領域占據(jù)了非常重要的位置。
IBM開發(fā)的AIU并非圖形處理器,它是專為深度學習模型加速設計的,針對矩陣和矢量計算進行了優(yōu)化。AIU能夠解決高復雜計算問題,并以遠超CPU的速度執(zhí)行數(shù)據(jù)分析。
AIU芯片有何特點呢?過去這些年,AI與深度學習模型在各行各業(yè)中快速普及,同時深度學習的發(fā)展也給算力資源帶來了巨大的壓力。深度學習模型的體量越來越大,包含數(shù)十億甚至數(shù)萬億個參數(shù)。而硬件效率的發(fā)展卻似乎跟不上深度學習模型的增長速度。
過去,計算一般集中在高精度64位與32位浮點運算層面。IBM認為,有些計算任務并不需要這樣的精度,于是提出了降低傳統(tǒng)計算精度的新術語——近似計算。
如何理解呢?IBM認為對于常見的深度學習任務,其實并不需要那么高的計算精度,就比如說人類大腦,即使沒有高分辨率,也能夠分辨出家人或者小貓。也就是說各種任務,其實都可以通過近似計算來處理。
在AIU芯片的設計中,近似計算發(fā)揮著重要作用。IBM研究人員設計的AIU芯片精度低于CPU,而這種較低精度也讓新型AIU硬件加速器獲得了更高的計算密度。IBM使用混合8位浮點(HFP)計算,而非AI訓練中常見的32位或16點浮點計算。由于精度較低,因此該芯片的運算執(zhí)行速度可達到FP16的2倍,同時繼續(xù)保持類似的訓練效能。
IBM在AI芯片技術上的不斷升級
在去2月的國際固態(tài)電路會議(ISSCC 2021)上,IBM也曾發(fā)布過一款性能優(yōu)異的AI芯片,據(jù)IBM稱它是當時全球首款高能效AI芯片,采用7nm制程工藝,可達到80%以上的訓練利用率和60%以上的推理利用率,而通常情況下,GPU的利用率在30%以下。
有對比數(shù)據(jù)顯示,IBM 7nm高能效AI芯片的性能和能效,不同程度地超過了IBM此前推出的14nm芯片、韓國科學院(KAIST)推出的65nm芯片、平頭哥推出的12nm芯片含光800、NVIDIA推出的7nm芯片A100、聯(lián)發(fā)科推出的7nm芯片。
IBM去年推出的這款7nm AI芯片支持fp8、fp16、fp32、int4、int2混合精度。在fp32和fp8精度下,這款芯片每秒浮點運算次數(shù)分別達到16TFLOPS和25.6TFLOPS,能效比為3.5TFLOPS/W和1.9TFLOPS。而被業(yè)界高度認可的NVIDIA A100 GPU在fp16精度下的能效比為0.78TFLOPS/W,低于IBM這款高能效AI芯片。
IBM在官網(wǎng)中稱,這款AI芯片之所以能夠兼顧能效和性能,是因為該芯片支持超低精度混合8位浮點格式((HFP8,hybrid FP8)。這是IBM于2019年發(fā)布的一種高度優(yōu)化設計,允許AI芯片在低精度下完成訓練任務和不同AI模型的推理任務,同時避免任何質量損失。
可以看到IBM此次發(fā)布的新款AIU與去年2月發(fā)布的7nm AI芯片,都采用了IBM此前提出的近似計算。從性能來看,去年推出的那款AI芯片一定程度上甚至超過了目前業(yè)界訓練場景普遍使用的NVIDIA A100 GPU,而今年新推出的AIU無論是在制程工藝、晶體管數(shù)量上都有升級,可想而知性能水平將會更高。
3. 索尼、瑞薩入局,談談日本的RISC-V生態(tài)
原文:https://mp.weixin.qq.com/s/QX5ugMprlzoNQXQKeDsIvg
RISC-V作為一個尚在飛速成長中的ISA,如何輻射到更多的應用領域和地域是最為重要的,從我們過去的報道中可以看出,歐美、中國、印度乃至越南都已經(jīng)開始了自己的RISC-V生態(tài)構建之路。除了這些地區(qū)之外,日本作為半導體大國之一,也是RISC-V開疆擴土的對象之一。那么RISC-V在如今半導體產業(yè)處于重振期的日本,究竟已經(jīng)發(fā)展到何種程度了呢?
日本的RISC-V IP生態(tài)
對于打造一個基于RISC-V的芯片來說,第一步就是選擇可用的RISC-V CPU核心IP。在RISC-V生態(tài)中,CPU IP的選擇有很多種,你可以選擇香山這樣的開源IP,可以選擇SiFive、晶心科技、平頭哥、芯來科技等提供的商用IP,也可以基于RISC-V這一開源ISA內部自研IP,或是通過OpenHW這樣的協(xié)作平臺來選擇驗證過的IP。
日本本土的RISC-V IP供應商并不多,除了電裝旗下的NSITEXE外,日本廠商用到的主要RISC-V IP多來自SiFive和晶心科技兩家海外廠商,主要客戶有瑞薩、ArchiTek等。縱觀各大芯片原廠,瑞薩大概是與RISC-V廠商合作最多的公司之一了。
早在2020年,瑞薩就宣布與晶心科技合作,將其32為RISC-V CPU內核用于其專用標準產品中,也就是今年發(fā)布的R9A02G020電機控制MCU,2022年瑞薩又基于晶心科技的64位RISC-V CPU內核打造了全新的RZ/Five通用MPU。去年,瑞薩還宣布了與SiFive合作,利用其Intelligence系列處理器來打造下一代車用高端SoC和MCU。而瑞薩已經(jīng)發(fā)布的汽車MCU RH850/U2B中,也用到了NSITEXE的DR1000C,一個RISC-V并行處理器IP。
另一家AI公司ArchiTek,也選擇了SiFive的E3系列內核和自研的ArchiTek智能像素引擎(aIPE)來打造首個AI處理器AiOnlc。AiOnlc將作為一個邊緣AI處理器,實時處理傳感器數(shù)據(jù)的同時,減少AI推理的時延并提高安全性。從其融資公告來看,ArchiTek計劃在明年開始出貨AiOnlc芯片,并推出基于AiOnlc芯片的攝像頭模組、SBC和配套軟件。
索尼的入局
我們從RISC-V國際基金會的成員列表中可以看出,RISC-V已經(jīng)在全球范圍內開始普及,無論是IP廠商、芯片廠商、工具廠商還是終端廠商,都紛紛參與其中。不少知名廠商雖然動作不大,但均已經(jīng)開始了布局,比如高通、谷歌和英特爾等等。其中日本廠商也不少,比如日立、自動駕駛廠商OTSL、超算廠商PEZY Computing等。
而在這些大廠中,還有一家日本廠商名列其中,也就是索尼半導體。索尼半導體的圖像傳感器業(yè)務自然無需多言,其市場地位幾乎無人可以撼動。然而,索尼也是最先加入RISC-V國際基金會的廠商之一,早在2019年的RISC-V日本大會上,索尼半導體就曾分享過一篇《與RISC-V攜手的未來圖像傳感》主題演講。
其中提到,盡管索尼在設計制造傳感器的過程中不需要用到RISC-V,但單靠圖像傳感器,還是很難解決一些遺留問題,比如色彩還原、摩爾紋消除等。然而在進入AI時代后,機器視覺開始發(fā)揮巨大的功效,尤其是在自動駕駛領域,決心進軍汽車市場又想在圖像市場更進一步的索尼,就打算將邊緣AI與圖像傳感器結合起來。
以索尼最新發(fā)布的A7R5旗艦微單相機為例,微單相機最為關鍵的兩大元件莫過于傳感器和處理器,然而A7R5加入的AI識別功能是靠一塊獨立的AI處理器來實現(xiàn)的,從而完成自動對象識別、人體姿態(tài)識別等一系列復雜的智能對焦操作,未來也有機會繼續(xù)注入新的識別模型來提升對焦體驗。
雖然這一AI處理器是否基于RISC-V設計無從得知,但從上文舉的幾個例子就能看出,RISC-V在邊緣AI市場存在著不小的優(yōu)勢,低功耗高算力的RISC-V AI芯片可以廣泛用于汽車、攝像頭中,哪怕只是作為一個協(xié)處理器來使用。除此之外,索尼還參與了印度的DIR-V計劃,索尼印度會利用印度自研的SHAKTI RISC-V處理器來設計索尼的系統(tǒng)或產品,足見索尼已經(jīng)開始在RISC-V上加大投入。
小結
除了以上這些商業(yè)公司外,日本的學研界也已經(jīng)參與的RISC-V生態(tài)的構建中來,比如東京大學、立命館大學和日本產業(yè)技術綜合研究所等,相繼發(fā)表了基于RISC-V芯片設計和軟件開發(fā)移植的成果。日本作為一大半導體產業(yè)人才寶地,無疑能為RISC-V的發(fā)展提供更多的助力,而日本RISC-V生態(tài)的建立,或許也能為國內的一眾RISC-V IP公司帶來新的機遇。
4. 一句話生成3D模型:AI擴散模型的突破,讓建模師慌了
原文:https://mp.weixin.qq.com/s/MhS6vjbc9iKjZiGDkFKjXQ
我們生活在三維的世界里,盡管目前大多數(shù)應用程序是 2D 的,但人們一直對 3D 數(shù)字內容有很高的需求,包括游戲、娛樂、建筑和機器人模擬等應用。
然而,創(chuàng)建專業(yè)的 3D 內容需要很高的藝術與審美素養(yǎng)和大量 3D 建模專業(yè)知識。人工完成這項工作需要花費大量時間和精力來培養(yǎng)這些技能。
需求大又是「勞動密集型行業(yè)」,那么有沒有可能交給 AI 來做?上周五,英偉達提交到預印版論文平臺 arXiv 的論文引起了人們的關注。
和現(xiàn)在流行的 NovelAI 差不多,人們只需要輸入一段文字比如「一只坐在睡蓮上的藍色箭毒蛙」,AI 就能給你生成個紋理造型俱全的 3D 模型出來。
Magic3D 還可以執(zhí)行基于提示的 3D 網(wǎng)格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型內容。此外,作者還展示了保持畫風,以及將 2D 圖像樣式應用于 3D 模型的能力。
Stable Diffusion 的論文在 2022 年 8 月才首次提交,幾個月就已經(jīng)進化到這樣的程度,不禁讓人感嘆科技發(fā)展的速度。
英偉達表示,你只需要在這個基礎上稍作修改,生成的模型就可以當做游戲或 CGI 藝術場景的素材了。
3D 生成模型的方向并不神秘,其實在 9 月 29 日,谷歌曾經(jīng)發(fā)布過一款文本到 3D 的生成模型 DreamFusion,英偉達在 Magic3D 的研究中直接對標該方法。
英偉達的方法首先使用低分辨率擴散先驗獲得粗糙模型,并使用稀疏 3D 哈希網(wǎng)格結構進行加速。用粗略表示作為初始,再進一步優(yōu)化了帶紋理的 3D 網(wǎng)格模型,該模型具有與高分辨率潛在擴散模型交互的高效可微分渲染器。
Magic3D 可以在 40 分鐘內創(chuàng)建高質量的 3D 網(wǎng)格模型,比 DreamFusion 快 2 倍(后者平均需要 1.5 小時),同時還實現(xiàn)了更高的分辨率。統(tǒng)計表明相比 DreamFusion,61.7% 的人更喜歡英偉達的新方法。
連同圖像調節(jié)生成功能,新技術為各種創(chuàng)意應用開辟了新途徑。
論文鏈接:https://arxiv.org/abs/2211.10440
如果感興趣,可以進一步的去看看相關論文。
5. 如何讓AI具有通用能力?新研究:讓它睡覺
原文:https://mp.weixin.qq.com/s/ZqiZHVSeqX2oiJITTELZfA
神經(jīng)網(wǎng)絡可以在很多任務上有超越人類的表現(xiàn),但如果你要求一個 AI 系統(tǒng)吸收新的記憶,它們可能會瞬間忘記之前所學的內容。現(xiàn)在,一項新的研究揭示了神經(jīng)網(wǎng)絡經(jīng)歷睡眠階段并幫助預防這種健忘癥的新方法。
人工神經(jīng)網(wǎng)絡面臨的一個主要挑戰(zhàn)是「災難性遺忘」(catastrophic forgetting)。當它們去學習一項新任務時,就有一種不幸的傾向,即突然完全忘記他們以前學到的東西。
本質上,神經(jīng)網(wǎng)絡對數(shù)據(jù)的表示是對原始數(shù)據(jù)的一種面向任務的數(shù)據(jù)「壓縮」,新學到的知識會覆蓋過去的數(shù)據(jù)。
這是當前技術相比人類神經(jīng)網(wǎng)絡的最大缺陷之一:相比之下,人腦能夠終身學習新任務,而不會影響其執(zhí)行先前記憶的任務的能力。我們并不完全知曉其中原因,但早有研究表明,當學習輪次穿插在睡眠期間時,人腦的學習效果最好。睡眠顯然有助于將最近的經(jīng)歷納入長期記憶庫。
「重組記憶實際上可能是生物體需要經(jīng)歷睡眠階段的主要原因之一,」加州大學圣地亞哥分校計算神經(jīng)科學家 Erik Delanois 說道。
AI 能不能也學會去睡覺?此前的一些研究試圖通過讓 AI 模擬睡眠來解決災難性遺忘。例如,當神經(jīng)網(wǎng)絡學習一項新任務時,一種稱為交錯訓練(interleaved training)的策略會同時向機器提供它們之前學習過的舊數(shù)據(jù),以幫助它們保留過去的知識。這種方法以前被認為是模仿大腦在睡眠期間的工作方式——不斷重播舊的記憶。
然而,科學家們曾假設交錯訓練需要在神經(jīng)網(wǎng)絡每次想要學習新事物時,為其提供最初用于學習舊技能的所有數(shù)據(jù)。這不僅需要大量的時間和數(shù)據(jù),而且看起來也不是生物大腦在真正的睡眠中所做的事情——生物既沒有能力保留學習舊任務所需的所有數(shù)據(jù),睡覺時也沒有時間重播所有這些內容。
在一項新研究中,研究人員分析了災難性遺忘背后的機制以及睡眠對于預防問題的效果。研究人員沒有使用傳統(tǒng)的神經(jīng)網(wǎng)絡,而是使用了一種更接近人類大腦的「脈沖神經(jīng)網(wǎng)絡」。
在人工神經(jīng)網(wǎng)絡中,被稱為神經(jīng)元的組件被填喂數(shù)據(jù)并共同解決一個問題,例如識別人臉。神經(jīng)網(wǎng)絡反復調整突觸——它的神經(jīng)元之間的聯(lián)系——并查看由此產生的行為模式是否能更好地找到解決方案。隨著時間的推移(不斷訓練),網(wǎng)絡會發(fā)現(xiàn)哪些模式最適合計算正確結果。最后它采用這些模式作為默認模式,這被認為是部分模仿了人腦的學習過程。
在人工神經(jīng)網(wǎng)絡中,神經(jīng)元的輸出隨著輸入的變化而不斷變化。相比之下,在脈沖神經(jīng)網(wǎng)絡(SNN)中,一個神經(jīng)元只有在給定數(shù)量的輸入信號后,才會產生輸出信號,這一過程是對真正生物神經(jīng)元行為的真實再現(xiàn)。由于脈沖神經(jīng)網(wǎng)絡很少發(fā)射脈沖,因此它們比典型的人工神經(jīng)網(wǎng)絡傳輸?shù)臄?shù)據(jù)更少,原則上也需要更少的電力和通信帶寬。
正如預期的那樣,脈沖神經(jīng)網(wǎng)絡具有這樣一個特點:在初始學習過程中會出現(xiàn)災難性遺忘,然而,在之后的幾輪學習后,經(jīng)過一段時間間隔,參與學習第一個任務的神經(jīng)元集合被重新激活。這更接近神經(jīng)科學家目前認為的睡眠過程。
簡單來說就是:SNN 使得之前學習過的記憶痕跡能夠在離線處理睡眠期間自動重新激活,并在不受干擾的情況下修改突觸權重。
該研究使用帶有強化學習的多層 SNN 來探索將新任務訓練周期與類睡眠自主活動周期交錯,是否可以避免災難性遺忘。值得注意的是,該研究表明,可以通過周期性地中斷新任務中的強化學習(類似睡眠階段的新任務)來預防災難性遺忘。
圖 1A 顯示了一個前饋脈沖神經(jīng)網(wǎng)絡,用于模擬信號從輸入到輸出。位于輸入層 (I) 和隱藏層 (H) 之間的神經(jīng)元接受無監(jiān)督學習 (使用非獎勵 STDP),H 層和輸出(O) 層之間的神經(jīng)元則接受強化學習(使用獎勵 STDP 實現(xiàn))。
無監(jiān)督學習允許隱藏層神經(jīng)元學習來自輸入層不同空間位置的不同粒子(particle)模式,而獎勵 STDP 使輸出層神經(jīng)元學習基于輸入層檢測到的粒子模式類型的運動決策。
研究人員對網(wǎng)絡進行了兩項互補的訓練。在任一任務中,網(wǎng)絡都學會了區(qū)分獎勵和懲罰的粒子模式,目標是獲得盡可能多的獎勵。任務將模式可辨性(消耗的獎勵與懲罰粒子的比率)視為性能的衡量標準,機會為 0.5。所有報告的結果都基于至少 10 次具有不同隨機網(wǎng)絡初始化的試驗。
為了揭示訓練和睡眠期間的突觸權重動態(tài),研究人員接下來追蹤「任務相關」的突觸,即在特定任務訓練后在分布的前 10% 中識別的突觸。首先訓練任務 1,然后訓練任務 2,在每次任務訓練后識別任務相關突觸。接下來再次繼續(xù)訓練任務 1,但將其與睡眠時間交織在一起(交錯訓練):T1→T2→InterleavedS,T1。任務 1 - 任務 2 的順序訓練導致忘記了任務 1,但是在 InterleavedS 之后,任務 1 被重新學習,而任務 2 也被保留(圖 4A 和 4B)。
重要的是,該策略允許我們比較 InterleavedS,T1 訓練后的突觸權重與單獨任務 1 和任務 2 訓練后被識別為任務相關的突觸權重(圖 4C)。任務 1 訓練后形成的任務 1 相關突觸的分布結構(圖 4C;左上)在任務 2 訓練(中上)后被破壞,但在 InterleavedS、T1 訓練(右上)后部分恢復。任務 2 訓練(中下)后任務 2 相關突觸的分布結構在任務 1 訓練(左下)后不存在,并且在 InterleavedS、T1 訓練(右下)后部分保留。
應該注意的是,這種定性模式可以在單個試驗中清楚地觀察到(圖 4C;藍色條),也可以在試驗中推廣(圖 4C;橙線)。因此,睡眠可以在合并新突觸的同時保留重要的突觸。
研究人員指出,他們的發(fā)現(xiàn)不僅限于脈沖神經(jīng)網(wǎng)絡。Sanda 表示,即將開展的工作表明,類似睡眠的階段可以幫助「克服標準人工神經(jīng)網(wǎng)絡中的災難性遺忘」。
該研究于 11 月 18 日發(fā)表在《PLOS Computational Biology》雜志上。
論文地址:
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010628
6. 如何用單個GPU在不到24小時的時間內從零開始訓練ViT模型?
原文:https://mp.weixin.qq.com/s/woAWs9l_7Opt63-vJfmhzQ
Transformers已成為計算機視覺最新進展的核心。然而,從頭開始訓練ViT模型可能會耗費大量資源和時間。在本文中旨在探索降低ViT模型訓練成本的方法。引入了一些算法改進,以便能夠在有限的硬件(1 GPU)和時間(24小時)資源下從頭開始訓練ViT模型。
首先,提出了一種向ViT架構添加局部性的有效方法。其次,開發(fā)了一種新的圖像大小課程學習策略,該策略允許在訓練開始時減少從每個圖像中提取的patch的數(shù)量。最后,我們通過添加硬件和時間限制,提出了流行的ImageNet1k基準的新變體。根據(jù)這一基準評估了本文的貢獻,并表明在擬定的訓練預算下可以顯著提高性能。
代碼:https://github.com/BorealisAI/efficient-vit-training
1、簡介
最近,Transformer架構已成為大量計算機視覺模型的關鍵組成部分。然而,訓練大型變壓器模型通常需要付出巨大的成本。例如,在4個GPU上訓練像DeiT-S這樣的小型ViT大約需要3天時間。
為了降低成本,作者建議探索以下問題:如何用單個GPU在不到24小時的時間內從零開始訓練ViT模型。作者認為,由于多種原因,這一方向的進展可能會對計算機視覺研究和應用的未來產生重大影響。
-
加快模型開發(fā)。ML中的新模型通常通過運行和分析其上的實驗來評估性能,當每次實驗的訓練成本過高時,這不是一種可擴展的方法。通過降低訓練成本,縮短了開發(fā)周期。
-
更容易接近。大多數(shù)ViT模型都是通過使用多個GPU或TPU從頭開始訓練的,不幸的是,這將無法獲得此類資源的研究人員排除在這一研究領域之外。通過僅使用1個GPU作為基準,顯著降低了ViT的訓練成本,這使得更多的研究人員能夠推動這一研究方向。
-
降低環(huán)境成本。降低訓練成本的一種方法是開發(fā)更高效的專用硬件或更高效的數(shù)據(jù)表示,如半精度。另一種正交方法是開發(fā)更有效的算法。
在本文中,重點討論第二種方法。已經(jīng)開發(fā)了許多方法(例如剪枝)來降低推理成本,但數(shù)量有限的工作正在探索降低訓練成本的想法。有工作探索了如何在小型數(shù)據(jù)集上從頭開始訓練ViT。也有工作在探索如何在24小時內對文本數(shù)據(jù)訓練BERT模型,但它使用8個GPU的服務器,而作者將自己限制在單個GPU。Primer建議尋找Transformer的更有效的替代品,但它側重于NLP。作者試圖將這項工作的發(fā)現(xiàn)應用于ViT,但沒有看到任何改進。因此,仍然不清楚為NLP領域開發(fā)的改進是否也可以推廣到計算機視覺應用中。
作者將目標定義為在固定預算內獲得最高績效指標。為了降低訓練成本,提出了兩種算法貢獻。首先,作者表明,在Transformer編碼器架構的每個前饋網(wǎng)絡中添加局部機制可以顯著提高給定固定資源預算的性能。其次,提出了一種基于圖像大小的課程學習策略,以減少訓練開始時每個時期的訓練時間。訓練從小圖像開始,然后逐漸將大圖像添加到訓練中。除了為降低訓練成本而引入的算法更改之外,還通過包括資源限制(1 GPU和24小時時間預算)正式定義了在ImageNet1k上的新基準,并在其上評估了模型。
2、本文方法
2.1、Locality in vision Transformer architecture
在本節(jié)中,首先解釋了ViT架構,然后描述了對架構的更改,以加快訓練。
(1)ViT architecture
Vanilla Transformer接收token嵌入的1D序列作為輸入。為了處理2D圖像,ViT模型將每個輸入圖像分割成一系列不重疊的reshape 2D塊。用可訓練的線性投影將面片映射到D維。該投影的輸出通常稱為patch嵌入。然后,將可學習的位置嵌入添加到塊嵌入以編碼圖像中每個塊的位置信息。嵌入向量z'的輸出序列用作Transformer編碼器的輸入。
Transformer編碼器由多頭自注意力(MSA)和前饋網(wǎng)絡(FFN)的交替層組成。在每個塊之前應用LayerNorm(LN),在每個塊之后應用殘差連接。對于具有L個塊的Transformer編碼器,輸出表示按照以下公式計算:
FFN由兩個由GELU激活分離的線性層組成。第一個線性層將尺寸從D擴展到4D,第二個線性層則將尺寸從4D減小回D。
(2)Locality in ViT architecture
ViT的自注意力層捕獲所有patch之間的全局依賴性,但它缺乏局部誘導偏差,特別是允許在局部區(qū)域內進行信息交換的機制。為了將局部性引入到vit中,這里只調整了FFN,而其他部分,如自注意力和位置編碼,沒有改變。作者建議通過在每個FFN中添加深度卷積層來為ViT架構添加局部性。在FFN中的兩個FC層之間添加3×3深度卷積(圖1)。在每個3×3深度卷積之前,使用序列到圖像(Seq2Im)層將每個reshape的塊表示轉換為2D塊表示。類似地,圖像到序列(Im2Seq)層用于將每個2D面片表示轉換為reshape patch表示。作者還將GELU激活層替換為h-swish。
(3)Connection with existing works
其他工作探索在ViT架構中添加局部性。他們中的大多數(shù)人分析局部機制對最終準確性的影響,沒有人研究局部機制對訓練速度的影響。最接近架構的工作可能是LocalViT,它也在FFN中使用卷積。LocalViT和本文的模型之間有3個主要區(qū)別。
-
首先,本文的體系結構使用LayerNorm作為標準化層,而LocalViT使用2D BatchNorm。
-
其次,在本文的架構中,擴展層和壓縮層被實現(xiàn)為完全連接層,而LocalViT使用卷積層。
-
最后,本文的體系結構使用h-swish作為激活層,而LocalViT使用h-swish和SE模塊的組合。
作者認為,本文的貢獻是重要的,并帶來了更高效的架構。
2.2、Image size-based curriculum learning
傳統(tǒng)上,訓練ViT是通過使用從訓練數(shù)據(jù)中均勻采樣的224×224 RGB圖像的小批量來完成的。每個圖像通常被分解為非重疊的16×16塊,因此ViT的輸入通常是196個扁平Patch的序列。由于注意力機制,普通ViT架構的復雜性與序列長度(即patch數(shù))成二次關系。在本節(jié)中探索了一種減少序列長度(即patch數(shù))以加速訓練的方法。作者開發(fā)了一種基于小到大圖像尺寸的課程學習策略,其中在訓練開始時使用較短的patch序列。
課程學習的關鍵思想是從小處開始,學習任務中更容易的方面,然后逐漸提高難度。使用課程學習有不同的方法,但一種流行的方法是從簡單的例子開始訓練,然后逐漸添加更難的例子。
作者使用圖像大小作為圖像難度的代表。在訓練開始時,使用低分辨率圖像對ViT模型進行訓練,然后每隔幾個Epoch逐漸提高圖像分辨率。通過調整輸入圖像的大小來實現(xiàn)這一點。圖1顯示了給定圖像的不同圖像大小(即課程學習步驟)。在每個Epoch中,所有圖像都具有相同的大小,但圖像大小可以在Epoch之間增加。然后,一個關鍵問題是如何設計一個好的策略來增加圖像大小。首先,重要的是定義初始圖像大小,即第一個Epoch的圖像大小。然后,重要的是控制圖像大小何時增大。這里使用線性規(guī)則,每N個時期將圖像大小增加M個像素。在實驗部分,分析了這些超參數(shù)的影響。
通過構造,vision Transformer架構中的所有層(位置嵌入除外)都可以自動適應多個序列長度。在每次圖像尺寸增加之后,通過插值來更新位置嵌入。為了避免處理局部塊,只使用可以分解為16×16塊的圖像大小。在訓練期間使用多個圖像大小也有助于學習更好的比例不變表示。
3、實驗
你可以添加微信17775983565為好友,注明:公司+姓名,拉進RT-Thread官方微信交流群!
愛我就給我點在看
點擊閱讀原文進入官網(wǎng)
原文標題:【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V
文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關注!文章轉載請注明出處。
-
RT-Thread
+關注
關注
31文章
1300瀏覽量
40264
原文標題:【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論