盗墓笔记,绝色狂妃仙魅小说,辰东

如今，基于深度學(xué)習(xí)（DL）的人工智能（AI）應(yīng)用越來(lái)越廣泛，不論是在與個(gè)人消費(fèi)者相關(guān)的智能家居、智能駕駛等領(lǐng)域，還是在視頻監(jiān)控、智慧城市等公共管理領(lǐng)域，我們都能看到其身影。

眾所周知，實(shí)施一個(gè)完整的AI應(yīng)用需要經(jīng)歷訓(xùn)練和推理兩個(gè)過(guò)程。所謂“訓(xùn)練”，就是我們要將大量的數(shù)據(jù)代入到神經(jīng)網(wǎng)絡(luò)模型中運(yùn)算并反復(fù)迭代，“教會(huì)”算法模型如何正確的工作，訓(xùn)練出一個(gè)DL模型。而接下來(lái)，我們就可以利用訓(xùn)練出來(lái)的模型來(lái)在線響應(yīng)用戶的需求，根據(jù)輸入的新數(shù)據(jù)做出正確而及時(shí)的決策判斷，這個(gè)過(guò)程就是“推理”。

通常來(lái)講，一個(gè)AI應(yīng)用中“訓(xùn)練”只需要做一次——有時(shí)這個(gè)工作會(huì)交給第三方專業(yè)的且有充沛算力資源的團(tuán)隊(duì)去做，而應(yīng)用開(kāi)發(fā)工程師要做的則是將訓(xùn)練好的模型部署到特定的硬件平臺(tái)上，滿足目標(biāo)應(yīng)用場(chǎng)景中推理過(guò)程的需要。由于推理過(guò)程會(huì)直接聯(lián)系最終用戶，推理的準(zhǔn)確性和速度也會(huì)直接影響到用戶體驗(yàn)的好壞，因此如何有效地為AI推理做加速，也就成了當(dāng)下開(kāi)發(fā)者普遍關(guān)心的一個(gè)熱門的話題。

AI推理加速，FPGA勝出！

從硬件架構(gòu)來(lái)看，可以支持AI推理加速的有四個(gè)可選方案，它們分別是：CPU、GPU、FPGA和ASIC，如果對(duì)這幾類器件的特性進(jìn)行比較，會(huì)發(fā)現(xiàn)按照從左到右的順序，器件的靈活性/適應(yīng)性是遞減的，而處理能力和性能功耗比則是遞增的。

CPU是基于馮?諾依曼架構(gòu)，雖然其很靈活，但由于存儲(chǔ)器訪問(wèn)往往要耗費(fèi)幾個(gè)時(shí)鐘周期才能執(zhí)行一個(gè)簡(jiǎn)單的任務(wù)，延遲會(huì)很長(zhǎng)，應(yīng)對(duì)神經(jīng)網(wǎng)絡(luò)（NN）這種計(jì)算密集型的任務(wù)，功耗也會(huì)比較大，顯然最不適合做AI推理。

GPU具有強(qiáng)大的數(shù)據(jù)并行處理能力，在做海量數(shù)據(jù)訓(xùn)練方面優(yōu)勢(shì)明顯，而推理計(jì)算通常一次只對(duì)一個(gè)輸入項(xiàng)進(jìn)行處理的應(yīng)用，GPU并行計(jì)算的優(yōu)勢(shì)發(fā)揮不出來(lái)，再加上其功耗相對(duì)較大，所以在AI推理方面也不是最優(yōu)選擇。

從高性能和低功耗的角度來(lái)看，定制的ASIC似乎是一種理想的解決方案，但其開(kāi)發(fā)周期長(zhǎng)、費(fèi)用高，對(duì)于總是處于快速演進(jìn)和迭代中的DL和NN算法來(lái)說(shuō)，靈活性嚴(yán)重受限，風(fēng)險(xiǎn)太大，在AI推理中人們通常不會(huì)考慮它。

所以我們的名單上只剩下FPGA了。這些年來(lái)大家對(duì)于FPGA快速、靈活和高效的優(yōu)點(diǎn)認(rèn)識(shí)越來(lái)越深入，硬件可編程的特性使其能夠針對(duì)DL和NN處理的需要做針對(duì)性的優(yōu)化，提供充足的算力，而同時(shí)又保持了足夠的靈活性。今天基于FPGA的異構(gòu)計(jì)算平臺(tái)，除了可編程邏輯，還會(huì)集成多個(gè)Arm 處理器內(nèi)核、DSP、片上存儲(chǔ)器等資源，DL所需的處理能力可以很好地映射到這些FPGA資源上，而且所有這些資源都可以并行工作，即每個(gè)時(shí)鐘周期可觸發(fā)多達(dá)數(shù)百萬(wàn)個(gè)同時(shí)的操作，這對(duì)于AI推理是再合適不過(guò)了。

與CPU和GPU相比，F(xiàn)PGA在AI推理應(yīng)用方面的優(yōu)勢(shì)還表現(xiàn)在：

不受數(shù)據(jù)類型的限制，比如它可以處理非標(biāo)準(zhǔn)的低精度數(shù)據(jù)，從而提高數(shù)據(jù)處理的吞吐量。

v功耗更低，針對(duì)相同的NN計(jì)算，F(xiàn)PGA與CPU/GPU相比平均功耗低5~10倍。

可通過(guò)重新編程以適應(yīng)不同任務(wù)的需要，這種靈活性對(duì)于適應(yīng)持續(xù)發(fā)展中的DL和NN算法尤為關(guān)鍵。
應(yīng)用范圍廣，從云端到邊緣端的AI推理工作，都可勝任。

總之一句話，在AI推理計(jì)算的競(jìng)爭(zhēng)中，F(xiàn)PGA的勝出沒(méi)有懸念。

GPU無(wú)縫對(duì)接，F(xiàn)PGA即插即用

不過(guò)，雖然FPGA看上去“真香”，但是很多AI應(yīng)用的開(kāi)發(fā)者還是對(duì)其“敬而遠(yuǎn)之”，究其原因最重要的一點(diǎn)就是——FPGA上手使用太難了！

難點(diǎn)主要體現(xiàn)在兩個(gè)方面：

首先，對(duì)FPGA進(jìn)行編程需要特定的技能和知識(shí)，要熟悉專門的硬件編程語(yǔ)言，還要熟練使用FPGA的特定工具，才能通過(guò)綜合、布局和布線等復(fù)雜的步驟來(lái)編譯設(shè)計(jì)。這對(duì)于很多嵌入式工程師來(lái)說(shuō)，完全是一套他們所不熟悉的“語(yǔ)言”。
再有，因?yàn)楹芏郉L模型是在GPU等計(jì)算架構(gòu)上訓(xùn)練出來(lái)的，這些訓(xùn)練好的模型移植、部署到FPGA上時(shí)，很可能會(huì)遇到需要重新訓(xùn)練和調(diào)整參數(shù)等問(wèn)題，這要求開(kāi)發(fā)者有專門的AI相關(guān)的知識(shí)和技能。

如何能夠降低大家在AI推理中使用FPGA的門檻？在這方面，Mipsology公司給我們帶來(lái)了一個(gè)“驚喜”——該公司開(kāi)發(fā)了一種基于FPGA的深度學(xué)習(xí)推理引擎Zebra，可以讓開(kāi)發(fā)者在“零努力（Zero Effort）”的情況下，對(duì)GPU訓(xùn)練的模型代碼進(jìn)行轉(zhuǎn)換，使其能夠在FPGA上運(yùn)行，而無(wú)需改寫(xiě)任何代碼或者進(jìn)行重新訓(xùn)練。

這也就意味著，調(diào)整NN參數(shù)甚至改變神經(jīng)網(wǎng)絡(luò)并不需要強(qiáng)制重新編譯FPGA，而這些重新編譯工作可能需要花費(fèi)數(shù)小時(shí)、數(shù)天，甚至更長(zhǎng)時(shí)間。可以說(shuō)，Zebra讓FPGA對(duì)于開(kāi)發(fā)者成了“透明”的，他們可以在NN模型訓(xùn)練好之后，無(wú)縫地從CPU或GPU切換到FPGA進(jìn)行推理，而無(wú)需花費(fèi)更多的時(shí)間！

目前，Zebra可以支持Caffe、Caffe2、MXNet和TensorFlow等主流NN框架。在硬件方面，Zebra已經(jīng)可以完美地支持Xilinx的系列加速卡，如Alveo U200、Alveo U250和Alveo U50等。對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，“一旦將FPGA板插入PC，只需一個(gè)Linux命令”，F(xiàn)PGA就能夠代替CPU或GPU立即進(jìn)行無(wú)縫的推斷，可以在更低的功耗下將計(jì)算速度提高一個(gè)數(shù)量級(jí)。對(duì)用戶來(lái)說(shuō)，這無(wú)疑是一種即插即用的體驗(yàn)。

圖1，Zebra可適應(yīng)由GPU加速器訓(xùn)練的NN，并無(wú)縫地在FPGA上部署

強(qiáng)強(qiáng)聯(lián)手，全生態(tài)支持

更好的消息是：為了能夠加速更多AI應(yīng)用的落地，安富利亞洲和 Mipsology 達(dá)成了合作協(xié)議，將向其亞太區(qū)客戶推廣和銷售 Mipsology 這一獨(dú)特的 FPGA 深度學(xué)習(xí)推理加速軟件 —— Zebra。

這對(duì)于合作的雙方無(wú)疑是一個(gè)雙贏的局面：對(duì)于Mipsology來(lái)說(shuō)，可以讓Zebra這個(gè)創(chuàng)新的工具以更快的速度覆蓋和惠及更多的開(kāi)發(fā)者；對(duì)安富利來(lái)說(shuō)，此舉也進(jìn)一步擴(kuò)展了自身強(qiáng)大的物聯(lián)網(wǎng)生態(tài)系統(tǒng)，為客戶帶來(lái)更大的價(jià)值，為希望部署DL的客戶提供一整套全面的服務(wù)，包括硬件、軟件、系統(tǒng)集成、應(yīng)用開(kāi)發(fā)、設(shè)計(jì)鏈和專業(yè)技術(shù)。

安富利推理加速成功應(yīng)用案例：智能網(wǎng)絡(luò)監(jiān)控平臺(tái)AI Bluebox

編輯：hfy

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

FPGA

FPGA

+關(guān)注

關(guān)注
1630

文章
21769

瀏覽量
604630
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4776

瀏覽量
100944
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4760

瀏覽量
129129
AI

AI

+關(guān)注

關(guān)注
87

文章
31260

瀏覽量
269616
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5510

瀏覽量
121334

評(píng)論

相關(guān)推薦

安富利中國(guó)區(qū)總裁董花：安富利眼中的2025新征程

網(wǎng)策劃了《2025年半導(dǎo)體產(chǎn)業(yè)展望》專題，收到數(shù)十位國(guó)內(nèi)外半導(dǎo)體創(chuàng)新領(lǐng)袖企業(yè)高管的前瞻觀點(diǎn)。其中，電子發(fā)燒友特別采訪了安富利中國(guó)區(qū)總裁董花，以下是他對(duì)2025年半導(dǎo)體市場(chǎng)的分析與展望。 ? 安

發(fā)表于 12-26 10:58 ?626次閱讀

安富利榮獲安森美“2024年度智能感知參考設(shè)計(jì)創(chuàng)新獎(jiǎng)”

近期，安富利憑借深厚的行業(yè)積淀與卓越的服務(wù)能力榮獲安森美 “2024年度智能感知參考設(shè)計(jì)創(chuàng)新獎(jiǎng) (Intelligent Sensing Reference Design Innovation Award)”。這一殊榮是安森美對(duì)

發(fā)表于 12-16 17:11 ?445次閱讀

安富利榮獲Nordic年度最佳分銷商獎(jiǎng)

近日，安富利中國(guó)團(tuán)隊(duì)?wèi){借在nRF54系列產(chǎn)品推廣中的卓越表現(xiàn)，被Nordic授予“年度最佳分銷商獎(jiǎng)”。這一殊榮是對(duì)安富

發(fā)表于 11-26 11:45 ?361次閱讀

FPGA和ASIC在大模型推理加速中的應(yīng)用

隨著現(xiàn)在AI的快速發(fā)展，使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多，從目前的市場(chǎng)來(lái)說(shuō)，有些公司已經(jīng)有了專門做推理的ASIC，像Gro

發(fā)表于 10-29 14:12 ?579次閱讀

NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

麗蟾科技通過(guò) Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise，為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無(wú)論是在復(fù)雜的

發(fā)表于 10-27 10:03 ?273次閱讀

FPGA加速深度學(xué)習(xí)模型的案例

FPGA（現(xiàn)場(chǎng)可編程門陣列）加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例：一、基于

發(fā)表于 10-25 09:22 ?284次閱讀

安富利與合作伙伴共筑綠色未來(lái)

在最新的可持續(xù)發(fā)展報(bào)告中，安富利展示了在環(huán)境保護(hù)方面的努力和成果。我們的碳排放量穩(wěn)步下降，能源使用效率不斷提升，水資源管理更加科學(xué)有效。

發(fā)表于 09-05 11:15 ?489次閱讀

安富利推出新品牌Tria?以整合嵌入式計(jì)算選項(xiàng)

安富利宣布推出新品牌Tria ” 安富利宣布推出新品牌Tria和名為Tria Technolog

發(fā)表于 09-03 18:45 ?599次閱讀

安富利攜手恩智浦推出人工智能解決方案

在物聯(lián)網(wǎng)（IoT）和工業(yè)4.0時(shí)代，數(shù)據(jù)的海量化與實(shí)時(shí)處理需求日益增長(zhǎng)，對(duì)邊緣計(jì)算設(shè)備提出了前所未有的挑戰(zhàn)。對(duì)此，安富利攜手恩智浦，基于創(chuàng)新的MCX-N系列微控制器，推出一系列“開(kāi)箱即用”的人工智能解決方案，旨在為客戶提供高效、

發(fā)表于 08-01 10:38 ?1439次閱讀

LLM大模型推理加速的關(guān)鍵技術(shù)

LLM（大型語(yǔ)言模型）大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)，旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討，內(nèi)容將涵蓋模型壓縮、

發(fā)表于 07-24 11:38 ?943次閱讀

安富利創(chuàng)新方案，加速原型設(shè)計(jì)的利器

原型設(shè)計(jì)是產(chǎn)品開(kāi)發(fā)流程中的一個(gè)重要環(huán)節(jié)，它具有將新想法迅速轉(zhuǎn)化為現(xiàn)實(shí)的能力。通過(guò)原型設(shè)計(jì)，開(kāi)發(fā)者能夠?qū)⑻祚R行空的創(chuàng)新思維具象化，進(jìn)而以相對(duì)較少的資源投入和較低的風(fēng)險(xiǎn)，探索未知的領(lǐng)域，迅速識(shí)別潛在問(wèn)題并進(jìn)行迭代改進(jìn)，加速產(chǎn)品上市時(shí)間。

發(fā)表于 07-04 10:26 ?522次閱讀

利亞德新工廠投產(chǎn)，加速AI與空間計(jì)算發(fā)展

近日，位于美國(guó)俄勒岡州的利亞德旗下NaturalPoint公司宣布，其新工廠已正式投產(chǎn)。這一重要舉措將為利亞德·虛擬動(dòng)點(diǎn)提供更多的研發(fā)和生產(chǎn)資源，從而加速公司在人工智能（AI）與空間計(jì)

發(fā)表于 06-11 10:43 ?646次閱讀

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

發(fā)表于 05-27 11:50 ?563次閱讀

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?603次閱讀

【國(guó)產(chǎn)FPGA+OMAPL138開(kāi)發(fā)板體驗(yàn)】（原創(chuàng)）5.FPGA的AI加速源代碼

OMAP-L138（定點(diǎn)/浮點(diǎn)DSP C674x+ARM9）+ FPGA處理器的開(kāi)發(fā)板。編寫(xiě)一個(gè)用于AI加速的FPGA程序是一個(gè)相當(dāng)復(fù)雜的過(guò)程，涉及硬件描述語(yǔ)言（如VHDL或Ver

發(fā)表于 02-12 16:18