1. 僅用 5 小時!中國團隊推出「全球首顆」AI 全自動設計 CPU,性能比肩 Intel 486!
原文:https://mp.weixin.qq.com/s/DNBO34Xk2nVwNiEMBjJ-Cg
在這場由 ChatGPT 掀起的 AI 熱潮下,越來越多人開始看到如今 AI 的強悍:AI 作圖、AI 寫論文、AI 編代碼、AI 預測完整人類蛋白質組結構、AI 發現速度提升 70% 的新排序算法……
既然 AI 看似“無所不能”,許多人便提出了疑問:“那 AI 真的能像人類一樣進行設計工作嗎?”在預測蛋白質結構和生成編碼等方面,AI 確實表現卓越,但在設計這些物體時,總體而言 AI 的搜索空間還相對較小。
為了探尋 AI 設計能力的極限,近日中國中科院計算所等機構將目標放在了芯片設計上,因為“它是計算機的大腦,也是目前人類所設計的世界上最復雜的設備之一?!?/span>
結果,最終數據出人意料:中國中科院計算所等機構利用 AI 技術,設計出了全球首個無人工干預、全自動生成的 CPU 晶片“啟蒙 1 號”——整個訓練過程不到 5 小時,驗證測試準確性卻能達到 >99.999999999%!
1. 在無人干預的情況下,讓 AI 設計出工業級 CPU
根據相關論文《突破機器設計的極限:利用 AI 進行自動化 CPU 設計(Pushing the Limits of Machine Design: Automated CPU Design with AI)》介紹,這場研究的目的是:賦予機器自主設計 CPU 的能力,以此探索機器設計的邊界。
“如果機器能夠在無人干預的情況下設計出工業級 CPU,不僅可以顯著提高設計效率,還能將機器設計的極限推向接近人類性能的水平,從而推動半導體產業的革命。”論文中還補充道:“自行設計機器的能力,即自我設計,可以作為建立自我進化機器的基礎步驟?!?/span>
有了基本方向后,即要在沒有人工編程的情況下自動化 CPU 設計,團隊研究人員決定通過 AI 技術,直接從“輸入-輸出(IO)”自動生成 CPU 設計,無需人類工程師手動提供任何代碼或自然語言描述。
簡單來說,傳統 CPU 設計需要投入大量人力,包括編寫代碼、設計電路邏輯、功能驗證和優化工作等等。但通過將 CPU 自動設計問題轉化為“滿足輸入-輸出規范的電路邏輯生成問題”后,只需要測試用例,便可以直接生成滿足需求的電路邏輯——這使得傳統 CPU 設計流程中極其耗時的“邏輯設計”和“驗證環節”,都被省去了。
想順利開啟這樣的自動化 CPU 設計流程,需要提前對 AI 進行訓練,包括觀察一系列 CPU 輸入和輸出,因此論文中才強調該 CPU 的設計是“僅從外部輸入-輸出觀察中形成的,并非正式的程序代碼”。
從這些輸入和輸出中,研究人員生成了一個 BSD 二元猜測圖(Binary Speculation Diagram,簡稱 BSD)算法,并利用基于蒙特卡羅的擴展和布爾函數的原理,大幅提高了基于 AI 進行 CPU 設計的準確性和效率。
2. 可與 Intel 486 系列媲美
通過以上逐步地推敲,一個 CPU 的自動化 AI 設計流程就成型了:僅用 5 小時就生成 400 萬邏輯門,全球首款無需人工干預、全自動生成的 CPU 芯片也就此誕生——啟蒙 1 號。
據論文介紹,啟蒙 1 號基于 RISC-V的 32 位架構,采用 65nm 工藝,頻率可達 300MHz,且可運行 Linux 操作系統。另據媒體報道,相較于現階段 GPT-4 能設計的電路規模,啟蒙 1 號要大 4000 倍。
此外在 Drystone 基準測試中,啟蒙 1 號的性能不僅可比肩由人類設計的 Intel 486 系列 CPU,還比 Acorn Archimedes A3010 更快一些。
更值得一提的是,這顆完全由 AI 設計的 32 位 RISC-V CPU,其設計周期比人類團隊完成類似 CPU 設計的速度,快了近 1000 倍,驗證測試準確性也能達到 >99.999999999%。
不過,有些人可能對于這款由 AI 設計的啟蒙 1 號并不在意,畢竟與它性能相近的 Intel 486 系列 CPU(Intel 80486SX),早已是誕生于上世紀 1991 年的“老芯片”了。但研究人員對于啟蒙 1 號的開發依舊很自豪:在整個 AI 自動化設計過程中,他們生成的 BSD 算法,甚至還自主發現了馮·諾伊曼架構(一種將程序指令存儲器和數據存儲器合并在一起的電腦設計概念結構)。
3. 完全由 AI 生成的 CPU 有望超過人類?
平心而論,作為全球首款 AI 自動生成的芯片,啟蒙 1 號的性能和規模根本無法與當前頂級的主流 CPU 相比,但正如論文開篇所說,這場實驗本身就不是為了開發高性能芯片,而是“探索機器設計的邊界”。
讓 AI 從頭開始構建一個新 RISC-V CPU,其背后的真實意義在于:研究 AI 未來能否用于減少現有半導體行業的設計和優化周期。
如果從這個角度來看,此次中國中科院計算所等機構進行的這項實驗,就有了初步的結論:與傳統人類設計的 CPU 相比,啟蒙 1 號的研發周期縮短了近 1000 倍,因為傳統 CPU 設計流程中耗時極長的手動編程和驗證過程完全被省略了。
“我們的方法改變了傳統的 CPU 設計流程,并有可能改革半導體行業?!痹谡撐牡淖詈?,研究人員對于由 AI 完全設計芯片的未來做出展望:“除了提供人性化的設計能力,這種方法還發現了人類知識的馮·諾伊曼架構,未來更有可能產生積極的(甚至未知的)架構優化,這為建立一個自我進化的機器、并最終擊敗人類設計的最新 CPU 提供了一些啟示。”
即研究人員認為,未來通過不斷迭代 AI 的芯片設計方式,完全由 AI 生成的 CPU,或許有望達到甚至超越由人類設計的 CPU。那么對于這個說法,你又是否有什么看法嗎?
2. 北大法律大模型ChatLaw火了??!
原文:https://mp.weixin.qq.com/s/yFVUh5PqlhNXtJA1NLb5rg
大模型又「爆了」。一個法律大模型 ChatLaw 登上了知乎熱搜榜榜首。熱度最高時達到了 2000 萬左右。
這個 ChatLaw 由北大團隊發布,致力于提供普惠的法律服務。一方面當前全國執業律師不足,供給遠遠小于法律需求;另一方面普通人對法律知識和條文存在天然鴻溝,無法運用法律武器保護自己。
大語言模型最近的崛起正好為普通人以對話方式咨詢法律相關問題提供了一個絕佳契機。
目前,ChatLaw 共有三個版本,分別如下:
-
ChatLaw-13B,為學術 demo 版,基于姜子牙 Ziya-LLaMA-13B-v1 訓練而來,中文各項表現很好。但是,邏輯復雜的法律問答效果不佳,需要用更大參數的模型來解決;
-
ChatLaw-33B,也為學術 demo 版,基于 Anima-33B 訓練而來,邏輯推理能力大幅提升。但是,由于 Anima 的中文語料過少,問答時常會出現英文數據;
-
ChatLaw-Text2Vec,使用 93w 條判決案例做成的數據集,基于 BERT 訓練了一個相似度匹配模型,可以將用戶提問信息和對應的法條相匹配。根據官方演示,ChatLaw 支持用戶上傳文件、錄音等法律材料,幫助他們歸納和分析,生成可視化導圖、圖表等。此外,ChatLaw 可以基于事實生成法律建議、法律文書。該項目在 GitHub 上的 Star 量達到了 1.1k。
官網地址:https://www.chatlaw.cloud/論文地址:https://arxiv.org/pdf/2306.16092.pdfGitHub 地址:https://github.com/PKU-YuanGroup/ChatLaw目前,由于 ChatLaw 項目太過火爆,服務器暫時崩潰,算力已達上限。該團隊正在修復,感興趣的讀者可以在 GitHub 上部署測試版模型。小編本人也還在內測排隊中。所以這里先展示一個 ChatLaw 團隊提供的官方對話示例,關于日常網購時可能會遇到的「七天無理由退貨」問題。不得不說,ChatLaw 回答挺全的。
不過,小編發現,ChatLaw 的學術 demo 版本可以試用,遺憾的是沒有接入法律咨詢功能,只提供了簡單的對話咨詢服務。這里嘗試問了幾個問題。
其實最近發布法律大模型的不只有北大一家。上個月底,冪律智能聯合智譜 AI 發布了千億參數級法律垂直大模型 PowerLawGLM。據悉該模型針對中文法律場景的應用效果展現出了獨特優勢。
ChatLaw 的數據來源、訓練框架首先是數據組成。ChatLaw 數據主要由論壇、新聞、法條、司法解釋、法律咨詢、法考題、判決文書組成,隨后經過清洗、數據增強等來構造對話數據。同時,通過與北大國際法學院、行業知名律師事務所進行合作,ChatLaw 團隊能夠確保知識庫能及時更新,同時保證數據的專業性和可靠性。下面我們看看具體示例。
基于法律法規和司法解釋的構建示例:
抓取真實法律咨詢數據示例:
律師考試多項選擇題的建構示例:
然后是模型層面。為了訓練 ChatLAW,研究團隊在 Ziya-LLaMA-13B 的基礎上使用低秩自適應 (Low-Rank Adaptation, LoRA) 對其進行了微調。此外,該研究還引入 self-suggestion 角色,來緩解模型產生幻覺問題。訓練過程在多個 A100 GPU 上進行,并借助 deepspeed 進一步降低了訓練成本。
如下圖為 ChatLAW 架構圖,該研究將法律數據注入模型,并對這些知識進行特殊處理和加強;與此同時,他們也在推理時引入多個模塊,將通識模型、專業模型和知識庫融為一體。
該研究還在推理中對模型進行了約束,這樣才能確保模型生成正確的法律法規,盡可能減少模型幻覺。
一開始研究團隊嘗試傳統的軟件開發方法,如檢索時采用 MySQL 和 Elasticsearch,但結果不盡如人意。因而,該研究開始嘗試預訓練 BERT 模型來進行嵌入,然后使用 Faiss 等方法以計算余弦相似度,提取與用戶查詢相關的前 k 個法律法規。
當用戶的問題模糊不清時,這種方法通常會產生次優的結果。因此,研究者從用戶查詢中提取關鍵信息,并利用該信息的向量嵌入設計算法,以提高匹配準確性。
由于大型模型在理解用戶查詢方面具有顯著優勢,該研究對 LLM 進行了微調,以便從用戶查詢中提取關鍵字。在獲得多個關鍵字后,該研究采用算法 1 檢索相關法律規定。
實驗結果該研究收集了十余年的國家司法考試題目,整理出了一個包含 2000 個問題及其標準答案的測試數據集,用以衡量模型處理法律選擇題的能力。
然而,研究發現各個模型的準確率普遍偏低。在這種情況下,僅對準確率進行比較并無多大意義。因此,該研究借鑒英雄聯盟的 ELO 匹配機制,做了一個模型對抗的 ELO 機制,以便更有效地評估各模型處理法律選擇題的能力。以下分別是 ELO 分數和勝率圖:
通過對上述實驗結果的分析,我們可以得出以下觀察結果
(1)引入與法律相關的問答和法規條文的數據,可以在一定程度上提高模型在選擇題上的表現;
(2)加入特定類型任務的數據進行訓練,模型在該類任務上的表現會明顯提升。例如,ChatLaw 模型優于 GPT-4 的原因是文中使用了大量的選擇題作為訓練數據;
(3)法律選擇題需要進行復雜的邏輯推理,因此,參數量更大的模型通常表現更優。參考知乎鏈接:
https://www.zhihu.com/question/610072848
3. 理解指向,說出坐標!開源模型“Shikra”開啟多模態大模型“參考對話”新模式!
原文:https://mp.weixin.qq.com/s/wIkhAcHgqeQ3LA12J6oBnA
在人類的日常交流中,經常會關注場景中不同的區域或物體,人們可以通過說話并指向這些區域來進行高效的信息交換。這種交互模式被稱為參考對話(Referential Dialogue)。
如果 MLLM 擅長這項技能,它將帶來許多令人興奮的應用。例如,將其應用到 Apple Vision Pro 等混合現實 (XR) 眼鏡中,用戶可以使用視線注視指示任何內容與 AI 對話。同時 AI 也可以通過高亮等形式來指向某些區域,實現與用戶的高效交流。
本文提出的 Shikra 模型,就賦予了 MLLM 這樣的參考對話能力,既可以理解位置輸入,也可以產生位置輸出。
-
論文地址:http://arxiv.org/abs/2306.15195
-
代碼地址:https://github.com/shikras/shikra
Shikra 能夠理解用戶輸入的 point/bounding box,并支持 point/bounding box 的輸出,可以和人類無縫地進行參考對話。
Shikra 設計簡單直接,采用非拼接式設計,不需要額外的位置編碼器、前 / 后目標檢測器或外部插件模塊,甚至不需要額外的詞匯表。
如上圖所示,Shikra 能夠精確理解用戶輸入的定位區域,并能在輸出中引用與輸入時不同的區域進行交流,像人類一樣通過對話和定位進行高效交流。
如上圖所示,Shikra 不僅具備 LLM 所有的基本常識,還能夠基于位置信息做出推理。
如上圖所示,Shikra 可以對圖片中正在發生的事情產生詳細的描述,并為參考的物體生成準確的定位。
盡管 Shikra 沒有在 OCR 數據集上專門訓練,但也具有基本的 OCR 能力。
更多例子
其他傳統任務 ? ? ?模型架構采用 CLIP ViT-L/14 作為視覺主干,Vicuna-7/13B 作為基語言模型,使用一層線性映射連接 CLIP 和 Vicuna 的特征空間。Shikra 直接使用自然語言中的數字來表示物體位置,使用 [xmin, ymin, xmax, ymax] 表示邊界框,使用 [xcenter, ycenter] 表示區域中心點,區域的 xy 坐標根據圖像大小進行歸一化。每個數字默認保留 3 位小數。這些坐標可以出現在模型的輸入和輸出序列中的任何位置。記錄坐標的方括號也自然地出現在句子中。Shikra 在傳統 REC、VQA、Caption 任務上都能取得優良表現。同時在 PointQA-Twice、Point-V7W 等需要理解位置輸入的 VQA 任務上取得了 SOTA 結果。
本文使用 POPE benchmark 評估了 Shikra 產生幻覺的程度。Shikra 得到了和 InstrcutBLIP 相當的結果,并遠超近期其他 MLLM。
思想鏈(CoT),旨在通過在最終答案前添加推理過程以幫助 LLM 回答復雜的 QA 問題。這一技術已被廣泛應用到自然語言處理的各種任務中。然而如何在多模態場景下應用 CoT 則尚待研究。尤其因為目前的 MLLM 還存在嚴重的幻視問題,CoT 經常會產生幻覺,影響最終答案的正確性。通過在合成數據集 CLEVR 上的實驗,研究發現,使用帶有位置信息的 CoT 時,可以有效減少模型幻覺提高模型性能。4. 圖視覺模型崛起 | MobileViG同等精度比MobileNetv2快4倍,同等速度精度高4%!
原文:https://mp.weixin.qq.com/s/gstvrGg2wHnFyTRXd_cT_A
傳統上,卷積神經網絡(CNN)和Vision Transformer(ViT)主導了計算機視覺。然而,最近提出的Vision Graph神經網絡(ViG)為探索提供了一條新的途徑。不幸的是,對于移動端應用程序來說,由于將圖像表示為圖結構的開銷,ViG在計算上是比較耗時的。 在這項工作中,作者提出了一種新的基于圖的稀疏注意力機制,即稀疏Vision Graph注意力(SVGA),該機制是為在移動端設備上運行的ViG設計的。此外,作者提出了第一個用于移動端設備上視覺任務的混合CNN-GNN架構MobileViG,該架構使用SVGA。 大量實驗表明,MobileViG在圖像分類、目標檢測和實例分割任務的準確性和/或速度方面優于現有的ViG模型以及現有的移動端CNN和ViT架構。作者最快的模型MobileViG-Ti在ImageNet-1K上實現了75.7%的Top-1準確率,在iPhone 13 Mini NPU(使用CoreML編譯)上實現了0.78 ms 的推理延遲,這比MobileNetV2x1.4(1.02 ms ,74.7%Top-1)和MobileNetV2x1.0(0.81 ms ,71.8%Top-1。作者最大的模型MobileViG-B僅用2.30 ms 的延遲就獲得了82.6%的Top-1準確率,這比類似規模的EfficientFormer-L3模型(2.77 ms ,82.4%)更快、更準確。 作者的工作證明,設計良好的混合CNN-GNN架構可以成為在移動端設備上設計快速準確模型的新探索途徑。 代碼:https://github.com/SLDGroup/MobileViG
1. 簡介
人工智能(AI)和機器學習(ML)在過去十年中取得了爆炸式的增長。在計算機視覺中,這種增長背后的關鍵驅動力是神經網絡的重新出現,尤其是卷積神經網絡(CNNs)和最近的視覺Transformer。盡管通過反向傳播訓練的神經網絡是在20世紀80年代發明的,但它們被用于更小規模的任務,如字符識別。直到AlexNet被引入ImageNet競賽,神經網絡reshape人工智能領域的潛力才得以充分實現。
CNN架構的進一步進步提高了其準確性、效率和速度。與CNN架構一樣,多層感知器(MLP)架構和類MLP架構也有望成為通用視覺任務的Backbone。
盡管神經網絡和MLP已在計算機視覺中得到廣泛應用,但由于視覺和語言任務之間的差異,自然語言處理領域使用了遞歸神經網絡(RNN),特別是長短期記憶(LSTM)網絡。盡管LSTM仍在使用,但在NLP任務中,它們在很大程度上已被Transformer架構所取代。隨著視覺Transformer(ViT)的引入,引入了一種適用于語言和視覺領域的網絡架構。通過將圖像分割成patch嵌入序列,可以將圖像轉換為Transformer模塊可用的輸入。與神經網絡或MLP相比,Transformer架構的主要優勢之一是其全局感受野,使其能夠從圖像中的遠距離物體交互中學習。
圖神經網絡(GNN)已發展為在基于圖的結構上運行,如生物網絡、社交網絡或引文網絡。GNN甚至被提議用于節點分類、藥物發現、欺詐檢測等任務,以及最近提出的視覺GNN(ViG)的計算機視覺任務。簡言之,ViG將圖像劃分為多個patch,然后通過K近鄰(KNN)算法連接這些patch,從而提供了處理類似于ViT的全局目標交互的能力。
移動端應用的計算機視覺研究快速增長,導致了使用神經網絡學習空間局部表示和使用Vision Transformer(ViT)學習全局表示的混合架構。當前的ViG模型不適合移動端任務,因為它們在移動端設備上運行時效率低且速度慢??梢蕴剿鲝腃NN和ViT模型的設計中學到的概念,以確定CNN-GNN混合模型是否能夠提供基于CNN的模型的速度以及基于ViT的模型的準確性。
在這項工作中,作者研究了用于移動端設備上計算機視覺的混合CNN-GNN架構,并開發了一種可以與現有高效架構競爭的基于圖形的注意力機制。作者的貢獻總結如下:
-
作者提出了一種新的基于圖的稀疏注意力方法,用于移動端視覺。作者稱作者的注意力方法為稀疏Vision Graph注意力(SVGA)。作者的方法是輕量級的,因為與以前的方法相比,它不需要重新reshape,并且在圖構建中幾乎沒有開銷。
-
作者使用作者提出的SVGA、最大相對圖卷積以及來自移動端CNN和移動端視覺Transformer架構的概念(作者稱之為MobileViG),為視覺任務提出了一種新的移動端CNN-GNN架構。
-
作者提出的模型MobileViG在3個具有代表性的視覺任務(ImageNet圖像分類、COCO目標檢測和COCO實例分割)上的準確性和/或速度與現有的Vision Graph神經網絡(ViG)、移動端卷積神經網絡(CNN)和移動端Vision Transformer(ViT)架構類似或者更優的性能。
據作者所知,作者是第一個研究用于移動端視覺應用的混合CNN-GNN架構的算法。作者提出的SVGA注意力方法和MobileViG架構為最先進的移動端架構和ViG架構開辟了一條新的探索之路。
2. 相關工作
ViG被提議作為神經網絡和ViT的替代方案,因為它能夠以更靈活的格式表示圖像數據。ViG通過使用KNN算法來表示圖像,其中圖像中的每個像素都關注相似的像素。ViG的性能與流行的ViT模型DeiT和SwinTransformer相當,這表明它值得進一步研究。
盡管基于ViT的模型在視覺任務中取得了成功,但與基于CNN的輕量級模型相比,它們仍然較慢,相比之下,基于CNN的模型缺乏基于ViT模型的全局感受域。因此,通過提供比基于ViT的模型更快的速度和比基于CNN的模型更高的精度,基于ViG的模型可能是一種可能的解決方案。據作者所知,目前還沒有關于移動端ViG的作品;然而,在移動端CNN和混合模型領域,已有許多工作。作者將移動端架構設計分為兩大類:卷積神經網絡(CNN)模型和混合CNN-ViT模型,它們融合了CNNs和ViT的元素。
基于CNN架構的MobileNetv2和EfficientNet系列是首批在常見圖像任務中取得成功的移動端模型。這些模型輕,推理速度快。然而,純粹基于CNN的模型已經被混合模型競爭對手穩步取代。
有大量的混合移動端模型,包括MobileViTv2、EdgeViT、LeViT和EfficientFormerv2。這些混合模型在圖像分類、目標檢測和實例分割任務方面始終優于MobileNetv2,但其中一些模型在延遲方面并不總是表現良好。延遲差異可能與包含ViT塊有關,ViT塊在移動端硬件上的速度傳統上較慢。
為了改善這種狀況,作者提出了MobileViG,它提供了與MobileNetv2相當的速度和與EfficientFormer相當的精度。
3. 文本方法
在本節中,作者將描述SVGA算法,并提供有關MobileViG架構設計的詳細信息。更確切地說,第3.1節描述了SVGA算法。第3.2節解釋了作者如何調整ViG中的Graper模塊來創建SVGA塊。第3.3節描述了作者如何將SVGA塊與反向殘差塊結合起來進行局部處理,以創建MobileViGTi、MobileViG-S、MobileVeg-M和MobileViG-B。
3.1. Sparse Vision Graph Attention
作者提出稀疏Vision Graph注意力(SVGA)作為Vision GNN中KNN圖注意力的一種移動端友好的替代方案?;贙NN的圖注意力引入了2個非移動端友好組件,KNN計算和輸入reshape,作者用SVGA去除了這兩個組件。
更詳細地說,每個輸入圖像都需要KNN計算,因為不能提前知道每個像素的最近鄰居。這產生了一個具有看似隨機連接的圖,如圖1a所示。由于KNN的非結構化性質,KNN的作者將輸入圖像從4D張量reshape為3D張量,使他們能夠正確對齊連接像素的特征,用于圖卷積。在圖形卷積之后,對于隨后的卷積層,必須將輸入從3D重新reshape為4D。因此,基于KNN的注意力需要KNN計算和2次reshape操作,這兩種操作在移動端設備上都是比較耗時的。
為了消除KNN計算和reshape操作的開銷,SVGA假設一個固定圖,其中每個像素都連接到其行和列中的第K個像素。例如,給定一個8×8的圖像和K=2,左上角的像素將連接到其行上的每一個像素和列下的每一個像素,如圖1b所示。對于輸入圖像中的每個像素重復這種相同的圖案。由于圖具有固定的結構(即,對于所有8×8個輸入圖像,每個像素都具有相同的連接),因此不必對輸入圖像進行reshape來執行圖卷積。
相反,它可以使用跨越兩個圖像維度的滾動操作來實現,在算法1中表示為roll-right和roll-down。滾轉操作的第一個參數是滾轉的輸入,第二個參數是向右或向下滾轉的距離。使用圖1b中K=2的示例,通過向右滾動圖像兩次、向右滾動四次和向右滾動六次,可以將左上角像素與其行中的第二個像素對齊。除了向下滾動之外,可以對其列中的每一個像素執行相同的操作。
請注意,由于每個像素都以相同的方式連接,因此用于將左上角像素與其連接對齊的滾動操作同時將圖像中的其他每個像素與其連接對準。在MobileViG中,使用最大相對圖卷積(MRConv)來執行圖卷積。因此,在每次向右滾動和向下滾動操作之后,計算原始輸入圖像和滾動版本之間的差,在算法1中表示為Xr和Xc,并且按元素進行最大運算并存儲在Xj中,也在算法1表示。在完成滾動和最大相對操作之后,執行最終的Conv2d。通過這種方法,SVGA將KNN計算換成了更便宜的滾動操作,因此不需要reshape來執行圖卷積。
作者注意到,SVGA避開了KNN的表示靈活性,而傾向于移動端友好。
3.2. SVGA Block
作者將SVGA和更新后的MRConv層插入到Vision GNN中提出的捕獲器塊中。給定一個輸入特征,更新后的圖形處理器表示為
作者還在MRConv步驟中將濾波器組的數量從4(Vision GNN中使用的值)更改為1,以增加MRConv層的表達潛力,而不會顯著增加延遲。更新后的Graper模塊如圖2d所示。
在更新的Graper之后,作者使用了Vision GNN中提出的前饋網絡(FFN)模塊,如圖2e所示。FFN模塊是一個兩層MLP,表示為
3.3. MobileViG Architecture
圖2a中所示的MobileViG架構由卷積Backbone組成,然后是3級反向殘差塊(MBConv),其擴展比為4,用于MobileNetv2中提出的局部處理。在MBConv塊中,作者將ReLU6替換為GeLU,因為它已被證明可以提高計算機視覺任務的性能。MBConv塊由1×1卷積加批量歸一化(BN)和GeLU、深度3×3卷積加BN和GeLU組成,最后是1×1卷積加BN和殘差連接,如圖2b所示。
在MBConv塊之后,作者使用一個Stage的SVGA塊來捕獲全局信息,如圖2a所示。作者在SVGA塊之后還有一個卷積頭用于分類。在每個MBConv階段之后,下采樣步驟將輸入分辨率減半并擴展通道維度。每個階段由多個MBConv或SVGA塊組成,其中重復次數根據模型大小而變化。
MobileViG-Ti、MobileViG-S、MobileViG-M和MobileViG-B的通道尺寸和每個階段重復的塊的數量可以在表1中看到。
4. 實驗
4.1. 圖像分類
作者使用PyTorch 1.12和Timm庫實現了該模型。作者使用8個NVIDIA A100 GPU來訓練每個模型,有效批量大小為1024。這些模型是用AdamW優化器在ImageNet-1K上從頭開始訓練300個Epoch的。使用余弦退火策略將學習率設置為2e-3。作者使用標準圖像分辨率224×224進行訓練和測試。
與DeiT類似,作者使用RegNetY-16GF進行知識蒸餾,Top-1準確率為82.9%。對于數據擴充,作者使用RandAugment、Mixup、Cutmix、隨機擦除和重復擴充。
作者使用iPhone 13 Mini(iOS 16)在NPU和GPU上測試延遲。這些模型是用CoreML編譯的,延遲平均超過1000個預測。
如表2所示,對于類似數量的參數,MobileViG在準確性和GPU延遲方面都優于Pyramid ViG。例如,對于3.5 M以下的參數,MobileViG-S在Top-1的精度上與Pyramid-ViG-Ti匹配,同時速度快2.83倍。此外,在參數減少0.6 M的情況下,MobileViG-B在Top-1的準確率上擊敗Pyramid-ViG-S 0.5%,同時速度快2.08倍。
與表3中的移動端模型相比,MobileViG至少在NPU延遲、GPU延遲或準確性方面始終優于所有模型。MobileViG-Ti比MobileNetv2更快,Top-1的準確率高3.9%。它還與Top-1的EfficientFormerv2相匹配,同時在NPU和GPU延遲方面略有優勢。
MobileViG-S在NPU延遲方面比EfficientNet-B0快近兩倍,并比Top-1的準確率高0.5%。與MobileViTv2-1.5相比,MobileViG-M的NPU延遲快3倍以上,GPU延遲快2倍,Top-1精度高0.2%。此外,MobileViG-B比DeiT-S快6倍,能夠在Top-1的精度上擊敗DeiT-S和Swin Tiny。
4.2. 目標檢測和實例分割
作者在目標檢測和實例分割任務上評估了MobileViG,以進一步證明SVGA的潛力。作者在Mask RCNN中集成了MobileViG作為Backbone,并使用MS COCO 2017數據集進行了實驗。作者使用PyTorch 1.12和Timm庫實現了Backbone,并使用4個NVIDIA RTX A6000 GPU來訓練作者的模型。
作者使用來自300個訓練Epoch的預訓練ImageNet-1k權重初始化模型,使用初始學習率為2e-4的AdamW優化器,并按照NextViT、EfficientFormer和EfficientFormerV2的過程,以標準分辨率(1333 X 800)訓練12個Epoch的模型。
如表4所示,在相似的模型大小下,MobileViG在目標檢測和/或實例分割方面的參數或改進的平均精度(AP)方面優于ResNet、PoolFormer、EfficientFormer和PVT。中等規模的模型MobileViG-M模型在目標檢測任務上獲得41.3 APbox,當50IoU時獲得62.8 APbox, 而當IOU75時獲得45.1 APbox.
MobileViG的設計部分靈感來自Pyramid-ViG、EfficientFormer和MetaFormer的設計。在MobileViG中獲得的結果表明,混合CNN-GNN架構是CNN、ViT和混合CNN-ViT設計的可行替代方案。混合CNN-GNN架構可以提供基于CNN的模型的速度以及ViT模型的準確性,使其成為高精度移動端架構設計的理想候選者。進一步探索用于移動端計算機視覺任務的混合CNN-GNN架構可以改進MobileViG概念,并引入新的最先進的架構。
5. 參考
[1].MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications.
5. 重磅,GPT-4 API 全面開放使用!
原文:https://mp.weixin.qq.com/s/UrRtcvBIVzD_l-SXIjAxPQ
遙想今年 3 月剛推出 GPT-4 的 OpenAI 僅邀請了部分提交申請的開發者參與測試。眼瞅 OpenAI 聯合創始人 Greg Brockman 在當時現場演示“史上最為強大”的 GPT-4 模型,輕松通過一張手繪草圖生成一個網站、60 秒就能搞定一個小游戲開發等這些功能,一眾開發者卻不能使用。
而就在今天,GPT-4 的適用性進一步被拓展。OpenAI 正式發布 GPT-4 API,現對所有付費 API 的開發者全面開放!
1. OpenAI 路線圖:本月底前向新開發者拓展推出 GPT-4
在上線的這四個月里,相信很多人通過技術解析論文(https://cdn.openai.com/papers/gpt-4.pdf),對于 GPT-4 也不太陌生。
據 OpenAI 透露,自今年 3 月份發布 GPT-4 以來,數以百萬計的開發者要求訪問 GPT-4 API,且利用 GPT-4 的創新產品的范圍每天都在增長。
與其前身 GPT-3.5 相比,GPT-4 的不同之處在于它增強了生成文本(包括代碼)的能力,同時還接受圖像和文本輸入。
該模型在各種專業和學術基準上表現出“人類水平”。此前,OpenAI 研究人員也做過測試,稱,如果 GPT-4 是一個僅憑應試能力來判斷的人,它可以進入法學院,而且很可能也能進入許多大學。
與 OpenAI 以前的 GPT 模型一樣,GPT-4 是使用公開的數據進行訓練的,包括來自公共網頁的數據,以及 OpenAI 授權的數據。從技術維度上來看,GPT-4 是一個基于 Transformer 的模型,經過預訓練,可以預測文檔中的下一個 token。這個項目的一個核心部分是開發了基礎設施和優化方法。這使 OpenAI 能夠根據不超過 GPT-4 的 1/1000 的計算量訓練的模型,準確地預測 GPT-4 的某些方面的性能。
不過,目前有些遺憾的是,圖像理解能力還沒有提供給所有 OpenAI 用戶。還是像今年 3 月份 OpenAI 宣布的那樣,它只是與其合作伙伴 Be My Eyes 進行測試。截至目前,OpenAI 還沒有表明何時會向更廣泛的用戶群開放圖像理解能力。
現如今,所有具有成功付費記錄的 API 開發者都可以訪問具有 8K 上下文的 GPT-4 API,當然,這一次還不能訪問 32 K 上下文的。
同時,OpenAI 也有計劃在本月底向新的開發者開放訪問權限,然后根據計算的可用性,開始提高速率限制。
值得注意的是,雖然 GPT-4 代表了生成式 AI 模型發展的一個重要里程碑,但是這并不意味著它是 100% 完美的。就 GPT-4 而言,它還有可能產生“幻覺”,并理直氣壯地犯一些推理性錯誤。
在未來,OpenAI 表示也正在努力為 GPT-4 和 GPT-3.5 Turbo 安全地啟用微調功能,預計這一功能將在今年晚些時候推出。
2. Chat Completions API
在公告中,OpenAI 還宣布將普遍向開發者提供 GPT-3.5 Turbo、DALL-E 和 Whisper APIs。
同時也向開發者分享了目前廣泛使用的 Chat Completions API 現狀。OpenAI 表示,現在 Chat Completions API 占了其 API GPT 使用量的 97%。
OpenAI 指出,最初的 Completions API 是在 2020 年 6 月推出的,為語言模型進行互動提供了一個自由格式的文本提示。
Chat Completions API 的結構化界面(如系統消息、功能調用)和多輪對話能力能夠使開發者能夠建立對話體驗和廣泛的完成任務,同時降低提示注入攻擊的風險,因為用戶提供的內容可以從結構上與指令分開。
OpenAI 表示,當前也正在彌補 Chat Completions API 的幾個不足之處,例如completion token 的日志概率和增加可引導性,以減少回應的 "聊天性"。
3. 舊模型的廢棄
另外,OpenAI 也發布了舊模型的棄用計劃。即從 2024 年 1 月 4 日開始,某些舊的 OpenAI 模型,特別是 GPT-3 及其衍生模型都將不再可用,并將被新的 "GPT-3 基礎"模型所取代,新的模型計算效率會更高。
根據公告顯示,具體淘汰的模型包含 Completions API 中的一些舊模型,包含我們熟悉的 davinci:
-
使用基于 GPT-3 模型(ada、babbage、curie、davinci)的穩定模型名稱的應用程序將在 2024 年 1 月 4 日自動升級到上述的新模型。在未來幾周內,通過在 API 調用中指定以下模型名稱,也可以訪問新模型進行早期測試:ada-002、babbage-002、curie-002、davinci-002。
-
使用其他舊的完成模型(如 text-davinci-003)的開發者將需要在 2024 年1月4日之前手動升級他們的集成,在他們的 API 請求的 "模型 "參數中指定 gpt-3.5-turbo-instruct。gpt-3.5-turbo-instruct 是一個 InstructGPT 風格的模型,訓練方式與 text-davinci-003 類似。這個新的模型是 Completions API 中的一個替代品,并將在未來幾周內提供給早期測試。
與此同時,OpenAI 表示,希望在 2024 年 1 月 4 日之后繼續使用他們的微調模型的開發者,需要在新的基于 GPT-3 模型(ada-002、babbag-002、curie-002、davinci-002)或更新后的模型(gpt-3.5-turbo、gpt-4)之上進行微調替換。
隨著 OpenAI 在今年晚些時候開啟微調功能,他們將優先為以前微調過舊型號的用戶提供 GPT-3.5 Turbo 和 GPT-4 微調服務。具體原因是,OpenAI 深諳從自己的數據上進行微調的模型上遷移是具有挑戰性的,對此他們會為「以前微調過的模型的用戶提供支持,使這種過渡盡可能順利」。
除了淘汰一些 Completions API 舊模型之外,OpenAI 表示,舊的嵌入模型(如 text-search-davinci-doc-001)的用戶也需要在 2024 年 1 月 4 日前遷移到 text-embedding-ada-002。
最后,使用 Edits API 及其相關模型(如t ext-davinci-edit-001 或 code-davinci-edit-001)的用戶同樣需要在 2024 年 1 月 4 日前遷移到 GPT-3.5 Turbo。Edits API 測試版是一個早期的探索性 API,旨在使開發人員能夠根據指令返回編輯過的提示版本。
OpenAI 在公告中寫道,“我們認識到這對使用這些舊型號的開發者來說是一個重大變化。終止這些模型不是我們輕易做出的決定。我們將承擔用戶用這些新模式重新嵌入內容的財務成本?!?/span>
OpenAI 表示將在未來幾周,與受影響的用戶聯系,一旦新的模型準備好進行早期測試,他們也將提供更多信息。
4. 預告:下周,所有 ChatGPT Plus 用戶可用上代碼解釋器
最為值得期待的是,OpenAI 官方還在 Twitter 上預告:代碼解釋器將在下周向所有 ChatGPT Plus 用戶開放。
它允許 ChatGPT 運行代碼,并且可以選擇訪問用戶上傳的文件。開發者可以直接要求 ChatGPT 分析數據、創建圖表、編輯文件、執行數學運算等。
5. 調用 GPT-4 API 可以做的 10 件事
最后,隨著此次 GPT-4 API 的放開,開發者再也不用費盡心思地購買 Plus 服務了,調用迄今業界最為強大的 GPT-4 API,無疑也讓相關的應用更加智能。
那么,我們到底能用 GPT-4 API 來做什么,對此外媒總結了常見的 10 種用法:
-
基于 GPT-4 API 的敘事能力,可以快速生成復雜情節、人物發展等小說內容,徹底改變文學創作領域。
-
GPT-4 API 為模擬極其真實的對話鋪平了道路,反映了人類交互的真實性和精確性。
-
GPT-4 API 展現了即時語言翻譯的能力,有效地彌合了各種語言和文化之間的溝通差距。
-
GPT-4 API 在數據分析方面有很強的能力,可以為數據分析市場參與者提供了寶貴的洞察力。
-
GPT-4 API 能夠打造與現實世界動態相呼應的高度逼真的虛擬環境,增強了游戲和虛擬現實等領域的沉浸感。
-
GPT-4 API 生成復雜計算機代碼的能力,使其成為軟件開發人員不可或缺的盟友。
-
GPT-4 API 可以解釋和分析醫療數據,幫助準確診斷和預測各種健康狀況。
-
利用其先進的語言生成能力,GPT-4 API 可確保快速、準確地生成法律文件。
-
GPT-4 API 展示了解釋消費者數據和生成定制營銷內容的能力,有效地與目標受眾產生共鳴。
-
GPT-4 API 有可能通過分析大量的科學數據來推動科學創新,在化學、物理學和生物學等不同領域發現新的見解。
參考:
https://openai.com/blog/gpt-4-api-general-availability
https://dataconomy.com/2023/07/06/gpt-4-api-is-now-generally-available/
———————End———————
RT-Thread線下入門培訓
7月 - 上海,南京
1.免費2.動手實驗+理論3.主辦方免費提供開發板4.自行攜帶電腦,及插線板用于筆記本電腦充電5.參與者需要有C語言、單片機(ARM Cortex-M核)基礎,請提前安裝好RT-Thread Studio 開發環境
報名通道
立即掃碼報名
(報名成功即可參加)
點擊閱讀原文進入官網
原文標題:【AI簡報20230707】中國團隊推出「全球首顆」AI 全自動設計 CPU!重磅,GPT-4 API 全面開放使用!
-
RT-Thread
+關注
關注
31文章
1301瀏覽量
40265
原文標題:【AI簡報20230707】中國團隊推出「全球首顆」AI 全自動設計 CPU!重磅,GPT-4 API 全面開放使用!
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論