MiniCPM-V 2.0: 具備領先OCR和理解能力的高效端側多模態大模型
一背景
今年4月份,面壁智能&清華大學自然語言處理實驗室推出MiniCPM系列的最新多模態版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構建,共擁有2.8B參數。MiniCPM-V 2.0具有領先的光學字符識別(OCR)和多模態理解能力。該模型在綜合性OCR能力評測基準OCRBench上達到開源社區的最佳水平,甚至在場景文字理解方面實現接近Gemini Pro的性能。簡單來說,就是能夠實現更好地理解圖片中內容,實現精準的“以圖生文”的能力,所見即所得。
本文將通過走馬觀花的方式,初探MiniCPM-V 2.0的新特性。同時也將分享基于愛芯元智的AX650N芯片適配MiniCPM-V 2.0的最新進展,向業界對端側多模態大模型部署的開發者提供一種新的思路,促進社區對端側多模態大模型的探索。
二MiniCPM-V介紹
2.1 MiniCPM-V 2.0特性
● 領先的OCR和多模態理解能力。MiniCPM-V 2.0顯著提升了OCR和多模態理解能力,場景文字理解能力接近Gemini Pro,在多個主流評測基準上性能超過了更大參數規模(例如17-34B)的主流模型。
● 可信行為。MiniCPM-V 2.0是第一個通過多模態RLHF對齊的端側多模態大模型。該模型在Object HalBench達到和GPT-4V相仿的性能。
● 任意長寬比高清圖像高效編碼。MiniCPM-V 2.0可以接受180萬像素的任意長寬比圖像輸入(基于最新的LLaVA-UHD技術),這使得模型可以感知到小物體、密集文字等更加細粒度的視覺信息。
● 高效部署。MiniCPM-V 2.0可以高效部署在大多數消費級顯卡、個人電腦以及移動手機等終端設備。
● 雙語支持。MiniCPM-V 2.0提供領先的中英雙語多模態能力支持。該能力通過VisCPM[ICLR'24]論文中提出的多模態能力的跨語言泛化技術實現。
2.2 多模態“小鋼炮”
MiniCPM-V 2.0與參數規模更大的多模態大模型相比,也表現出優秀的成績,不愧是業界“小鋼炮”。
三芯片介紹
3.1 AX650N
愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265編解碼的 VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI輸入,千兆Ethernet、USB、以及HDMI 2.0b輸出,并支持32路1080p@30fps解碼內置高算力和超強編解碼能力,滿足行業對高性能邊緣智能計算的需求。通過內置多種深度學習算法,實現視覺結構化、行為分析、狀態檢測等應用,高效率支持基于Transformer結構的視覺大模型和語言類大模型。提供豐富的開發文檔,方便用戶進行二次開發。
四上版部署
我們已實現“命令行”和“UI”兩種示例,其中“命令行”版本已上傳到網盤中,歡迎試用。
4.1 命令行版本
測試圖片:
測試結果:
4.2 GUI版本
4.3 性能統計
項目 | 描述 |
輸入圖片大小 | 280 x 280 |
Image Encoder | 0.8s |
Input Prompt | 96 tokens |
Prefill Time | 0.4s |
Decoder | 5 tokens/s |
五結束語
隨著大語言模型小型化的快速發展,越來越多有趣的多模態AI應用將逐漸從云端服務遷移到邊緣側設備和端側設備。我們會緊跟行業最新動態,適配更多的端側大模型,歡迎大家持續關注。
-
自然語言處理
+關注
關注
1文章
618瀏覽量
13561 -
愛芯元智
+關注
關注
1文章
80瀏覽量
4835 -
大模型
+關注
關注
2文章
2448瀏覽量
2701
原文標題:愛芯分享 | 基于AX650N部署MiniCPM-V 2.0
文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論