導讀
2023年以ChatGPT為代表的大語言模型橫空出世,它的出現標志著自然語言處理領域取得了重大突破。它在文本生成、對話系統和語言理解等方面展現出了強大的能力,為人工智能技術的發展開辟了新的可能性。同時,人工智能技術正在進入各種應用領域,在智慧城市、智能制造、智慧醫療、智慧農業等領域發揮著重要作用。
柴火創客2024年將依托母公司Seeed矽遞科技在人工智能領域的創新硬件,與全球創客愛好者共建“模型倉”,通過“SenseCraft AI”平臺可以讓使用者快速部署應用體驗人工智能技術!
RT-DETR
目標檢測一直面臨著一個重大挑戰-平衡速度和準確性。像YOLO這樣的傳統模型速度很快,但需要一個名為非極大值抑制(NMS)的后處理步驟,這會減慢檢測速度。NMS過濾重疊的邊界框,但這會引入額外的計算時間,影響整體速度。
RT-DETR 實時端到端目標檢測器,旨在解決現有目標檢測方法在速度和精度上的問題。該方法在保持較高檢測精度的同時,顯著提升了推理速度,為實時目標檢測提供了新的解決方案。
RT-DETR是基于DETR架構的端到端對象檢測器,完全消除了對NMS的需求。通過這樣做,RT-DETR顯著減少了之前基于卷積神經網絡(CNN)的對象檢測器(如YOLO系列)的延遲。它結合了強大的主干、混合編碼器和獨特的查詢選擇器,可以快速準確地處理特征。
RT-DETR 架構的關鍵組成
骨干網絡:提取特征,文中實驗了 ResNet 和可縮放的 HgNetV2 兩種骨干網絡,選擇其最后三個階段的特征輸入到編碼器。
高效混合編碼器:通過解耦尺度內交互和跨尺度融合來高效處理多尺度特征,它由兩部分組成:
·AIFI(Attention-based Intra-scale Feature Interaction):僅在上使用單尺度 Transformer 編碼器進行層內特征交互,以捕獲更豐富的語義概念,降低復雜度并提高整體精度。
·CCFF(CNN-based Cross-scale Feature Fusion):基于跨尺度融合模塊進行優化,在融合路徑中插入多個由卷積層組成的融合塊,用于融合相鄰尺度的特征。融合塊包含兩個 1×1 卷積調整通道數,使用 RepConv 組成的 N 個 RepBlocks 進行特征融合,通過元素相加融合兩條路徑的輸出。
Transformer 解碼器:解碼器通過不確定性最小查詢選擇模塊,從編碼器輸出的特征序列中選擇固定數量的特征作為初始對象查詢,然后利用輔助預測頭迭代優化對象查詢,生成類別和邊界框。
此外,RT-DETR 支持靈活調整推理速度,通過調整解碼器層數實現,而無需重新訓練。同時,它還支持通過控制編碼器和解碼器的參數來實現模型的縮放。
RT-DETR特點
高效混合編碼器:采用高效混合編碼器,通過解耦尺度內交互和跨尺度融合來處理多尺度特征。這種基于 Vision Transformers 的獨特設計降低了計算成本,允許實時物體檢測。
IoU 感知查詢選擇:利用 IoU 感知查詢選擇改進了對象查詢初始化,使模型能夠專注于場景中最相關的對象,從而提高檢測準確性。
推理速度可調:支持通過使用不同的解碼器層靈活調整推理速度,無需重新訓練。這種適應性有助于在各種實時目標檢測場景中的實際應用。
實時性能:實現了實時目標檢測速度,相比許多基于 Transformer 的模型,其推理速度更快。
無錨框設計:不依賴于錨框,直接預測物體的邊界框和類別,提高了模型的靈活性和檢測效率,減少了超參數調優的工作量,提升了小目標檢測的性能。
端到端訓練:采用端到端的訓練方式,不需要像傳統的檢測方法那樣經過復雜的后處理步驟,如非極大值抑制(NMS),提高了訓練效率并減少了推理的復雜度。
高精度:在速度和精度方面均超過了 YOLO 系列等其他實時檢測器,例如 RT-DETR-R50 在 COCO val2017 上達到 53.1% 的 AP 和 108 FPS,RT-DETR-R101 達到 54.3% 的 AP 和 74 FPS。
可擴展性:支持模型的縮放,通過控制編碼器和解碼器的參數,如調整寬度(嵌入尺寸和通道數)和深度(Transformer 層數和 RepBlocks),以適應不同場景的需求。
高效處理多尺度特征:集成了多尺度特征融合模塊,能夠同時處理大中小不同尺寸的目標,在檢測小目標時表現優異。
帳篷檢測模型
該 AI 模型利用先進的 Swift yolo 算法,專注于帳篷識別,可以在實時視頻流中準確檢測和標記帳篷。它特別適用于 Seeed Studio Grove Vision AI (V2) 設備,提供高兼容性和穩定性。
露營場景應用
營地管理與布局優化:
- 幫助營地主動監控帳篷的分布情況,可以分析不同區域的帳篷數量,優化露營地的布局,確保合理利用空間,避免擁堵。
安全與防災:
- 在天氣突變或出現自然災害時(如暴風雨、洪水等),可以實時檢測帳篷所在地的環境變化,警告營地管理者采取相應措施,保障露營者的安全。
資源分配與監控:
- 管理者可以根據檢測到的帳篷數量和分布,合理分配營地的水、電及其他資源,更高效地滿足露營者的需求。
數據收集與分析:
- 通過持續監測帳篷的數量和動態變化,營地管理者可以收集露營高峰期的數據,從而為未來的活動策劃和資源配置提供參考。
客戶體驗提升:
- 通過分析帳篷的分布及活動情況,管理者可以為露營者提供個性化的建議,如推薦適合的露營區域、活動和服務,提升整體體驗。
野生動物監測與管理:
- 利用帳篷檢測技術,營地管理人員可以監控露營區域對當地生態環境的影響,合理安排活動,以保護野生動物棲息環境。
應急響應:
- 在緊急情況下,例如露營者的失蹤或事故發生時,模型可以幫助定位帳篷位置,快速調派救援力量。
智能化露營服務:
- 在自動化和智能化露營平臺中,帳篷檢測模型可以與其他智能設備和系統集成,為露營者提供實時信息和服務,如天氣預報、急救指引等。
在Grove-VisionAIV2上部署模型
1、打開SenseCraft AI平臺,如果第一次使用請先注冊一個會員賬號,還可以設置語言為中文。
平臺地址:https://sensecraft.seeed.cc/ai/#/model
2、在頂部單擊【預訓練模型】菜單,在公共AI模型列表9中找到【帳篷檢測】模型,單擊此模型圖片,如下圖所示。
3、進入【帳篷檢測】模型介紹頁面,單擊右側的“部署模型”按鈕,如下圖所示。
4、進入部署帳篷檢測模型頁面,按提示步驟先連接攝像頭,再連接設備到電腦USB接口上,最后單擊【連接設備】按鈕,如下圖所示。
5、彈出部署模型窗口,單擊“確定”按鈕,如下圖所示。
6、彈出連接到串行端口窗口,選擇端口號后單擊“連接”按鈕,如下圖所示。
7、開始進行模型部署、固件下載、設備重啟等過程,完成后在預覽中即可看到當前攝像頭視頻內容,將攝像頭對準露營中的帳篷圖片查看預測效果,如下圖所示。
預測效果視頻演示
Grove Al視覺模塊 V2套裝介紹
Grove Al視覺模塊 V2
OV5647-62攝像頭
Grove - Vision Al Module V2是一款拇指大小的人工智能視覺模塊, 配備Himax WiseEye2 HX6538處理器, 該處理器采用 ArmCortex-M55雙核架構。
它具有標準的CSI接口, 并與樹莓派相機兼容。它有一個內置的數字麥克風和SD卡插槽。它非常適用于各種嵌入式視覺項目。
有了SenseCraft Al算法平臺, 經過訓練的ML模型可以部署到傳感器, 而不需要編碼。它兼容XIAO系列和Arduino生態系統, 是各種物體檢測應用的理想選擇。
Arm Ethos-U55 嵌入式神經網絡處理器(NPU)
嵌入式神經網絡處理器(NPU)是一種特別設計用于執行神經網絡計算的高效率處理器。它主要基于數據驅動并行計算架構,特別擅長處理視頻、圖像等大量的多媒體數據。NPU模仿了生物神經網絡的架構,與CPU、GPU相比,它能夠通過更少的指令(一條或幾條)完成神經元的處理,因此在深度學習的處理效率方面具有明顯優勢。
它具有標準的CSI接口, 并與樹莓派相機兼容。它有一個內置的數字麥克風和SD卡插槽。它非常適用于各種嵌入式視覺項目。
有了SenseCraft Al算法平臺, 經過訓練的ML模型可以部署到傳感器, 而不需要編碼。它兼容XIAO系列和Arduino生態系統, 是各種物體檢測應用的理想選擇。
主要硬件配置
- 板卡基于WiseEye2 HX6538處理器, 采用雙核ARM Cortex-M55架構 。
- 配備集成Arm Ethos-U55微神經網絡加速單元, 兼容的樹莓派相機
- 板載PDM麥克風, SD卡插槽, Type-C, Grove接口, 豐富的外設支持樣機開發 。
- Seeed Studio XIAO的可擴展性, SenseCraft Al的現成AI模型用于無代碼部署。
- 支持各種有效的模型, 包括MobilenetV1、MobilenetV2、 Eficientnet-Lite、Yolov5和Yolov8。
寫在最后
SenseCraft-AI平臺的模型倉數量還很少,但是好消息是它支持自定義模型上傳并輸出推理結果,平臺會逐漸增加模型倉的數量和分享有愛好者設計的模型倉原型,敬請關注!
-
解碼器
+關注
關注
9文章
1143瀏覽量
40741 -
人工智能
+關注
關注
1791文章
47274瀏覽量
238468 -
目標檢測
+關注
關注
0文章
209瀏覽量
15611
原文標題:模型案例:| 帳篷檢測模型!
文章出處:【微信號:ChaiHuoMakerSpace,微信公眾號:柴火創客空間】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論