深度學習是機器學習算法研究中新開辟的研究方向,在圖像領域的應用是最開始的嘗試。近年以來,計算機視覺領域和 CNN 網絡結構的不斷更新發展,出現了一批代表性的深度卷積神經網絡。本章節主要介紹目標檢測算法 YOLO 系列借鑒了設計思想的這些框架,分別是:Le Net、Alex Net、VGG、Goog Le Net和 Res Net。表 1 所示,介紹了代表性的 CNN 結構基本情況。
1 LeNet
LeNet 卷積神經網絡是由深度學習三巨頭之一的 Yan Le Cun于 1994 年提出來的。其對構建的 MNIST手寫字符數據集進行分類。LeNet 的提出確立了 CNN 的基本網絡架構。如下圖所示,Le Net 通過輸入32 ×32 字符矩陣經過卷積層、下采樣層、全連接層進行圖像的分類識別。但因為當時硬件技術的局限性和訓練數據的不豐富性,Le Net 模型的運算效果并不是特別突出,但此特征網絡的提出,為后續 Alex Net 的出現提供了重要的參考。
2 Alex Net
Alex Net的出現,標志著深度卷積神經網絡開啟了創新的新時代。之前由于硬件技術的局限性,CNN的學習能力、圖像分類能力有限,而在 2012 年提出的卷積神經網絡 Alex Net 采用了兩個 GPU(NVIDIA GTX 580)來訓練模型,然后將兩個 GPU 上的特征圖進行合并,采用的數據集是 Image Net(1500 多萬個標記的圖像,2.2萬個類別),并在2012 ILSVRC大賽以優異的性能在計算機視覺領域展現了自己的實力。如圖下圖所示,Alex Net 的網絡結構包括 5 層卷積、3 層池化和 3 層全連接,特征提取能力得到了提高,對大規模的數據集有更好的擬合能力。并且,在訓練階段,通過在模型隨機的添加幾個轉換單元來確保網絡具有較好的魯棒性。其結構創新的要點為:
(1)使用 Re LU 作為非線性激活函數,減少梯度消失現象,提高收斂率,減少訓練時間。
(2)使用大尺寸卷積核(5×5和11×11),提高網絡感受野。 (3)加入 Drop Out 層抑制過擬合。 (4)使用數據增強技術,對圖像進行訓練時,隨機的添加平移縮放、裁剪旋轉、翻轉或增減亮度等操作,產生一系列和輸入圖像相似但又不相同的數據,從而擴充了訓練的數據集。
3 VGG
VGG(Visual Geometry Group)多層網絡模型,比 Alex Net 和 Zef Net 的深度多了 19 層,驗證了在網絡結構上增加深度可以直接影響模型性能。VGG 有兩種結構,分為 VGG16 和 VGG19,這二者的區別只在于網路深度不同。VGG 的設計思想是增加網絡深度,改用小尺寸的卷積核。如下圖所示,具體操作為:采用 3 個3×3 卷積核來替換 Alex Net 中的 7×7 卷積核,采用 2 個3×3 卷積核替換5×5卷積核,這樣的設計可以在保證具有相同感受野的前提下,增加網絡深度,提升模型效果,且改用小的3×3 Filters 可減少模型參數量和運算量,可以更好地保留圖像特征信息。具體的改進優點總結為以下幾點:
(1)采用3×3 小濾波器替換大尺寸卷積核
(2)替換卷積核后,卷積層的感受野相同
(3)每層卷積操作后通過 Re LU 激活函數和批處理梯度下降訓練
(4)驗證了增加網絡深度,可以提升模型性能 雖然,VGG 在 2014 年因其更深的網絡結構和計算低復雜度的優勢,使其在圖像分類和定位問題上取得了很好地成績,但它使用了 1.4 億個參數,計算量很大,這是它的不足之處。
4 Goog Le Net
Goog Le Net是由 Google 提出的,獲得了 Image Net 大賽冠軍。其架構設計的核心是在保證高水準的精確性 Inception 的目標前提下,降低模型的計算成本。與 VGG 相比,Goog Le Net 是一個網絡深度為 22 層的卷積神經網絡,它不以傳統 CNN 卷積層的串聯堆疊為架構基礎,而是創新的提出了 Inception 結構,用NIN(Networkin-Network)替換普通卷積層。如下圖所示,該結構包含了 5×5 、 3×3 、1×1 濾波器,以便于在不同空間分辨率范圍內捕捉通道信息和空間特征,添加一個1×1濾波器,作為 Bottle Neck ,來提高網絡的效率,提升模型學習特征的能力。使用平均池化層代替全連接層,將 7×7×1024 的體積降到了 1×1×1024 ,減少了大量的參數。此外,Goog Le Net 還提出了輔助分類器 Soft Max,以加快收斂速度。但 Goog Le Net 也有短板,其表征堵塞會減少下一層的特征空間,反過來又可能會丟失有用的特征。
5 Res Net
Res Net(Residual Network)殘差網絡是 Kaiming He提出來的,并在 2015 ILSVRC 大賽以 3.57%的錯誤率獲得了冠軍。在之前的網絡中,當模型深度不夠,其網絡識別能力不強,但當網絡堆疊(Plain Network)很深的時候,網絡梯度消失和梯度彌散現象明顯,導致模型的運算效果卻不升反降。因此,鑒于此深層網絡的退化問題,Res Net 設計了一個不存在梯度消失問題的超深度網絡。Res Net 根據層數的不同,從 18 層到 1202 層,有多種類型。以 Res Net50 為例,它由 49 個卷積層和 1 個全連接層組成,如下圖所示。這種簡單的加法并不會給網絡增加額外的參數和計算量,同時卻可以大大增加模型的訓練速度、提高訓練效果,并且當模型的層數加深時,這個簡單的結構能夠很好的解決退化問題。Res Net 提出了短徑連接,當網絡性能已達到最優,繼續加深網絡,殘差映射將被設置為 0,只剩下恒等映射,加速網絡收斂,這樣就可以使得網絡一直處于最優狀態了,網絡的性能也就不會隨著深度增加而降低了。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100766 -
圖像分類
+關注
關注
0文章
90瀏覽量
11918 -
深度學習
+關注
關注
73文章
5503瀏覽量
121162
原文標題:圖像分類模型的發展
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論