在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習-會開發AI的AI:超網絡有望讓深度學習大眾化

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-10-13 09:30 ? 次閱讀

會開發AI的AI:超網絡有望讓深度學習大眾化

超網絡(hypernetwork)可以加快訓練AI的過程。

編者按:在執行特定類型任務,如圖像識別、語音識別等方面,AI已經可以與人類相媲美了,甚至有時候已經超越了人類。但這些AI事先必須經過訓練,而訓練是個既耗時又耗計算能力的過程,有上百萬甚至幾十億的參數需要優化。但最近研究人員做出了能瞬時預測參數的超網絡。通過利用超網絡(hypernetwork),研究人員現在可以先下手為強,提前對人工神經網絡進行調優,從而節省部分訓練時間和費用。文章來自編譯。譯者:boxi。

劃重點:

人工智能是一場數字游戲,訓練耗時耗力

網絡可以在幾分之一秒內預測出新網絡的參數

超網絡的表現往往可以跟數千次 SGD 迭代的結果不相上下,有時甚至是更好

超網絡有望讓深度學習大眾化

人工智能在很大程度上是一場數字游戲。10 年前,深度神經網絡(一種學習識別數據模式的 AI 形式)之所以開始超越傳統算法,那是因為我們終于有了足夠的數據和處理能力,可以充分利用這種AI。

現如今的神經網絡對數據和處理能力更加渴望。訓練它們需要對表征參數的值進行仔細的調整,那些參數代表人工神經元之間連接的強度,有數百萬甚至數十億之巨。其目標是為它們找到接近理想的值,而這個過程叫做優化,但訓練網絡達到這一點并不容易。 DeepMind研究科學家Petar Veli?kovi? 表示:“訓練可能需要數天、數周甚至數月之久”。

但這種情況可能很快就會改變。加拿大安大略省圭爾夫大學(University of Guelph)的Boris Knyazev和他的同事設計并訓練了一個“超網絡”——這有點像是凌駕于其他神經網絡之上的最高統治者——用它可以加快訓練的過程。給定一個為特定任務設計,未經訓練的新深度神經網絡,超網絡可以在幾分之一秒內預測出該新網絡的參數,理論上可以讓訓練變得不必要。由于超網絡學習了深度神經網絡設計當中極其復雜的模式,因此這項工作也可能具有更深層次的理論意義。

目前為止,超網絡在某些環境下的表現出奇的好,但仍有增長空間——考慮到問題的量級,這是很自然的。如果他們能解決這個問題,Veli?kovi?說:“這將對機器學習產生很大的影響。”。

變成“超網絡”

目前,訓練和優化深度神經網絡最好的方法是隨機梯度下降(SGD) 技術的各種變種。訓練涉及到將網絡在給定任務(例如圖像識別)中所犯的錯誤最小化。 SGD 算法通過大量標記數據來調整網絡參數,并減少錯誤或損失。梯度下降是從損失函數的高位值一級級向下降到某個最小值的迭代過程,代表的是足夠好的(或有時候甚至是可能的最好)參數值。

但是這種技術只有在你有需要優化的網絡時才有效。為了搭建最開始的神經網絡(一般由從輸入到輸出的多層人工神經元組成),工程師必須依靠自己的直覺和經驗法則。這些結構在神經元的層數、每層包含的神經元數量等方面可能會有所不同。

pYYBAGNHajiAK8DyAAIZT-0JZkc571.jpg

梯度下降算法讓網絡沿著其“損失景觀”向下走,其中高位值表示較大錯誤或損失。算法旨在找到全局最小值,讓損失最小化。

理論上可以從多個結構出發,然后優化每個結構并選出最好的。但Google Brain 訪問學者 MengYe Ren 說:“訓練需要花費相當多的時間,要想訓練和測試每以個候選網絡結構是不可能的。這種做法擴展不好,尤其是如果要考慮到數百萬種可能設計的話。”

于是 2018 年,Ren 與自己在多倫多大學的前同事 Chris Zhang ,以及他們的指導 Raquel Urtasun 開始嘗試一種不同的方法。他們設計出一種所謂的圖超網絡(Graph Hypernetwork, GHN),這種網絡可以在給出一組候選結構的情況下,找出解決某個任務的最佳深度神經網絡結構。

顧名思義,“圖”指的是深度神經網絡的架結構,可以認為是數學意義的圖——由線或邊連接的點或節點組成的集合。此處節點代表計算單元(通常是神經網絡的一整層),邊代表的是這些單元互連的方式。

原理是這樣的。圖超網絡從任何需要優化的結構(稱其為候選結構)開始,然后盡最大努力預測候選結構的理想參數。接著將實際神經網絡的參數設置為預測值,用給定任務對其進行測試。Ren 的團隊證明,這種方法可用于來對候選結構進行排名,并選擇表現最佳的結構。

當 Knyazev 和他的同事想出圖超網絡這個想法時,他們意識到可以在此基礎上進一步開發。在他們的新論文里,這支團隊展示了 GHN 的用法,不僅可以用來從一組樣本中找到最佳的結構,還可以預測最好網絡的參數,讓網絡表現出絕對意義上的好。在其中的最好還沒有達到最好的情況下,還可以利用梯度下降進一步訓練該網絡。

在談到這項新工作時,Ren 表示:“這篇論文非常扎實,里面包含的實驗比我們多得多。他們在非常努力地提升圖超網絡的絕對表現,這是我們所樂見的。”

訓練“訓練師”

Knyazev和他的團隊將自己的超網絡稱為是 GHN -2,這種網絡從兩個重要方面改進了Ren及其同事構建的圖超網絡。

首先,他們需要依賴 Ren 等人的技術,用圖來表示神經網絡結構。該圖里面的每個節點都包含有關于執行特定類型計算的神經元子集的編碼信息。圖的邊則描述了信息是如何從一個節點轉到另一節點,如何從輸入轉到輸出的。

他們借鑒的第二個想法是一種方法,訓練超網絡來預測新的候選結構的方法。這需要用到另外兩個神經網絡。第一個用來開啟對原始候選圖的計算,更新與每個節點相關的信息,第二個把更新過的節點作為輸入,然后預測候選神經網絡相應計算單元的參數。這兩個網絡也有自己的參數,在超網絡能夠正確預測參數值之前,必須對這兩個網絡進行優化。

poYBAGNHajmABYcmAALSvZf_Snw782.jpg

用圖來表示神經網絡

為此,你得訓練數據——在本案例中,數據就是可能的人工神經網絡(ANN)結構的隨機樣本。對于樣本的每一個結構,你都要從圖開始,然后用圖超網絡來預測參數,并利用預測的參數對候選 ANN進行初始化。然后該ANN會執行一些特定任務,如識別一張圖像。通過計算該ANN的損失函數來更新做出預測的超網絡的參數,而不是更新該ANN的參數以便做出更好的預測。這樣以來,該超網絡下一次就能做得更好。現在,通過遍歷部分標記訓練圖像數據集的每一張圖像,以及隨機樣本結構里面的每一個ANN,一步步地減少損失,直至最優。到了一定時候,你就可以得到一個訓練好的超網絡。

由于Ren 的團隊沒有公開他們的源代碼,所以Knyazev 的團隊采用上述想法自己從頭開始寫軟件。然后Knyazev及其同事在此基礎上加以改進。首先,他們確定了 15 種類型的節點,這些節點混合搭配可構建幾乎任何的現代深度神經網絡。在提高預測準確性方面,他們也取得了一些進展。

最重要的是,為了確保 GHN-2 能學會預測各種目標神經網絡結構的參數,Knyazev 及其同事創建了一個包含 100 萬種可能結構的獨特數據集。Knyazev 說:“為了訓練我們的模型,我們創建了盡量多樣化的隨機結構”。

因此,GHN-2 的預測能力很有可能可以很好地泛化到未知的目標結構。Google Research的Brain Team研究科學家 Thomas Kipf 說:“比方說,人們使用的各種典型的最先進結構他們都可以解釋,這是一大重大貢獻。”

結果令人印象深刻

當然,真正的考驗是讓 GHN-2 能用起來。一旦 Knyazev 和他的團隊訓練好這個網絡,讓它可以預測給定任務(比方說對特定數據集的圖像進行分類)的參數之后,他們開始測試,讓這個網絡給隨機挑選的候選結構預測參數。該新的候選結構與訓練數據集上百萬結構當中的某個也許具備相似的屬性,也可能并不相同——有點算是異類。在前一種情況下,目標結構可認為屬于分布范圍內;若是后者,則屬于分布范圍外。深度神經網絡在對后者進行預測時經常會失敗,所以用這類數據測試 GHN-2 非常重要。

借助經過全面訓練的 GHN-2,該團隊預測了 500 個以前看不見的隨機目標網絡結構的參數。然后將這 500 個網絡(其參數設置為預測值)與使用隨機梯度下降訓練的相同網絡進行對比。新的超網絡通常可以抵御數千次 SGD 迭代,有時甚至做得更好,盡管有些結果更加復雜。

借助訓練好的 GHN-2 模型,該團隊預測了 500 個之前未知的隨機目標網絡結構的參數。然后將這 500 個(參數設置為預測值的)網絡與利用隨機梯度下降訓練的同一網絡進行對比。盡管部分結果有好有壞,但新的超網絡的表現往往可以跟數千次 SGD 迭代的結果不相上下,有時甚至是更好。

對于圖像數據集 CIFAR-10 ,GHN-2 用于分布范圍內的結構得到的平均準確率為 66.9%,而用經過近 2500 次 SGD 迭代訓練出來的網絡,其平均準確率為 69.2%。對于不在分布范圍內的結構,GHN-2 的表現則出人意料地好,準確率達到了約 60%。尤其是,對一種知名的特定深度神經網絡架構, ResNet-50, GHN2的準確率達到了 58.6% 這是相當可觀的。在本領域的頂級會議 NeurIPS 2021 上,Knyazev說:“鑒于 ResNet-50 比我們一般訓練的結構大了有大概 20 倍,可以說泛化到 ResNet-50 的效果出奇地好。”。

不過GHN-2 應用到 ImageNet 上卻表現不佳。ImageNet 這個數據集規模很大。平均而言,它的準確率只有 27.2% 左右。盡管如此,跟經過 5000SGD 迭代訓練的同一網絡相比,GHN-2的表現也要好一些,后者的平均準確度只有 25.6%。 (當然,如果你繼續用 SGD 迭代的話,你最終可以實現95% 的準確率,只是成本會非常高。)最關鍵的是,GHN-2 是在不到一秒的時間內對ImageNet 做出了參數預測,而如果用 SGD 在GPU上預測參數,要想達到同樣的表現,花費的平均時間要比 GHN-2 要多 10000 倍。

Veli?kovi?說:“結果絕對是令人印象深刻。基本上他們已經極大地降低了能源成本。”

一旦GHN-2 從結果樣本中為特定任務選出了最佳的神經網絡,但這個網絡表現還不夠好時,至少該模型已經過了部分訓練,而且可以還進一步優化了。與其對用隨機參數初始化的網絡進行 SGD,不如以 GHN-2 的預測作為起點。Knyazev 說:“基本上我們是在模仿預訓練”。

超越 GHN-2

盡管取得了這些成功,但Knyazev 認為剛開始的時候機器學習社區會抵制使用圖超網絡。他把這種阻力拿來跟 2012 年之前深度神經網絡的遭遇相比擬。當時,機器學習從業者更喜歡人工設計的算法,而不是神秘的深度網絡。但是,當用大量數據訓練出來的大型深度網絡開始超越傳統算法時,情況開始逆轉。Knyazev :“超網絡也可能會走上同樣的道路。”

與此同時,Knyazev 認為還有很多的改進機會。比方說,GHN-2 只能訓練來預測參數,去解決給定的任務,比如對 CIFAR-10 或 ImageNet 里面的圖像進行分類,但不能同時執行不同的任務。將來,他設想可以用更加多樣化的結果以及不同類型的任務(如圖像識別、語音識別與自然語言處理)來訓練圖超網絡。然后同時根據目標結構與手頭的特定任務來做出預測。

如果這些超網絡確實能成功的話,那么新的深度神經網絡的設計和開發,將不再是有錢和能夠訪問大數據的公司的專利了。任何人都可以參與其中。Knyazev 非常清楚這種“讓深度學習大眾化”的潛力,稱之為長期愿景。

然而,如果像GHN -2 這樣的超網絡真的成為優化神經網絡的標準方法, Veli?kovi?強調了一個潛在的大問題。他說,對于圖超網絡,“你有一個神經網絡——本質上是一個黑盒子——預測另一個神經網絡的參數。所以當它出錯時,你無法解釋[它]。”

不過,Veli?kovi? 強調,如果類似 GHN-2 這樣的超網絡真的成為優化神經網絡的標準方法的話,可能會有一個大問題。他說:“你會得到一個基本上是個黑箱的神經網絡,然后再用圖超網絡去預測另一個神經網絡的參數。如果它出錯,你沒法解釋錯在哪里。”

當然,神經網絡基本上也是這樣。Veli?kovi?說:“我不會說這是弱點,我把這叫做告警信號。”

不過Kipf看到的卻是一線希望。 “讓我最為興奮的是其他東西。” GHN-2 展示了圖神經網絡在復雜數據當中尋找模式的能力。

通常,深度神經網絡是在圖像、文本或音頻信號里面尋找模式,這類信息一般都比較結構化。但 GHN-2 卻是在完全隨機的神經網絡結構圖里面尋找模式。而圖是非常復雜的數據。

還有,GHN-2 可以泛化——這意味著它可以對未知、甚至不在分布范圍內的網絡結構的參數做出合理的預測。Kipf 說:“這項工作向我們表明,不同結構的很多模式其實多少是優點相似的,而且模型能學習如何將知識從一種結構轉移到另一種結構,這可能會啟發神經網絡新理論的誕生。”

如果是這樣的話,它可能會讓我們對這些黑箱有新的、更深入的理解。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31325

    瀏覽量

    269688
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121355
收藏 人收藏

    評論

    相關推薦

    AI自動化生產:深度學習在質量控制中的應用

    隨著科技的飛速發展,人工智能(AI)與深度學習技術正逐步滲透到各個行業,特別是在自動化生產中,其潛力與價值愈發凸顯。深度學習軟件不僅使人工和
    的頭像 發表于 01-17 16:35 ?57次閱讀
    <b class='flag-5'>AI</b>自動化生產:<b class='flag-5'>深度</b><b class='flag-5'>學習</b>在質量控制中的應用

    NPU在深度學習中的應用

    隨著人工智能技術的飛速發展,深度學習作為其核心驅動力之一,已經在眾多領域展現出了巨大的潛力和價值。NPU(Neural Processing Unit,神經網絡處理單元)是專門為深度
    的頭像 發表于 11-14 15:17 ?738次閱讀

    AI干貨補給站 | 深度學習與機器視覺的融合探索

    ,幫助從業者積累行業知識,推動工業視覺應用的快速落地。本期亮點預告本期將以“深度學習與機器視覺的融合探索”為主題,通過講解深度學習定義、傳統機器視覺與
    的頭像 發表于 10-29 08:04 ?252次閱讀
    <b class='flag-5'>AI</b>干貨補給站 | <b class='flag-5'>深度</b><b class='flag-5'>學習</b>與機器視覺的融合探索

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習
    的頭像 發表于 10-23 15:25 ?1047次閱讀

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    人工智能在科學研究中的核心技術,包括機器學習深度學習、神經網絡等。這些技術構成了AI for Science的基石,使得
    發表于 10-14 09:16

    FPGA做深度學習能走多遠?

    。FPGA的優勢就是可編程可配置,邏輯資源多,功耗低,而且賽靈思等都在極力推廣。不知道用FPGA做深度學習未來怎樣發展,能走多遠,你怎么看。 A:FPGA 在深度
    發表于 09-27 20:53

    NVIDIA推出全新深度學習框架fVDB

    在 SIGGRAPH 上推出的全新深度學習框架可用于打造自動駕駛汽車、氣候科學和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發表于 08-01 14:31 ?644次閱讀

    PyTorch深度學習開發環境搭建指南

    PyTorch作為一種流行的深度學習框架,其開發環境的搭建對于深度學習研究者和開發者來說至關重要
    的頭像 發表于 07-16 18:29 ?1175次閱讀

    基于AI深度學習的缺陷檢測系統

    在工業生產中,缺陷檢測是確保產品質量的關鍵環節。傳統的人工檢測方法不僅效率低下,且易受人為因素影響,導致誤檢和漏檢問題頻發。隨著人工智能技術的飛速發展,特別是深度學習技術的崛起,基于AI深度
    的頭像 發表于 07-08 10:30 ?1591次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度
    的頭像 發表于 07-05 09:47 ?1006次閱讀

    深度學習與卷積神經網絡的應用

    隨著人工智能技術的飛速發展,深度學習和卷積神經網絡(Convolutional Neural Network, CNN)作為其中的重要分支,已經在多個領域取得了顯著的應用成果。從圖像識別、語音識別
    的頭像 發表于 07-02 18:19 ?971次閱讀

    深度學習的模型優化與調試方法

    深度學習模型在訓練過程中,往往遇到各種問題和挑戰,如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學習模型進行優化與調試是確保其性能優越的
    的頭像 發表于 07-01 11:41 ?915次閱讀

    泰禾智能攜AI智選深度學習系列新品亮相臨沂花生展

    6月28-29日,2024年第十一屆花生產業博覽會在臨沂國際會展中心盛大開幕。泰禾智能攜AI智選深度學習系列新品精彩亮相展會,以其卓越的技術實力和前沿的產品創新,為用戶帶來更加智能、高效、便捷
    的頭像 發表于 06-29 14:19 ?776次閱讀

    FPGA在深度學習應用中或將取代GPU

    基礎設施,人們仍然沒有定論。如果 Mipsology 成功完成了研究實驗,許多正受 GPU 折磨的 AI 開發者將從中受益。 GPU 深度學習面臨的挑戰 三維圖形是 GPU 擁有如此
    發表于 03-21 15:19

    【技術科普】主流的深度學習模型有哪些?AI開發工程師必備!

    深度學習在科學計算中獲得了廣泛的普及,其算法被廣泛用于解決復雜問題的行業。所有深度學習算法都使用不同類型的神經網絡來執行特定任務。 什么是
    的頭像 發表于 01-30 15:26 ?660次閱讀
    【技術科普】主流的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>模型有哪些?<b class='flag-5'>AI</b><b class='flag-5'>開發</b>工程師必備!
    主站蜘蛛池模板: 毛片网站在线| 国产男女怕怕怕免费视频| 狠狠激情五月综合婷婷俺| 性free3d| 日日干狠狠操| 成成人看片在线| 久久99精品久久久久久久野外 | 国产真实乱在线更新| 在线女同免费观看网站| 久久久国产精品网站| 欧美两性网| 欧亚激情偷乱人伦小说视频| 手机在线色| 亚洲free| 五月综合激情久久婷婷| 色婷婷综合在线| 视频免费黄色| 欧美在线观看www| 国产伦理一区二区三区| 久久婷婷国产精品香蕉| 岛国片欧美一级毛片| 广东毛片| 成年大片免费播放视频人| 天天天天天天操| 日韩插插| 在线播放免费人成毛片乱码| 波多野吉衣一区二区三区在线观看| 国产精品午夜在线观看| 女bbbbxxxx毛片视频丶| 日本加勒比视频在线观看| 天天草天天爽| 日韩一级片免费在线观看| 99插插| 免费观看午夜在线欧差毛片 | 玖玖爱这里只有精品| 你懂的在线免费| 美女国产精品| 一级片在线观看免费| 天天爽夜夜爽人人爽曰喷水| riav久久中文一区二区| 美女被免费网站在线视频九色|