2019年12月30日,由中國金融信息中心、中國科學院上海分院主辦,中科院院士上海浦東活動中心協辦,與浙江省新昌縣人民政府全程戰略合作,中國信息通信研究院華東分院(簡稱“中國信通院華東分院”)特別支持的“海上院士講壇”特別專場在中國金融信息中心舉行。人工智能和信息科學領域國際知名學者、澳大利亞科學院院士、悉尼大學教授陶大程博士受邀做“走進人工智能 探索深度學習”主題演講。
以下為會議實錄:
領導致辭
中國金融信息中心副總裁張鳳明
中國金融信息中心副總裁張鳳明在致辭中表示,作為新一輪科技革命和產業變革的重要驅動力量,人工智能正在深刻改變世界。上海市委書記李強指出,上海將把發展人工智能作為優先戰略選擇,主動謀劃,加緊布局,密集發力,加快建設人工智能發展的“上海高地”,全力打造要素齊全、開放協同的良好生態。近期,為加快建設上海金融科技中心,市有關部門制定了《關于加快推進上海金融科技中心建設的實施方案》,方案指出要聚焦大數據、人工智能、5G等新技術,推進金融科技核心技術研發及應用。
無論是政策層面,還是應用場景和市場,人工智能已是未來已來。今天我們很榮幸地請到了人工智能和信息科學領域國際知名學者,澳大利亞科學院院士、歐洲科學院外籍院士陶大程為我們暢談人工智能與深度學習理論,分享前沿觀點。
中國金融信息中心是新華社直屬機構,是新華社和上海市政府戰略合作的成果,服務于上海國際金融中心建設的國家戰略,是一個開放、服務、共享、多贏的專業化、國際化平臺。上海國際金融中心的建設,背后必然需要信息、知識和智慧中心的支撐,我們舉辦的眾多講壇、活動匯聚思想、傳播聲音,為推進上海金融科技中心發聲,也希望能為構建人工智能發展的“上海高地”貢獻力量。
中國信通院華東分院副院長匡曉烜
中國信通院華東分院副院長匡曉烜表示,現實生活中,人工智能技術正面臨著許多待解決的難題,人工智能的應用還存在很大的局限性,它的發展需要政府、學術界、產業界等多方協同,共創共贏。作為由中國信息通信研究院(簡稱“中國信通院”)、上海市經濟和信息化委員會等聯合共建的地方政府智庫和研發創新平臺,中國信通院華東分院正致力于人工智能領域的研究和發展。
中國信通院華東分院這次有幸邀請到陶大程博士出席“海上院士講壇”特別專場, 陶教授作為人工智能和信息科學領域國際知名學者,是澳大利亞科學院院士、悉尼大學教授,在人工智能領域,包括計算機視覺、機器學習、表征學習及相關應用等方面做出了卓越的貢獻。2014年陶教授當選IEEE Fellow,2019年當選ACM Fellow。12月30日是一場跨年演講,希望他在深度學習領域的探索心得將為大家帶來啟發和思考。
主旨演講
澳大利亞科學院院士、悉尼大學教授陶大程博士
人工智能和信息科學領域國際知名學者、澳大利亞科學院院士、悉尼大學教授陶大程博士從“什么是深度學習、為什么要深度學習、為什么要使用殘差連接skip connections、深度學習中的部分超參的關系、深度神經網絡的風險函數的性質、對抗生成網絡的重要性、以及未來在倫理道德框架下構建四元融合一體的人工智能系統的重要性”等方面剖析了人工智能與深度學習理論。
什么是深度學習?
我們今天演講的內容是人工智能中的一個關鍵技術--深度學習。首先我們探討一下,什么是人工智能?根據維基百科的解釋:人工智能就是機器所展示出來的智能,人工智能的目的是用機器模仿人的智能,那就要求我們理解人的智能。人的智能包括四個方面,Perceiving、Learning、Reasoning和Behaving。所以我們對人工智能期望是:在符合人的倫理道德規范的框架下,能夠有效地去實現并且整合這四個方面的智能。
談到人工智能,目前大家一定會想到的技術就是深度學習。深度學習在今天的機器視覺領域里無處不在,比如上面顯示的這張圖是我們在2018年的時候做的一個demo的截圖,使用我們自己的算法和模型,一年多以前就已經可以做精確的場景分割、實例分割、單目標跟蹤、多目標跟蹤、人體姿態估計、人臉檢測、人臉的特征點檢測、人臉的表情分析、年齡估計、性別的識別等,甚至如果我們有每一個人的參考圖像,我們還可以識別出每一個人。利用深度學習技術,我們還可以估算出圖像中每一個人或者每一個物體到攝像機的距離。
除了從圖象和視頻中精準的獲取這些基礎語義信息,深度學習還能處理圖像,比如去噪、去霧、去雨、去模糊、超分辨等。這里展示了三張非常模糊的照片,看到這樣的圖像,我們會很自然的想到這樣的問題:為什么照相的時候會產生模糊?過去我們拿到這樣的照片,主要考慮如何有效的去除模糊,今天有了深度學習,我們能夠想一些更有意思的事情。既然模糊是由于相機運動產生的,那么有運動,我們是不是可以把這個視頻恢復出來?是不是可以把場景的光流恢復出來?甚至是不是可以把整個場景的三維結構恢復出來?2019年的CVPR上,我們首次利用深度學習成功的從單張模糊圖像中把場景的三維結構恢復出來。
深度學習似乎完全改變了機器視覺研究的基本方案和思路,可以說今天的機器視覺,幾乎離不開深度學習。不少人也詬病深度學習沒有實質的技術進展,只是傳統的神經網絡進行了加深。目前的成功應用,主要的貢獻來自于大數據、超級計算(或者說是云計算)。有了大數據、有了云計算,才能使得我們今天的深度學習能夠訓練成功,這一切的原動力很大程度上要歸功于產業界的需求、政府的需求、以及我們自身的需求。
深度學習,為什么要深以及其它基本問題
目前的深度學習是不是僅僅是網絡層的簡單堆疊?它對于機器視覺等領域的貢獻到底是什么呢?要深入理解這樣的問題,我們需要回到統計學習。
我們知道統計學習涉及訓練誤差、測試誤差和泛化誤差。隨著模型復雜度的增加,訓練誤差一定是減小的,但是泛化誤差是增加的。所以我們需要找到訓練誤差和泛化誤差的平衡點,保證測試誤差盡可能的小。
如果說隨著網絡層數的增加,泛化誤差是增加的,那訓練極深層網絡的意義是什么?我們也知道訓練神經網絡的時候,各個公司之前都標榜可以訓練更深的神經網絡模型。而事實也是,隨著網絡層數的增加,只要訓練得當,測試誤差也通常是減小的。這似乎與我們的傳統認識是矛盾的:因為越深的神經網絡,參數空間越大,模型復雜度也應該越高。傳統的統計學習理論認為,參數空間越大,模型復雜度越高,那么它對訓練數據的擬合能力就越強,但是泛化能力會變得越差。對于一個機器學習模型,如果它的訓練誤差遠小于測試誤差,那么它就發生了過擬合。因此,在現有的統計學習理論框架下,對于神經網絡,有兩個尚未解決的問題:首先,為什么模型復雜度非常高的深度神經網絡,不會發生過擬合?其次,深度神經網絡是越深越好嗎?我們最近的研究有三個觀察(“An Information-Theoretic View for Deep Learning”):
和傳統的淺層學習模型(例如,SVM)不同,深度神經網絡具有層級的特征映射結構。神經網絡的這種層級的結構是否是在模型復雜度很高的情況下,避免發生過擬合的關鍵呢?我們的工作肯定地回答了這個問題:層級結構是深度神經網絡泛化能力的關鍵保證。
1、 傳統的泛化誤差上界,都是通過模型的函數空間的復雜度來估計的,例如VC維,Rademacher復雜度。這種估計忽略了數據分布,考慮模型的函數空間里最壞的情況。因此泛化誤差上界的估計對于函數空間很大的深度模型會非常松,而因此不再適用,而實際情況下,模型的泛化能力是和數據分布相關的。受到最近的一些在信息論和自適應數據分析的工作的啟發,我們可以用神經網絡學到的特征T_L和最后一層網絡的參數h的互信息,來作為泛化誤差的上界。直觀地來講,網絡的輸出對于輸入的依賴性越小,其泛化能力越強。
3、受到信息論中數據處理不等式的啟發,只要網絡每一層的映射不是可逆的,例如使用了Relu激活函數,卷積和池化,網絡所學到的特征和最后一層參數的互信息都會隨著層數的增加而減少。因此,網絡越深,模型的泛化能力越強。但是隨著網絡層數的增加,在映射過程中可能會丟失對于數據擬合的有用的信息,這種情況下,在訓練集上的擬合誤差會變大。因此,網絡越深泛化能力雖然隨著層數增加變得更強,但是要想整個網絡性能好,是建立在對訓練數據的擬合誤差很小的情況下。
我們的主要結論是這樣一個泛化誤差的上界,假設網絡的層數為L,那么其泛化誤差會隨著層數的增加而指數衰減。當然這里還有一些假設,比如不能有skip connections。深入理解深度學習的價值和意義,還需要大家付出更多的努力。但是目前的結論已經讓我們有足夠的信心,堅定深度學習這個大方向。
那么殘差鏈接skip connections有什么樣的作用呢?殘差連接已被眾多實驗證明,可以顯著降低神經網絡的訓練難度,且不會降低神經網絡的泛化能力。我們的工作“Why ResNet works? Residual generalize”(TNNLS 2020)使用covering number、Rademacher復雜度等理論工具,給出了ResNet的假設空間復雜度和泛化誤差的上界。這些結果進而和鏈狀網絡的結果進行了比較。比較顯示,引入殘差連接不會增大神經網絡的假設空間復雜度,進而不會降低神經網絡的泛化能力,從而從理論方面驗證了現有的實驗結果。這樣的分析具有相當的普適性,可以用于深入理解ResNeXt、DenseNet、U-Net等目前常用的網絡結構。
神經網絡的訓練過程極端依賴超參數的設置。我們的工作“Control batch size and learning rate to generalize well: Theoretical and empirical evidence”(NeurIPS 2019)從理論和實驗兩個角度,研究學習率和批量規模對神經網絡泛化能力的影響。在理論方面,我們使用Ornstein-Uhlenbeck過程和PAC-Bayes 理論得到了神經網絡的泛化誤差上界。該上界表明,神經網絡的泛化能力和學習率與批量規模的比值負相關。在實驗方面,我們在相同數據集上,基于相同網絡結構,用不同的學習率和批量規模訓練了1600個網絡。這些網絡的測試精度被劃分為164組進行了斯皮爾曼秩相關檢驗,實驗結果充分驗證了上述提到的相關關系。
理解神經網絡風險函數的幾何性質對研究神經網絡的表示能力、優化性質、泛化性質都非常重要 。然而損失曲面(風險函數所對應的曲面)的幾何結構極端復雜,鮮有理論工作進行了精確地刻畫。曾有工作建議,可以把線性網絡(激活函數全部線性的神經網絡)損失曲面的幾何性質推廣到一般網絡。例如,線性網絡中,所有局部最優點都同樣地好,它們都是全局最優點。我們的工作“Piecewise linear activations substantially shape the loss surface of neural networks”(ICLR2020)指出,往線性網絡中引入非常常見的分段線性激活函數(例如,ReLU 和 Leaky-ReLU),可以顯著改變損失曲面的幾何性質。具體來說,我們得到了以下幾個結論:
1、 損失曲面存在無窮多局部最優點劣于全局最優點(這些局部最優點又叫“謬點(spurious local minima)”);
2、 極端不可微且非凸的損失曲面被不可微的邊界劃分為若干幾何性質良好(光滑、多線性)的“細胞”;
3、 在每一個細胞中,所有局部最優點都同樣好,它們都是細胞內的全局最優點;
4、 有無窮多的謬點分布在同一個細胞中,它們連在一起,構成一個聯通的“山谷”;
5、線性網絡的損失曲面也包含在上述理論之中,對應了單細胞的情形。
今天的深度學習,和過去傳統的機器學習或者統計學習,有很好的縱向對比關系。基于統計學習的系統:拿到原始數據之后我們先抽特征,然后是數據降維,最后做分類。這三個步驟的目標往往是不一致的,比如分類的目標是不同類的樣本的邊界最大化、降維的目標是保持數據網差、特征提取是根據數據的一些屬性進行設計的。
過去我們沒有考慮到如何把特征設計、數據降維和分類的目標一致化,因為特征的設計完全是基于人的經驗,非常的復雜。深度學習把特征提取、數據降維和分類整合到了一個網絡框架下,因此這三個步驟的目標都一致了,并且通過數據驅動的方式,深度學習在一定程度上可以減少人對問題的偏見,但是也同時引入的數據對問題的偏見。這也要求我們在構建訓練數據集的時候,要從不同角度考慮問題,減少偏見。
對抗生成網絡的重要性
學習和操控現實世界數據(如圖像)的概率分布是統計和機器學習的主要目標之一,而近些年提出的深度生成對抗網絡(GAN)就是學習復雜數據概率概率分布的常用方法。
GAN網絡一經提出就引起了學術界和工業界的廣泛關注,這是因為這個學習框架在許多生成相關的任務上取得了令人信服的表現,例如圖像生成,圖像“翻譯”和風格變換。但是,現有算法仍面臨許多訓練困難,例如,大多數GAN需要仔細平衡生成器和判別器之間的能力。不適合的參數設置會降低GAN的性能,甚至難以產生任何合理的輸出。根據我們的觀察,現有生成對抗網絡的訓練函數具有不同的優點和缺點,其預定義的對抗優化策略可能導致生成對抗網絡訓練時的不穩定。受自然演化啟發,我們設計了一個用于訓練生成對抗網絡的演化框架。在每次迭代期間,生成器經歷不同的突變以產生多種后代。然后,給定當前學習到的判別器,我們評估由更新的后代產生樣本的質量和多樣性。最后,根據“適者生存”的原則,去除表現不佳的后代,保留剩余的表現良好的發生器并用于進一步對抗訓練。
基于的進化模型的生成對抗網絡克服了個體對抗訓練方法所存在的固有局限性,極大的穩定了生成對抗網絡的訓練過程病提升了生成效果。實驗證明,所提出的E-GAN實現了令人信服的圖像生成性能,并減少了現有GAN固有的訓練問題。
構建四元融合一體的人工智能系統
最近自動機器學習得到了大家的廣泛關注,并且有人說自動機器學習以后,就沒有必要讓人來設計神經網絡了,聽起來特別的震撼。當然也是恐慌,感覺即使沒有相關的基礎知識和對于問題的深入理解,只要有大型計算設備和相關的數據,我們都可以構建高效的人工智能系統。但目前對于一個具體的實際問題,我們還沒有辦法完全依靠自動機器學習來構建人工智能系統,對于問題本身、機器視覺、統計學習等相關方面的深入理解,是我們目前搭建高效人工智能系統的根本。
另外,過去我們基本上是獨立的研究Perceiving、Learning、Reasoning和Behaving這四個方面,包括如何考慮人工智能倫理道德的約束。未來,我們需要在倫理道德框架約束下研究人工智能的四個方面,需要有效的整合這四個方面。這樣的綜合模式(在倫理道德框架約束下的perceiving、learning、reasoning、behaving功能的綜合體)能夠幫助我們實現在特定環境下的高效的人機混合系統或者無人系統。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100773 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238513 -
深度學習
+關注
關注
73文章
5503瀏覽量
121170
發布評論請先 登錄
相關推薦
評論