在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自動機器學習的研究動機

jmiy_worldofai ? 來源:lp ? 2019-04-02 16:20 ? 次閱讀

本文作者第四范式涂威威,該文首發于《中國計算機學會通訊》第15卷第3期

自動機器學習的研究動機

機器學習推薦系統、在線廣告、金融市場分析、計算機視覺、語言學、生物信息學等諸多領域都取得了成功,在這些成功的應用范例中,也少不了人類專家的參與。Google、 Facebook、百度、阿里巴巴、騰訊等科技公司依靠其頂尖的機器學習專家團隊來支撐機器學習在企業內部的各種應用,各類科研機構也在花費大量經費,維護著機器學習科學家團隊。然而,對于很多傳統企業、中小型企業和一般的科研機構,就很難組建出這樣的機器學習專家團隊,其原因是機器學習專家的缺口太大,人才短缺,人才搶奪激烈,專家團隊的管理成本高昂和專家經驗不可復制,等等。

為了機器學習能為更多的企業賦能,在更加廣泛的場景得到應用,有沒有低門檻甚至零門檻的機器學習方法,讓更多的人可以在很少甚至幾乎沒有專業知識的情況下輕松使用,并減少機器學習應用落地對專家人才的依賴?自動機器學習(Automatic/Automated Machine Learning, AutoML)應運而生。其研究目的就是為了使機器學習過程自動化,減少、甚至完全規避人類專家在這個過程中的參與度。

理論出發點

設計機器學習算法是一件困難重重的事情,能否找到一種通用的機器學習算法來解決所有的機器學習問題呢?這個問題在 20 多年前就被解答過,對于所有可能的問題,可以證明的是,如果所有問題同等重要,所有的算法,包括完全隨機的算法,它們的期望性能是一樣的,所有的算法沒有優劣之分,這是著名的沒有免費的午餐 (No Free Lunch, NFL)定理的一個不太嚴謹的直觀闡述。

這個定理意味著尋求一種完全通用的機器學習算法是行不通的。于是,研究人員就開始針對不同的問題展開對應的機器學習研究,這導致了機器學習技術廣泛應用不可復制的問題。在解決某個特例問題的機器學習算法和針對所有問題完全通用的機器學習算法之間,有一種可能性是存在可以解決某一類而不只是某一個特例的相對通用的機器學習算法。自動機器學習就是從這樣的理論考慮出發,試圖去尋找更加通用的機器學習算法。

目前自動機器學習研究的主要場景

靜態閉環自動機器學習

靜態閉環自動機器學習考慮的是靜態機器學習問題,即給定固定的訓練集,不利用外部知識,尋找在測試集上期望表現最好的機器學習模型。經典的機器學習流程包括數據預處理、特征處理和模型訓練。自動機器學習在這三個流程中都有廣泛的研究 :

(1) 數據預處理中,研究數據的自動清洗、樣本的自動選擇、數據的自動增強、數據類型的自動推斷等,以達到理解原始數據和提升數據質量的目標。

(2) 對特征處理方法的研究主要包括自動特征生成和自動特征選擇。自動特征生成的研究包括單特征變換、多特征組合、深度特征生成、特征學習等。自動特征選擇一般會配合自動特征生成使用,先自動生成特征,再進行自動特征選擇,對于復雜的特征處理,一般兩者交替迭代進行。

(3) 模型訓練的研究一般包括自動算法選擇和自動算法配置。自動算法試圖從廣泛的機器學習算法中選擇適合問題的某一個或者某幾個算法,這些算法又有很多的超參數需要配置,自動算法配置則研究如何進行超參數選擇配置,比如如何配置神經網絡結構,實際應用中這兩者也會配合使用。

外部知識輔助的靜態自動機器學習

外部知識輔助的靜態自動機器學習試圖借鑒人類專家選擇數據處理方法、特征處理方法、模型訓練算法等的方式進行自動機器學習。人類專家會從以往處理過的機器學習問題中積累經驗,并將此推廣到之后的機器學習問題中。

動態環境的自動機器學習

動態環境下的自動機器學習研究試圖解決的是數據不斷積累、概念發生漂移時的問題。

核心技術

自動機器學習的研究核心是如何更好地對數據處理方法、特征處理方法、模型訓練方法等基礎部件進行選擇、組合以及優化,以使學習到的模型的期望性能達到最優(見圖 1)。

目前該項研究主要面臨三個難點 :

(1) 超參配置與效果之間的函數無法顯式表達,屬于“黑盒”函數;

(2) 搜索空間巨大,可能的處理方法和組合是指數級,同時不同處理方法擁有各自的超參數,當特征維度超過 20 時,其多目特征組合可能的搜索空間都將遠超圍棋可能的狀態空間 ;

(3) 函數值的每次計算大多涉及數據預處理、特征處理、模型訓練的全流程,函數值的計算代價極其昂貴。為了解決這些問題,采用的核心技術是基礎搜索方法、基于采樣的方法和基于梯度的方法。

圖1 自動機器學習的框架

基礎搜索方法

搜索方法中最常見的是格搜索方法。該方法通過遍歷多維參數組合構成了網格尋求最優化,容易實現,應用廣泛,但是,搜索復雜度隨參數維度呈指數增長,并且會將搜索浪費在不太重要的參數維度上。隨機搜索方法則是對參數空間進行隨機采樣,各個維度相互獨立,克服了維度災難和浪費資源搜索的問題。在實際應用中,隨機搜索方法往往表現得比格搜索要優秀。

基于采樣的方法

基于采樣的方法是被研究得最多的方法,大多也是具有理論基礎的方法,往往比基礎搜索方法表現更優。這類方法一般會生成一個或者多個對樣本空間的采樣點,之后再對這些采樣點進行評估,根據評估的反饋結果進行下一步采樣,最后尋找到相對較優的參數點(見圖 2)。基于采樣的方法分為以下四類:

圖2 基于采樣的方法

基于模型的零階優化方法

該方法試圖建立關于配置參數和最終效果的模型,并依據模型來尋求最優化。這類方法一般先基于已經采樣到的點的效果評估建立模型,然后基于學習到的模型采用某種采樣策略來生成下一個或者下一組采樣點,根據新的采樣點得到的效果進一步更新模型,再采樣迭代,如此尋求對黑盒函數的最優化。由于待優化的函數是“黑盒”函數,在求解過程中只能獲得函數值而不能直接計算函數梯度,因此也被稱為零階優化方法(零階是相對于傳統計算一階或者二階梯度的優化方法)或者非梯度方法。

這類方法有兩個主要的關注點 : 模型和采樣策略。構建的模型一般用來預測配置參數對應的效果。由于采樣依據的模型僅僅是依據之前采樣得到的點的反饋學習,對函數空間未探索區域的估計一般是不太準確的,采樣策略需要在函數最優化和空間探索之間做出權衡,即在開發利用 (exploitation) 和探索 (exploration) 之間做出權衡,簡稱 E&E。

貝葉斯優化是一種基于概率模型的方法,一般采用高斯過程、貝葉斯神經網絡、隨機森林等作為模型,然后采用提升概率、提升期望、交叉熵、GP-UCB 等作為采樣策略,這些策略都在顯式或者隱式地進行 E&E。最常見的是基于高斯過程的貝葉斯優化方法,這類方法在參數維度較低、采樣點較少時表現較優,但是在高維、采樣點較多時就很難被使用,因此有學者嘗試使用貝葉斯神經網絡解決這樣的問題。

基于分類方法的隨機坐標收縮方法 (RAndom COordinate Shrinking, RACOS) 和基于隨機坐標收縮分類模型來進行基于模型的零階優化,有效地解決了貝葉斯優化方法的計算復雜度高、參數類型受限的問題,它一般采用最簡單的 ε-greedy 方法來進行 E&E。隨機坐標收縮方法被證明在高維度場景下顯著優于基于高斯過程的貝葉斯優化方法。

局部搜索方法

局部搜索方法一般定義某種判定鄰域的方式, 從一個初始解出發,搜索解的鄰域,不斷探索更優的鄰域解來完成對解空間的尋優。最常見的方法有爬山法、局部集束搜索等。局部搜索簡單、靈活并易于實現,但容易陷入局部最優,且解的質量與初始解和鄰域的結構密切相關。

啟發式方法

啟發式方法主要是模擬生物現象,或者從一些自然現象中獲得啟發來進行優化,最典型的就是基于演化計算方法。這類方法由于很少有理論依據,實際工作中很難對方法的效果進行分析。

基于強化學習的方法

這類方法能夠發現一些新的神經網絡結構,并被驗證具有一定的遷移能力,但是由于強化學習自身的學習算法研究尚未成熟,其優化效率相對低下。

基于梯度的方法

由于對優化部件以及超參數的可微性要求較高,并且計算復雜度也高,因此,直接對優化目標進行梯度求解的方法很少使用。

研究熱點

自動機器學習的研究熱點是效率和泛化性。解決自動機器學習的效率問題是自動機器學習技術落地的關鍵之一。效率優化包括六類 :

(1) 混合目標優化,將參數點的評估代價也作為優化目標的一部分,在計算代價和效果之間做權衡。

(2) 同步并行化和異步并行化。

(3) 提前停止迭代,在訓練早期就剔除一些表現不太好的參數,節省計算資源,比如最經典的逐次減半策略,每過一段時間都剔除其中一半不好的參數,極大地節省了計算資源(見圖 3)。

(4) 對模型訓練進行熱啟動,復用類似參數的訓練結果,降低超參數的評估代價。

(5) 對數據進行采樣,采用小樣本上的參數搜索來代替全樣本的參數搜索,由于小樣本和全樣本最優參數之間可能存在著差異,有一些研究人員試圖學習小樣本和全樣本之間的關系來進行多保真度的自動機器學習(見圖 4)。

(6) 將超參數搜索和機器學習過程結合起來,進一步提升效率和效果,比如基于種群的方法。

機器學習關注的核心是泛化性,自動機器學習的目的也是為了提升最終學習到的模型的泛化性。

圖3 逐次減半策略

圖4 多保真度的自動機器學習

如何判斷自動機器學習是否提升了泛化性,一般采用切分訓練集和驗證集的方式進行估計。為了進一步降低過擬合到驗證集的風險,有一些研究關注如何對模型的泛化效果進行更合理的估計。除此之外,由于自動機器學習往往伴隨著很多次不同參數的模型學習,與最終只選擇一個“最優”的模型不同,選擇其中一些模型進行集成學習也是一種提升泛化性的方式。越來越多的工作混合多種效率優化和提升泛化性的策略對自動機器學習算法進行優化。

落地應用

來自不同數據之間解決問題手段的可遷移性 / 可復制性為自動機器學習的落地增加了難度。解決不同問題的手段相似性或者可遷移性 / 可復制性越高,自動化越容易,反之越難。目前自動機器學習落地的應用場景主要有圖像數據和表數據。

圖像數據

深度學習取得成功的領域來自圖像。深度學習的核心在于“自動”學習層次化特征。以前的圖像分析需要人工來做,要從原始像素中提取非常多的特征,而深度學習很好地解決了這個問題。深度學習使得特征可學習,同時將人工特征設計轉變成了人工神經網絡結構設計。對于這類數據,自動機器學習研究的核心是使圖像領域的神經網絡結構設計自動化。圖像數據之間的相似性較大,原始輸入都是像素,問題解決方案的可遷移性和可復用性也大,因此,自動機器學習在圖像數據上的落地相對容易。

表數據

表數據是抽象數據,不同的表數據之間沒有很強的相似性,不同表數據各列的含義千差萬別,表數據還與實際業務密切相關,需要解決時序性、概念漂移、噪聲等問題,因此自動機器學習在表數據上落地的難度較大,僅僅是自動神經網絡結構設計是遠遠不夠的。目前研究的熱點還包括如何將分布在多個表中的數據自動轉化成最終機器學習所需要的單個表數據。

未來展望

算法方向

在自動機器學習算法方面,未來的工作如果能在 5 個方向上取得突破,將會有較大的價值。

1. 效率提升。效率可從時間復雜度和樣本復雜度兩方面考量。在給定的計算資源下,更高的效率在一定程度上決定了自動機器學習的可行性,意味著可以進行更多探索,還可能會帶來更好的效果。另外,獲取高質量有標記的樣本往往是非常昂貴的,因此樣本復雜度也是影響機器學習落地的關鍵因素之一。在外部知識輔助的自動機器學習中引入學件 (學件 = 模型 + 模型的規約),利用遷移學習,是未來有效降低樣本復雜度的可能方向 (見圖 5)。

圖5 遷移學習與學件

2. 泛化性。目前自動機器學習在泛化性上考慮較少,泛化性是機器學習最重要的研究方向,未來需要加強。

3. 全流程的優化。與目前大部分自動機器學習只研究機器學習的某一個階段(比如自動特征、自動算法選擇、自動算法配置)不同,實際應用需要全流程的自動機器學習技術。

4. 面對開放世界。現實世界不是一成不變的, 自動機器學習技術需要面對開放的世界,解決數據的時序性、概念漂移、噪聲等問題。

5. 安全性和可解釋性。為使自動機器學習具有安全性,需要解決攻擊應對、噪聲抵抗、隱私保護等問題。如果自動機器學習系統被部署到實際系統中與人交互,則需要更好的可解釋性。

理論方向

在自動機器學習理論方面,目前研究的甚少,對自動機器學習的泛化能力及適用性也知之甚少。因而,我們一方面要回答目前自動機器學習算法的適用性和泛化能力,另一方面也要回答哪些問題類存在通用的機器學習算法上和更廣泛問題空間上的自動機器學習算法的可行性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100772
  • 核心技術
    +關注

    關注

    4

    文章

    625

    瀏覽量

    19607
  • 機器學習
    +關注

    關注

    66

    文章

    8418

    瀏覽量

    132646

原文標題:第四范式涂威威:AutoML 回顧與展望

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NFA→FA→GFA自動機轉換算法

    研究了不確定有窮自動機NFA、確定有窮自動機FA、規范有窮自動機GFA的基本關系與等價轉換;給出了“NFA→FA”等價轉換算法與“FA→GFA”等價轉換算法,構造性證明了從FA到GFA
    發表于 12-10 17:25 ?14次下載

    加性細胞自動機的同構性分析

    根據矩陣方程理論和細胞自動機原理,提出了加性細胞自動機狀態轉移結構的同構性方法,該方法利用狀態轉移矩陣方程及其特征多項式分析規則90和150加性細胞自動機,證明了特
    發表于 02-28 17:03 ?35次下載

    用于信息加密的分子自動機的編碼研究

             利用 DNA 計算的方法構造的分子自動機是一種納米尺度的計算機構,它能在納米尺度進行高度并行的邏輯、推理等運算,從而實現自動機的功
    發表于 09-08 08:12 ?9次下載

    [自動機自動線].李紹炎.掃描版

    本書結合目前國內自動機械行業的現狀,從應用的角度系統介紹了自動機械的模塊化結構及工作原理、設計選型方法、裝配調試及維護要領等。主要內容包括:自動機械的結構組成、輸
    發表于 09-17 16:02 ?0次下載

    基于元胞自動機的混合交通流模型的研究

    文章介紹了元胞自動機在交通流模型中的應用,具有較好的參考價值
    發表于 06-17 16:00 ?0次下載

    元胞自動機的介紹資料

    元胞自動機的介紹資料,僅供參考和學習,不得用作商業用途。
    發表于 06-24 17:01 ?3次下載

    基于決策論元胞自動機的網絡輿情傳播研究

    基于決策論元胞自動機的網絡輿情傳播研究_黎永壹
    發表于 01-07 19:00 ?0次下載

    自動機械設計

    自動機械設計》以自動機械的四大結構組成部分為主要內容展開,深入闡述了自動機械設計中普遍性的理論問題。在例舉實例中側重現代農業自動機械,力求做到理論聯系實際,突出專業特色和現代科學技術
    發表于 08-02 08:54 ?0次下載

    基于統計的AC自動機空間優化

    針對高級Aho-Corasick (AC)自動機為提高串匹配速度而造成的空間浪費問題,研究發現數據流對自動機節點的訪問規律,據此提出基于數據訪問特征的混合自動機構建算法HybridFA
    發表于 03-13 16:47 ?0次下載
    基于統計的AC<b class='flag-5'>自動機</b>空間優化

    自動機器學習簡述

    自動機器學習(AutoML)的目標就是使用自動化的數據驅動方式來做出上述的決策。用戶只要提供數據,自動機器學習系統
    的頭像 發表于 12-26 10:56 ?970次閱讀

    量化自動機器人是什么

    數字HB時代,高額的利益流動吸引了不少人來加入這場逐鹿之戰。但是面對復雜的規則,許多幣圈新手紛紛下馬。于是我們團隊歷盡多年研發出“量化自動機器人”,自動追蹤牛市、分析幣種、通過完備的計算系統幫我們盈利,那么下面我將為大家介紹什么是量化
    發表于 03-17 10:47 ?7088次閱讀

    自動機終結字查找算法實現優化綜述

    自動機的秩與工業自動化中的部件定向器設計問題和理論計算機科學中的 Cerny-pin猜想密切相關。計算自動機的秩可以歸結于查找自動機的終結字。 Rystsoⅴ于1992年提出了一個時間
    發表于 04-28 15:49 ?3次下載
    <b class='flag-5'>自動機</b>終結字查找算法實現優化綜述

    同步有界偏序自動機的同步性問題研究

    同步有界偏序自動機的同步性問題研究
    發表于 06-15 14:24 ?5次下載

    制作鋼琴瓷磚自動機器

    電子發燒友網站提供《制作鋼琴瓷磚自動機器人.zip》資料免費下載
    發表于 11-29 10:35 ?0次下載
    制作鋼琴瓷磚<b class='flag-5'>自動機器</b>人

    基于Arduino和OLED元胞自動機

    電子發燒友網站提供《基于Arduino和OLED元胞自動機.zip》資料免費下載
    發表于 06-20 11:02 ?0次下載
    基于Arduino和OLED元胞<b class='flag-5'>自動機</b>
    主站蜘蛛池模板: 国产天天色| 午夜a视频| 天天曰夜夜操| www.av天天| 亚洲线精品一区二区三区| 国产在线麻豆自在拍91精品 | 四虎最新在线| 色香焦| 美女免费视频黄| 天天干天天爽天天操| jizjizjizjiz日本护士出水| 淫欲高三| 欧美日韩国产另类一区二区三区| 一级在线观看视频| 美女视频久久| 中文字幕亚洲一区二区va在线| 四虎精品影院永久在线播放 | 激情五月婷婷基地| 在线观看免费高清| 中文字幕一区二区三区四区五区人 | 亚洲男人的天堂久久香蕉网| 一二三区乱码一区二区三区码 | 国产免费久久精品| 99精品福利| 色偷偷91久久综合噜噜噜噜| 午夜啪| 老师下面好紧| 日本黄色电影在线| 日本加勒比在线播放| 中日韩在线视频| 欧美艹逼视频| 久久狠狠第一麻豆婷婷天天| 日本一区二区免费在线观看| 麻豆美女大尺度啪啪| 国产资源网| 色日本在线| 在线免费观看视频黄| 深夜动态福利gif动态进| 久久综合九色综合98一99久久99久 | 亚洲免费在线观看视频| 久青草免费在线视频|