瑪麗·雪萊在創作世界上第一部科幻小說《科學怪人》(又譯:弗蘭肯斯坦)的時候,恐怕沒法預見到在一個多世紀后的今天,真的會出現一種脫胎于虛無,卻能判斷、能決策的存在。
人工智能自動化近年來受到了廣泛的關注,但在真正的建模工程師和業務人員眼中,卻一直只是玩具級別的應用。不但限制重重,繁瑣的編程和抽象的參數設置對于小白用戶來說,也遠遠稱不上“自動化”。
誰能想到,早在2015年,硅谷就成立了一家致力于開發“幫助創造AI”的AI公司。日前,R2.ai的創始人兼CEO黃一文接受了我們的采訪,為我們講述了他們對于人工智能自動化行業的發展趨勢以及產品技術核心的認識。
回歸本質——業務專家才是機器學習問題的最適解決者
AutoML對于人工智能社區來說并不能說是一個新潮的概念,國內國外的企業都陸續推出了自己的AutoML平臺。但這些平臺的使用者和服務對象往往是建模工程師,雖然能很大程度上提升建模工程師的工作效率,但對于常變常新的業務問題來說,卻仍然慢了半拍。
事實上,六年前的機器學習自動化產品就已經能夠在十幾分鐘內解決TB級數據的建模問題了,但對于希望在業務中應用機器學習的企業來說,往往苦于尋找優秀的建模工程師和探索真正有用的應用場景;即便對于已經開始了機器學習應用的企業來說,緩慢的開發速度和低下的模型質量也往往使得企業在高昂的投入面前望而卻步。
換句話說,“傳統的建模流程+超高速的機器學習自動化平臺”這一模式并沒有突破企業在實際應用中落地機器學習的瓶頸。
“我們認為業務人員其實是最適合應用機器學習來解決問題的角色,讓正確的人使用正確的工具來解決正確的問題,是我們想要達到的效果”,黃一文說。
要最大化地利用企業的數據,讓需求多樣的企業真的能夠在業務當中落地機器學習技術,一個普適性強,簡單易用且高度自動化的高質量機器學習平臺是不可或缺的。而這恰恰是R2 Learn 2.0的技術特點。
R2.ai也在近日推出了其最新一代AutoML產品R2 Learn 2.0版本,該產品目前正在進行免費試用活動,感興趣的讀者可以自行取閱?
R2.ai快速將數據轉換為競爭優勢
傻瓜式操作,零代碼實現機器學習
小白的福音,數據科學家的得力助手
在R2 Learn 2.0中,R2.ai為業務問題提供了一個端到端、高自動化的機器學習解決方案。黃一文表示,具有廣泛適用性的AutoML類產品對于產品化、優化及模型集成豐富度的要求很高,在R2 Learn 2.0中,用戶甚至僅需鼠標操作,不斷根據平臺的提示進行選擇,就可以在上傳數據后迅速建立模型。
不僅如此,在自動建模的過程中,R2 Learn 2.0還實現了數據清洗、修復,特征工程,模型評估等傳統建模過程單元的自動化。
1.目標變量有3個水平值
2.預測變量里存在缺失值和數據類型錯配
解決這些問題,用戶僅需點擊Continue,平臺就會引導用戶選擇目標變量中的唯一值,并對預測變量數據質量問題進行自動修復。
通過這樣傻瓜式的引導,即便是毫無機器學習知識和經驗的業務人員也能快速為業務問題進行針對性建模,從而實時滿足業務需求。而對于掌握有機器學習領域知識的數據科學家或分析師來說,R2 Learn 2.0平臺還提供了高級編輯模式,用戶不但能夠看到模型從數據預處理到模型評估的全過程,還能根據自己的經驗和偏好對模型進行調整,這也體現了平臺的高度透明性和可解釋性。
自學習,自調參——AutoML迎來質變
對任何一個建模工程師來說,從0開始建立一個模型都足以成為不眠之夜的噩夢。談到傳統建模過程的復雜性時,黃一文說道:“建模的挑戰主要是由建模過程在每一個步驟都有多元選擇造成的,比如修復數據質量可能就有三四種不同的方式,變量工程有十幾種不同的方式,算法的選擇和算法的參數調整空間就更大了。這些選擇會使得建模的復雜性指數型上升。”
從本質上講,無論是對于人類工程師還是機器,建模都是一個不斷試錯的過程。人類的優勢在于可以憑借經驗和直覺找到一個不錯的試錯起點,但這不僅對建模工程師有很高的要求,還會使得模型的成功在很大程度上依賴于運氣。而對于機器來說,不斷嘗試正是機器最適合做的事情,輔以高效的優化算法,機器可以在短時間內嘗試大量模型并向用戶推薦最優結果。
R2 Learn 2.0充分利用機器的算力優勢,并開發了自學習和自調參技術來進一步提升平臺的效率和模型的準確性。
“如果模型的初始參數與最優值相距較遠,模型可能會很難收斂,也可能很容易發散到其他地方。為了找到一個合適的初始參數,我們的平臺有一套基于增強學習的知識庫,當用戶上傳了數據開始建模時,我們會將用戶的數據與我們知識庫的數據進行精準的匹配,從而使得模型從一個比較合理的超參數開始搜索”。黃一文介紹道。
R2 Learn 2.0的系統架構
兩小時建模,全生命周期管理,再次一敗涂地的人類
效率問題是自動化機器學習需要解決的首要問題。
“要讓機器學習自動化工具在企業中真正落地,我們必須實現端到端地自動化建模”,黃一文說道:“數據修復、特征工程、模型選擇、模型調參、模型組合等步驟其實都是相互關聯的,自動化及優化的程度越高,模型要搜索的空間也就越大,而且是成百上千倍地擴大。”
自動化建模實際上是一個搜索優化問題。即在所有的選項中,用最短的時間找到最優解。為了解決這一問題,R2.ai基于強化學習、遺傳算法等開發了五種不同的優化算法,使得平臺能夠在非常短的時間內用盡可能少的資源找到最佳模型。
R2 Learn 2.0的高效在很多應用場景中都得到了體現,在一個金融行業的應用案例中,R2 Learn 2.0需要在保證高準確性的情況下幫助一個對沖基金公司建立人工智能交易模型。在將近100萬行和超過80個變量的數據集上,R2 Learn 2.0在兩小時內建出了一個AUC為0.78的模型,比原來的模型質量提高了12%。
“模型有不同的特點,有些模型建模速度非常快,有些模型精度非常高,有些模型效率非常高。而在金融場景中,模型的選擇是非常關鍵的”,黃一文向我們繼續介紹:“我們為R2 Learn 2.0設計了一個獨特的模擬優化技術,用戶可以將場景信息輸入到模型中,系統會據此對模型進行重新優化,從而找到一個真正可以滿足用戶風險收益平衡需求的模型”。
通過自動模型重新擬合,R2 Learn幫助對沖基金公司應對瞬息萬變的市場
除了效率問題以外,準確性問題也是自動化機器學習工具無法回避的挑戰。
通過端到端的全鏈建模流程整體優化,而不是幾個步驟的局部優化,這是R2.ai可以生成更優異性能模型的法寶。
建模的每一步都是互相關聯的。整體優化包括的步驟越多,生成優異模型的幾率越高。當然,這同時意味著對優化算法的要求相應提高,這恰恰是R2.ai超越競爭對手的技術壁壘。
在一個醫療領域的案例中,醫院希望能夠通過病人的特征數據和診斷數據預測并控制病人的再入院率。R2 Learn 2.0通過對病患的畫像、患病史、醫療診斷指標、入院記錄等海量數據的分析,運用機器學習建模技術, 成功地在短時間內構建了AUC達0.846的模型。該結果成為了醫院管理者分析并控制再住率的有效依據,大幅降低了出院病人的再入院成本,還可以給予患者更適合個人的醫療選項,提升患者的治療體驗。
除此之外,R2 Learn 2.0還將全生命周期管理的概念首次植入到了機器學習自動化領域中。黃一文談道:“大部分企業現在主要關注的問題還是怎樣建出更好的模型,但實際上模型的運營也是非常重要的,這就會涉及到模型的全生命周期管理問題。”
任何機器學習模型都是基于歷史數據開發出來的,而歷史數據反映的是過去的商業狀況,所以模型其實是有保質期的。
“企業應該時刻監督模型在實際應用當中的性能,并不斷用新的數據去實時優化舊的模型,這樣才能為模型‘保鮮’”。黃一文如此建議。
AI無代碼時代來臨
業務問題,而不只是機器學習
“我們希望企業可以用98%的時間來解決業務問題,而不是機器學習問題”,談到整個人工智能和數據行業的未來發展時,黃一文這樣說道。“技術最終是服務于業務的,所以我認為機器學習工具的發展方向是讓用戶更快更有效地解決業務問題,與商業更好更深結合”。
外媒Interesting Engineering在報道R2.ai這家近年來快速增長的公司時使用了”new generation”一詞,我們也確實看到R2.ai為人工智能在應用當中從0到1的落地邁出了堅實的一步。
“企業落地人工智能基本上可以有兩種方法,第一種是基于系統規劃,企業通過采集大量數據,搭建基礎設施,一步一步地落地人工智能。而另外一種更推薦的方式則是先用現有的數據找到一個可以落地的場景,從小到大,而不是從大到小地開始建模。這樣能大大降低人工智能落地的成本,也給企業更多的正反饋來進一步應用人工智能”。黃一文為我們補充道。
那么,數據科學家會失業嗎?
社會自動化水平的提高讓我們不得不面對嚴峻的就業形勢,人工智能的廣泛應用更是讓大量行業的從業者面臨著失業危機,在談到數據行業從業者的職業問題時,黃一文樂觀地與我們分享道:“從歷史上來看,人類文明中每一個新技術的出現往往伴隨著新行業的出現;自動化水平的提高往往伴隨著新工作機會的出現,失業率不但不會提高,甚至還有可能降低”。
未來:授人以魚不如授人以漁
人工智能行業的發展速度往往給人一種日新月異的感覺,但談到未來發展時,黃一文卻顯得很自信:“其實有很多技術我們在研究室當中已經做出來了,比如非監督學習,很快我們的用戶就可以在聚類、異常檢測、推薦等業務場景下應用自動化的機器學習了。”
另外,目前的R2 Learn 2.0平臺還只支持結構化的數據,在采訪的最后黃一文也表示將在未來一年著手支持自然語言處理和計算機視覺的應用場景,將非結構化數據的處理也納入到R2 Learn 2.0的自動化范疇之內。
“現在有很多人發表言論說人工智也許會摧毀人類文明。我認為他們的思維是局限在有限的生存空間內的,但事實上我們所處的世界遠遠不止我們現在所了解的范圍,AI最大的存在價值之一就是它能夠幫助我們去探知未來的世界。”
黃一文繼續說道:“R2 Learn 2.0就是一個泛用性很強的AI,未來我們想做的就是幫助企業去探知更多他們還沒有了解的世界。中國人講授人以魚不如授人以漁,當人人可用的AI出現之后,企業一定能更深入地理解業務,不斷開拓新的業務邊界”。
評論
查看更多