還記得《復仇者聯盟2》里面鋼鐵俠和班納博士創造奧創的時候,使用全息投影將三維數據投射到空氣中,然后直接用雙手操控這些數據的畫面嗎?
遺憾的是,這樣的系統目前尚未成為現實。
是什么限制了我們像鋼鐵俠一樣操作數據呢?如果暫時還想不到答案,不如我們先來看一下要實現這個需要哪些技術吧。
首先肯定是全息投影,很多人可能認為,限制這個技術的肯定是沒有這么好的全息投影,誠然,全息投影目前還尚未成熟,但是以目前的發展來看,并不是說現有的技術不能將數據表實時投影到三維空間中,還記得五月中旬被Magic Leap收購的Mimesys公司么?我們來看看這家公司已經將全息投影做到什么地步了。
建筑模型和人都進行了全息投影,而且人還可以對模型進行交互操作,是不是有點賽博朋克?
也就是說,盡管在邊界的處理還存在一些瑕疵,但是將數據表投影到空氣中并進行操作,并不是遙不可及的。
那是究竟什么封印了Stark的出現?
答案是智能。因為就算我們將各種數據表投影到了空氣中,并且各種諸如手環、指環的傳感器也能夠將我們的動作反映給計算機形成指令,但是如果沒有智能,我們實現的僅僅就是用了更加炫酷的姿勢來操作Excel而已。你將一個表格拖過來,也就實現了ctrl+c&ctrl+v。
兩家高校的研究員正在嘗試突破這個瓶頸。
不久之前,麻省理工學院和布朗大學的研究人員開發了一個在觸摸屏上運行的交互式智能數據分析系統,名為Northstar,該系統在云中運行,而且其界面支持任何觸摸屏設備,包括智能手機和大型交互式顯示屏。
更關鍵的是,它可以根據用戶操作實時生成機器學習模型,從而在其數據集上運行預測任務。
而這,得益于一項新的AutoML組件:VDS
迄今為止最快的交互式AutoML工具——VDS
VDS首先出現在ACM SIGMOD會議上發表的一篇論文中,利用的是現在比較火的人工智能技術——自動機器學習(AutoML),它可以讓沒有數據科學知識的人根據他們的數據集訓練AI模型進行預測。
例如,醫生可以使用該系統來幫助預測哪些患者更容易患某些疾病,而企業主也可以通過該系統預測銷售情況。用戶也可以通過使用交互式顯示屏進行實時協作。這個系統的目的是使用戶更容易進行復雜的數據分析,同時保證分析的速度和準確度,在此基礎上實現數據科學的大眾化。
“即使是不了解數據科學的咖啡店老板也應該能夠預測未來幾周內他們的銷售情況,以確定要進多少貨”,論文的共同作者和長期擔任Northstar項目的負責人Tim Kraska說。他是麻省理工學院計算機科學和人工智能實驗室(CSAIL)的電氣工程和計算機科學副教授,也是新數據系統和人工智能實驗室(DSAIL)的創始人之一。
目前,自動機器學習技術的優化基于DARPA D3M自動機器學習競賽,該競賽每六個月決出一次性能最佳的AutoML工具。
數據分析師的“無界畫布”
這一新成果建立在麻省理工學院和布朗研究員在Northstar的多年合作基礎之上。四年多來,研究人員發表了大量論文,詳細介紹Northstar組件,包括交互式界面,多平臺操作,加速運行結果以及用戶行為研究。
Northstar系統以空白白色界面開始。用戶將數據集上載到系統之后,該數據集會顯示在左側的“數據集”框中。任何數據標簽都會自動填充進界面下方的“屬性”框。界面上還有一個“運算符”框,其中包含各種算法,以及新的AutoML工具。所有數據都在云中存儲和分析。
下面讓我們用一個例子詳細論述:
設想一群醫學研究人員,他們想要探究某年齡組中特定疾病并發可能性。
他們將模式檢查算法拖放到界面中間,該算法最初顯示為空白框。
作為輸入,他們將標記好的疾病特征如“血液”、“傳染性”和“代謝”移動到算法框中。
隨后,算法框中就會顯示這些疾病的百分比。如果他們將“年齡”特征拖到界面中,該界面就會出現另外一個框,框內會顯示患者年齡分布的條形圖。
最后,在兩個框之間畫一條線將它們連接在一起,算法就會立即自動計算圍繞不同年齡范圍的三種疾病的關聯和并發現象。
“這就像一個大而無界的畫布,你可以在這里展示你想要的一切”,Northstar互動界面的主要開發者的Zgraggen說,“你還可以將所有內容鏈接在一起,以處理更復雜的問題”。
通過VDS,用戶現在還可以通過個性化模型,使其適合自己的分析任務,并在自己的數據集上進行預測分析,例如數據預測,圖像分類或分析復雜圖形結構。
以上述的醫學探究為例,醫學研究人員希望根據數據集中的特征預測哪些患者可能患有血液疾病。他們從算法列表中將“AutoML”拖入數據集中。系統首先會產生一個帶有“目標”標簽的空白框。研究人員將“血液”這一標簽拖到空白框。系統將自動找到性能最佳的機器學習算法,以不斷更新的精度百分比的選項卡顯示。用戶可以隨時停止該過程,優化搜索,并檢查每個模型的錯誤率,結構,計算和其他事項。
請看視頻演示:
實時智能交互,才是真正的交互
據研究人員的介紹,VDS是迄今為止最快的交互式AutoML工具,這部分歸功于他們定制的“估算引擎”。引擎位于界面和云存儲之間。引擎自動創建數據集的幾個代表性樣本進行逐步處理,從而在幾秒鐘內生成高質量的結果。
“我們花了兩年時間設計VDS,使之契合數據科學家的思維方式,”論文的另一位作者Shang說。VDS可以根據各種編譯規則,立即確定哪些模型和預處理步驟是不是應該為用戶提前實現。
在機器學習模型的選擇上,它可以從那些大量的機器學習算法列表中選擇并在樣本集上運行模擬,同時記錄結果并優化選擇。在提供快速近似結果后,系統還會在后端細化結果。
“至于預測,用戶不希望等待四個小時才能獲得第一個結果。用戶希望看到實時發生的事情,這樣如果發現了錯誤,用戶可以立即糾正它。但這在任何其他系統中通常是不可能的”,Kraska說。
研究人員在300個真實數據集上對工具進行評估。與其他最先進的AutoML系統相比,VDS預測的準確度大致相同,但VDS的預測結果可以在幾秒鐘內生成,這比其他工具快得多,后者往往需要在幾分鐘到幾小時內才能運行出結果。
有了Northstar的VDS組件,我們得到了一個二維空間的交互式智能數據分析系統,也許離鋼鐵俠的實驗室還有點距離,但是如果有一天Northstar將全息投影加到下一代分析系統中,那么——也許我就可以坐在沙發上小手一揮:“Javis,把我這個表做好發給老板。”
-
MIT
+關注
關注
3文章
253瀏覽量
23428 -
數據分析
+關注
關注
2文章
1455瀏覽量
34090
原文標題:MIT開發數據分析師的“無界畫布”:實時交互預測,可拖拽的AutoML系統
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論