信息時代,能吃到蟲子的已不再是早起的鳥兒,而是那些數(shù)據(jù)驅(qū)動的、早起的鳥兒。像百度、阿里巴巴和騰訊這樣的大公司,都在不斷囤積數(shù)據(jù),因為他們都知道數(shù)據(jù)是金燦燦的寶貝。
但僅僅囤積數(shù)據(jù)是不夠的。你需要熟練地篩選、全盤了解數(shù)據(jù)湖中溢出的所有數(shù)據(jù)。只有這樣,你才能通過這些數(shù)據(jù),做出更好的決策,打造更智能的產(chǎn)品。
然而,在擁擠不堪、投資過剩的數(shù)據(jù)分析市場上,供應(yīng)商為了賣出自己的產(chǎn)品不斷放出煙霧彈,想要穿過煙霧看到“真相”,卻是一大難事。以下五點,是未來數(shù)據(jù)分析市場可能的走向,僅供參考。
01 BI遷移到應(yīng)用程序
在過去的20年里,我們見證了一場革命。不是一夜之間發(fā)生的那種,而是逐漸發(fā)生的,緩慢的,可能很多人沒有注意到。BI(商業(yè)智能)正走向死亡?;蛘吒鼫蚀_地說,BI正在進行著徹頭徹尾的改變。
每年,用戶都在通過他們使用的應(yīng)用程序——比如HubSpot、SalesForce和MailChimp——進行更多的分析。分析正在遷移到業(yè)務(wù)應(yīng)用程序的結(jié)構(gòu)中。
從本質(zhì)上講,業(yè)務(wù)應(yīng)用程序正在獲取它們自己的分析接口,根據(jù)它們的數(shù)據(jù)和用例進行定制。這種集成和自定義使得其分析接口比深奧的、復(fù)雜的通用BI更容易被用戶接受。隨著B2B應(yīng)用程序開始在數(shù)據(jù)智能產(chǎn)品上展開競爭,這一趨勢將會繼續(xù)下去。
02 編譯器超越分析引擎
歷史上,數(shù)據(jù)分析有兩種提供方式:通過預(yù)計算,或者通過分析引擎。
分析引擎,如Spark和Tableau的數(shù)據(jù)引擎,負責(zé)執(zhí)行所需的計算,以回答關(guān)于組織數(shù)據(jù)的關(guān)鍵問題。
現(xiàn)在,這個領(lǐng)域出現(xiàn)了一個新的玩家:分析編譯器。分析編譯器可以靈活地將計算部署到不同的基礎(chǔ)設(shè)施。分析編譯器的例子包括現(xiàn)在大火的TensorFlow,它可以將計算部署到GPU或CPU等。
編譯器比分析引擎靈活得多,因為它們可以進行數(shù)據(jù)處理,而且我們可以將它們進行轉(zhuǎn)換,以在不同的基礎(chǔ)設(shè)施中運行(在數(shù)據(jù)庫中,在Spark中,在GPU中,等等)。在理論上,編譯器也可以生成比任何解釋引擎都快的工作流。
甚至Spark也一直在獲取基本的編譯工具,這無疑是編譯器在此駐留的標志,并且可能最終會使遺留的純計算引擎相形見絀。
03 ETL多樣化
很少有一個術(shù)語能比“ETL”(提取轉(zhuǎn)換加載)更讓大佬們頭疼。ETL堆積了大量不完整的、重復(fù)的、不相關(guān)的數(shù)據(jù),像污水一樣被排放出來,清理干凈,然后被推到一個可以處理這些數(shù)據(jù)的地方。
ETL是現(xiàn)代、敏捷和數(shù)據(jù)驅(qū)動等關(guān)鍵詞的對立面。ETL意味著不斷重復(fù)的數(shù)據(jù),無數(shù)的延遲,以及高額的費用。它無法回答重要的問題。
為了讓ETL變得更加靈活,行業(yè)內(nèi)已經(jīng)開發(fā)出了各種各樣的替代方案。這些解決方案包括高級的ETL工具——使ETL更容易進入Hadoop或數(shù)據(jù)倉庫,到流ETL解決方案,再到利用機器學(xué)習(xí)交叉引用和刪除重復(fù)數(shù)據(jù)的ETL解決方案。
另一個非常有趣的技術(shù)類別包括像Dremio和Xcalar這樣的工具,它們將ETL重構(gòu)為提取-加載-轉(zhuǎn)換(或ELT)。本質(zhì)上,它們將轉(zhuǎn)換的步驟推到最后,因此不必再預(yù)先進行提取、加載或轉(zhuǎn)換。
從歷史上看,ELT的速度很慢,但這些下一代解決方案通過動態(tài)調(diào)整、索引和緩存常見的轉(zhuǎn)換來快速地進行拼寫。這提供了傳統(tǒng)ETL的性能,同時具有后期轉(zhuǎn)換的靈活性。
不管你如何看待它,ETL正在經(jīng)歷著戲劇性的演變,這將使組織能夠比以往更容易地快速地利用數(shù)據(jù),而無需耗費大量時間和昂貴的前期投入。
04 數(shù)據(jù)倉庫開放
大型組織的問題多數(shù)在于無法從專注于精心設(shè)計的分析。大多數(shù)公司甚至無法合計和計算他們有多少數(shù)據(jù)。不是因為計數(shù)很困難,而是因為一個大型組織中的數(shù)據(jù)一般分散在萬個數(shù)據(jù)豎井中。
不過由于云(包括API革命和管理數(shù)據(jù)解決方案)和ETL最近的進展,使得組織以結(jié)構(gòu)化的方式訪問更多的數(shù)據(jù)變得比以往任何時候都要容易。
下一代數(shù)據(jù)管理解決方案將在利用這些技術(shù)進步中發(fā)揮重要作用,使所有的組織的數(shù)據(jù)能夠及時地對所有合適的人進行分析。
05 機器學(xué)習(xí)落到實處
機器學(xué)習(xí)剛剛度過了炒作的高峰期,或者至少我們可以希望是如此。機器學(xué)習(xí)是不完美和無罪的致命組合。當機器學(xué)習(xí)出錯的時候(通常也是不可避免的),我們不知道該去責(zé)怪誰。
這對于任何一種關(guān)鍵任務(wù)分析都是絕對不能容忍的。
因此,距離我們把人工智能訓(xùn)練成社會最聰明的人,吸收全部知識,仍是非常遙遠的,遠超過5年。
在此之前,我們很可能會看到機器學(xué)習(xí)專注于某些場景的應(yīng)用。例如結(jié)構(gòu)化數(shù)據(jù)集的黑盒預(yù)測分析;人類輔助技術(shù)可以讓人們看到不同數(shù)據(jù)源之間的連接,糾正常見錯誤,發(fā)現(xiàn)異?,F(xiàn)象。這些并不是科幻小說中所提到的超級大腦,但它們會讓用戶更容易找到問題,并幫助引導(dǎo)他們找到正確的答案。
雖然分析是一個巨大的市場,充斥著令人困惑的營銷言論,但一些大的趨勢也可以幫助企業(yè)決定在哪里進行投入。
未來5年,這些大的趨勢可能會影響到組織使用的工具,得到融資的數(shù)據(jù)分析型創(chuàng)業(yè)公司,以及我們在整個數(shù)據(jù)分析領(lǐng)域中看到的創(chuàng)新,從數(shù)據(jù)倉庫到可視化分析前端。在需要弄清楚數(shù)據(jù)架構(gòu)和技術(shù)堆棧應(yīng)該是什么樣子的時候,要根據(jù)自身實際情況,做出明智的決策。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132778 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1452瀏覽量
34078
原文標題:有沒有想過 你的數(shù)據(jù)分析方法可能已經(jīng)過時?
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論