在數(shù)據(jù)和算法重新定義的世界中,數(shù)字化轉(zhuǎn)型正構(gòu)成傳統(tǒng)企業(yè)的新競爭力,但實際被收集和利用的數(shù)據(jù),遠比人們想象中少。
有效數(shù)據(jù)量少、模型開發(fā)效率低、專業(yè)技術(shù)人才匱乏,這些問題在企業(yè)應(yīng)用數(shù)據(jù)分析面前形成了難以跨越的天塹。一邊中國市場上超半數(shù)的企業(yè)已經(jīng)采用機器學(xué)習(xí)方法,實現(xiàn)高級數(shù)據(jù)分析預(yù)測,另一邊機器學(xué)習(xí)、數(shù)據(jù)科學(xué)的普及之路仍荊棘叢生。
在這一背景下,IDC發(fā)布《數(shù)據(jù)分析新速度:加速數(shù)據(jù)科學(xué)轉(zhuǎn)變成商業(yè)洞察》白皮書,重新審視數(shù)據(jù)科學(xué)的定義與生態(tài),對機器學(xué)習(xí)、數(shù)據(jù)科學(xué)在中國市場的落地現(xiàn)狀進行全面調(diào)研。
數(shù)據(jù)爆炸時代:加速AI落地中的困境
在大數(shù)據(jù)、人工智能等新興技術(shù)的助推下,數(shù)據(jù)科學(xué)從常規(guī)數(shù)據(jù)分析發(fā)展到高級預(yù)測分析與智能預(yù)測,其定義正在被重新審視。
本白皮書中,IDC將機器學(xué)習(xí)與圖算法為主的工作負載定義為數(shù)據(jù)科學(xué),其核心技術(shù)即經(jīng)典機器學(xué)習(xí)技術(shù),正在企業(yè)用戶中開始復(fù)興。據(jù)IDC調(diào)研,當(dāng)前中國市場上74%的企業(yè)已采用包含機器學(xué)習(xí)的數(shù)據(jù)科學(xué)平臺,其他企業(yè)均表示在未來24個月內(nèi)有計劃采用這一平臺。
在當(dāng)前金融應(yīng)用場景中,80%的分析預(yù)測模型采用機器學(xué)習(xí)模型,支撐預(yù)判欺詐風(fēng)險、優(yōu)化量化投資等業(yè)務(wù)應(yīng)用。而每成功識別一筆欺詐交易行為,每準確預(yù)測一次市場行情變化,對企業(yè)的經(jīng)濟利益可能是百萬級甚至上億級。
還有在零售場景,隨著個性化服務(wù)需求升級,更多零售企業(yè)正通過機器學(xué)習(xí)形成線下線上融合的用戶畫像追蹤,實現(xiàn)千人千面精準營銷,顯著提升用戶粘度。
數(shù)據(jù)科學(xué)在文娛、教育、電信、制造、醫(yī)療、政府、媒體、能源、交通、地產(chǎn)等行業(yè)中均得到廣泛應(yīng)用。根據(jù)IDC提供的數(shù)據(jù),中國企業(yè)在深度學(xué)習(xí)和機器學(xué)習(xí)方面的投入持續(xù)增加,高級數(shù)據(jù)預(yù)測分析、經(jīng)典機器學(xué)習(xí)相關(guān)的市場規(guī)模在2018年達到3.0億美金,預(yù)計到2022年將達到29億美金。
2018-2022年中國人工智能應(yīng)用市場規(guī)模(單位:百萬美金)
不過企業(yè)要想應(yīng)用機器學(xué)習(xí),還需先解決很多挑戰(zhàn)。
首先,數(shù)據(jù)準備和建模耗時長。其次,數(shù)據(jù)資源嚴重匱乏。IDC調(diào)研發(fā)現(xiàn),目前只有一線互聯(lián)網(wǎng)公司擁有超數(shù)千PB級別數(shù)據(jù),大部分企業(yè)的數(shù)據(jù)量僅在1TB-20TB之間。另外企業(yè)積累的大部分數(shù)據(jù)不能直接用于模型訓(xùn)練,被注入到AI模型的數(shù)據(jù)不足1%。此外,數(shù)據(jù)科學(xué)工作負載開發(fā)效率不高。許多剛涉足機器學(xué)習(xí)應(yīng)用的企業(yè),對底層算力和基于硬件的優(yōu)化缺乏清晰的認知,尚未意識到加速計算給企業(yè)開發(fā)效率帶來的價值。
企業(yè)采用加速方案后的效果
要在應(yīng)用機器學(xué)習(xí)時繞開這些瓶頸,選擇合適的數(shù)據(jù)科學(xué)平臺則至為關(guān)鍵。
數(shù)據(jù)科學(xué)平臺選型:門檻低,速度快
DC在白皮書中,就平臺選擇的考量因素給出許多具體可行的建議。
例如使用機器學(xué)習(xí)平臺開發(fā)模型時,應(yīng)與企業(yè)實際業(yè)務(wù)需求充分匹配。
IDC發(fā)現(xiàn),大部分企業(yè)已采用加速方案,其中采用GPU加速的居多,占比達50%。
企業(yè)采用機器學(xué)習(xí)平臺時使用到的加速方案情況
其中,NVIDIA在2018年10月推出RAPIDS開源GPU加速平臺正得到越來越多企業(yè)的應(yīng)用。
NVIDIA RAPIDS平臺致力于加速大規(guī)模數(shù)據(jù)分析和機器學(xué)習(xí)工作負載,該平臺建立在NVIDIA CUDA-X AI平臺之上,提供了一系列面向機器學(xué)習(xí)、深度學(xué)習(xí)和高性能計算的專用GPU加速庫,這些庫與NVIDIA Tensor Core GPU無縫地配合工作,可加速從數(shù)據(jù)準備、模型訓(xùn)練到預(yù)測的整個端到端流程,大大提升AI任務(wù)執(zhí)行效率和模型精度,同時降低基礎(chǔ)架構(gòu)TCO。
當(dāng)前百度、阿里云、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已采用NVIDIA RAPIDS平臺加速數(shù)據(jù)科學(xué)研究。
應(yīng)用無處不在,精度效率雙提升
從應(yīng)用角度來看,在國內(nèi)金融、零售、云計算等多個行業(yè)場景中,RAPIDS均已展現(xiàn)出色的加速能力。
1、案例一:提升端到端量化投資預(yù)測效果
在金融領(lǐng)域,如何提升開發(fā)效率是量化投資工具面臨的主要挑戰(zhàn)。
寬邦科技打造的AI量化投資平臺BigQuant旨在讓金融業(yè)務(wù)人員都能零門檻地使用AI提升投資效率和效果,每月為金融機構(gòu)和10萬C端用戶提供數(shù)百萬次機器學(xué)習(xí)模型訓(xùn)練。
采用NVIDIA RAPIDS平臺后,其GBDT模型在特征工程提取環(huán)節(jié)速度提升100倍,聚類算法速度提升200倍,同時系統(tǒng)預(yù)測準確度也得以提升。
2、案例二:顯著提升理賠審核能力
銀行做信用評分時,通常用XGBoost在Spark上進行運算,完成一次端到端模型迭代一般需要幾天,新的用戶行為特征也不能實時更新到模型訓(xùn)練中,會影響后期的精度。
平安科技引入NVIDIA RAPIDS在NVIDIA DGX-2超級計算機上進行模型運算,將模型運算速度提升40倍,模型訓(xùn)練時間從周壓縮到分鐘,不僅大大節(jié)省人力成本。
平安科技副總工程師、聯(lián)邦學(xué)習(xí)技術(shù)部總經(jīng)理王健宗表示,RAPIDS平臺“不僅大大提升了效率,對于精度的提升也指日可待”。
3、案例三:大幅提速數(shù)據(jù)準備
云計算廠商也在借助RAPIDS平臺提升任務(wù)執(zhí)行效率,國內(nèi)首家提供RAPIDS加速庫服務(wù)的公有云廠商是阿里云。
機器學(xué)習(xí)算法往往產(chǎn)生大量數(shù)據(jù)傳輸,至今仍難以實現(xiàn)并行化。隨著服務(wù)器系統(tǒng)引入GPU加速的機器學(xué)習(xí)算法以及NVIDIA NVLink、NVSwitch等技術(shù),模型訓(xùn)練現(xiàn)可輕松分布在多個GPU和多個節(jié)點間,幾乎不會產(chǎn)生延遲。
實例上,使用GPU加速的XGBoost訓(xùn)練任務(wù)可提速20倍以上。
結(jié)語:加速數(shù)據(jù)分析正滲透到更多行業(yè)
數(shù)據(jù)科學(xué)應(yīng)用的程度正拉大企業(yè)間的競爭差距和收益差距,數(shù)字化程度好的銀行、航空公司、酒店等機構(gòu),收入及稅前利潤明顯高于數(shù)字化落后的同類機構(gòu)。
企業(yè)如果不想在智能化趨勢中落后于人,不僅希望有更易上手的數(shù)據(jù)科學(xué)平臺,而且需要采用更好的加速方案來縮短開發(fā)周期。
IDC預(yù)計到2021年,90%的新智能系統(tǒng)將嵌入以決策為中心的加速計算架構(gòu),能自動檢測和評估當(dāng)前形勢并作出應(yīng)對決策。這將幫助更多企業(yè)優(yōu)化生產(chǎn)效率,更為游刃有余地去適應(yīng)客戶需求以及競爭環(huán)境的快速變化。
-
核心技術(shù)
+關(guān)注
關(guān)注
4文章
625瀏覽量
19620 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132723 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1451瀏覽量
34071
原文標題:74%企業(yè)已采用數(shù)據(jù)科學(xué)平臺!IDC新報告,揭秘加速數(shù)據(jù)分析的核心要訣
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論