當前,全球大數據正進入加速發展時期,技術產業與應用創新不斷邁向新高度。大數據通過數字化豐富要素供給,通過網絡化擴大組織邊界,通過智能化提升產出效能,成為實體經濟質量變革、效率變革、動力變革的技術依托之一,而大數據技術及其融合發展也已經成為最重要的技術發展趨勢。
2019 年以來全球大數據發展在政策方面略顯平淡,其中,美國的發布的《聯邦數據戰略第一年度行動計劃(Federal Data StrategyYear-1 Action Plan)》意味著美國對于數據的重視程度繼續提升,并出現了聚焦點從“技術”到“資產”的轉變,其中更是著重提到了金融數據和地理信息數據的標準統一問題。此外,配套文件中“共享行動:政府范圍內的數據服務”成為亮點,針對數據跨機構協同與共享,從執行機構到時間節點都進行了戰略部署。同時,歐洲議會也通過決議敦促歐盟及其成員國創造一個“繁榮的數據驅動經濟”。該決議預計,到 2020 年歐盟國內生產總值將因更好的數據使用而增加 1.9%。不管是否有更多的大數據政策出臺,拓寬和深入大數據技術應用已經是各國數據戰略的共識。
盡管政策推進略顯緩慢,但大數據底層技術發展日漸成熟。在大數據發展的初期, ApacheHadoop 定義了最基礎的分布式批處理架構,打破了傳統數據庫一體化的模式,將計算與存儲分離,聚焦于解決海量數據的低成本存儲與規模化處理。但當前 MPP 在擴展性方面不斷突破使得 MPP 在海量數據處理領域又重新獲得了一席之位。MapReduce 暴露的處理效率問題以及 Hadoop 體系龐大復雜的運維操作,推動計算框架不斷進行著升級演進。隨后出現的 Apache Spark 已逐步成為計算框架的事實標準。在解決了數據“大”的問題后,數據分析時效性的需求愈發突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年來備受關注的產品為流處理的基礎框架打下了基礎。在此基礎上,大數據技術產品不斷分層細化,在開源社區形成了豐富的技術棧,覆蓋存儲、計算、分析、集成、管理、運維等各個方面。據統計,目前大數據相關開源項目已達上百個。
隨著當前大數據體系的底層技術框架已基本成熟。大數據技術正逐步成為支撐型的基礎設施,其發展方向也開始向提升效率轉變,逐步向個性化的上層應用聚焦,技術的融合趨勢愈發明顯。“融合”成為大數據技術發展的最重要特征——
l 算力融合:多樣性算力提升整體效率
隨著大數據應用的逐步深入,場景愈發豐富,數據平臺開始承載人工智能、物聯網、視頻轉碼、復雜分析、高性能計算等多樣性的任務負載。同時,數據復雜度不斷提升,以高維矩陣運算為代表的新型計算范式具有粒度更細、并行更強、高內存占用、高帶寬需求、低延遲高實時性等特點,因此當前以 CPU 為調度核心,協同 GPU、FPGA、ASIC 及各類用于 AI 加速“xPU”的異構算力平臺成為行業熱點解決方案,以 GPU為代表的計算加速單元能夠極大提升新業務計算效率。
不同硬件體系融合存在開發工具相互獨立、編程語言及接口體系不同、軟硬件協同缺失等工程問題。為此,產業界試圖從統一軟件開發平臺和開發工具的層面來實現對不同硬件底層的兼容,如 Intel公司正在設計支持跨多架構(包括 CPU、GPU、FPGA 和其他加速器)開發的編程模型 oneAPI,它提供一套統一的編程語言和開發工具集,來實現對多樣性算力的調用,從根本上簡化開發模式,針對異構計算形成一套全新的開放標準。
l 流批融合:平衡計算性價比的最優解
流處理能夠有效處理即時變化的信息,從而反映出信息熱點的實時動態變化。而離線批處理則更能夠體現歷史數據的累加反饋。考慮到對于實時計算需求和計算資源之間的平衡,業界很早就有了 lambda架構的理論來支撐批處理和流處理共同存在的計算場景。隨著技術架構的演進,流批融合計算正在成為趨勢,并不斷在向更實時更高效的計算推進,以支撐更豐富的大數據處理需求。
流計算的產生來源于對數據加工時效性的嚴苛要求。數據的價值隨時間流逝而降低時,我們就必須在數據產生后盡可能快的對其進行處理,比如實時監控、風控預警等。如,近年來出現的 Apache Flink,則使用了流處理的思想來實現批處理,很好地實現了流批融合的計算,國內包括阿里、騰訊、百度、字節跳動,國外包括 Uber、Lyft、Netflix 等公司都是Flink 的使用者。
l TA 融合:混合事務/ 分析支撐即時決策
TA 融合是指事務(Transaction)與分析(Analysis)的融合機制。在數據驅動精細化運營的今天,海量實時的數據分析需求無法避免。分析和業務是強關聯的,但由于這兩類數據庫在數據模型、行列存儲模式和響應效率等方面的區別,通常會造成數據的重復存儲以及數據時效性不足的問題。
混合事務/分析處理(HTAP)是實現在單一的數據源上不加區分的處理事務和分析任務。當前的方案主要有三種:一是基于傳統的行存關系型數據庫(類似 MySQL)實現事務特性,并在此基礎上通過引入計算引擎來增加復雜查詢的能力;二是在行存數據庫(如 Postgres-XC 版本)的基礎上增加列存的功能,來實現分析類業務的需求;三是基于列存為主的分析型數據庫(如 Greenplum),增加行存等功能優化,提供事務的支持。但由于沒有從根本上改變數據的存儲模式,三種方案都會在事務或分析功能上有所側重,無法完美的在一套系統里互不干擾地處理事務和分析型任務,無法避免對數據的轉換和復制,但能在一定程度上縮短分析型業務的時延。
l 模塊融合:一站式數據能力復用平臺
大數據的工具和技術棧已經相對成熟,大公司在實戰經驗中圍繞工具與數據的生產鏈條、數據的管理和應用等逐漸形成了能力集合,并通過這一概念來統一數據資產的視圖和標準,提供通用數據的加工、管理和分析能力。
數據能力集成的趨勢打破了原有企業內的復雜數據結構,使數據和業務更貼近,并能更快地使用數據驅動決策。主要針對性地解決三個問題:一是提高數據獲取的效率;二是打通數據共享的通道;三是提供統一的數據開發能力。這樣的“企業級數據能力復用平臺”是一個由多種工具和能力組合而成的數據應用引擎、數據價值化的加工廠,來連接下層的數據和上層的數據應用團隊,從而形成敏捷的數據驅動精細化運營的模式。其中,阿里巴巴提出的“中臺”概念和華為公司提出的“數據基礎設施”概念都是模塊融合趨勢的印證。
l 云數融合:云化趨勢降低技術使用門檻
大數據基礎設施向云上遷移是一個重要的趨勢。各大云廠商均開始提供各類大數據產品以滿足用戶需求,紛紛構建自己的云上數據產品。比如 Amazon Web Service(AWS)和 Google CloudPlatform(GCP)很早就開始提供受管理的 MapReduce 或 Spark 服務,以及國內阿里云的 MaxCompute、騰訊云的彈性 MapReduce 等,大規模可擴展的數據庫服務也紛紛上云,比如 Google BigQuery、AWS Redshift、阿里云的 PolarDB、騰訊云的 Sparkling 等,來為 PB 級的數據集提供分布式數據庫服務。華為也在近期注冊成立了華為云計算技術公司。早期的云化產品大部分是對已有大數據產品的云化改造,現在,越來越多的大數據產品從設計之初就遵循了云原生的概念進行開發,生于云長于云,更適合云上生態。向云化解決方案演進的最大優點是用戶不用再操心如何維護底層的硬件和網絡,能夠更專注于數據和業務邏輯,在很大程度上降低了大數據技術的學習成本和使用門檻。
l 數智融合:數據與智能多方位深度整合
大數據與人工智能的融合則成為大數據領域當前最受關注的趨勢之一,這種融合主要體現在大數據平臺的智能化與數據治理的智能化。智能的平臺促成了大數據平臺和機器學習平臺深度整合的趨勢,大數據平臺在支持機器學習算法之外,還將支持更多的 AI 類應用。如,Databricks 為數據科學家提供一站式的分析平臺 Data Science Workspace,Cloudera 也推出了相應的分析平臺 Cloudera Data Science Workbench。其次,數據治理與人工智能的發展存在相輔相成的關系:一方面,數據治理為人工智能的應用提供高質量的合規數據;另一方面,人工智能對數據治理存在諸多優化作用。AI 使能數據治理,是通過智能化的數據治理使數據變得智能:通過智能元數據感知和敏感數據自動識別,對數據自動分級分類,形成全局統一的數據視圖。通過智能化的數據清洗和關聯分析,把關數據質量,建立數據血緣關系。數據能夠自動具備類型、級別、血緣等標簽,在降低數據治理復雜性和成本的同時,得到智能的數據。
伴隨著技術融合與應用的不斷深化與發展,大數據的產業規模也在近年穩步提升。有機構預測,到2020年,全球大數據市場的收入規模將達到 560 億美元,較2018 年的預期水平增長約 33.33%,較 2016 年的市場收入規模翻一倍。隨著市場整體的日漸成熟和新興技術的不斷融合發展,未來大數據市場將呈現穩步發展的態勢,增速維持在 14%左右。在 2018-2020 年的預測期內,大數據市場整體的收入規模將保持每年約 70 億美元的增長。在具體的細分市場中,大數據硬件、軟件和服務的市場規模均保持較穩定的增長,并隨著機器學習、高級分析算法等技術的成熟與融合,更多的數據應用和場景正在落地,大數據軟件市場將繼續高速增長。
-
FPGA
+關注
關注
1630文章
21776瀏覽量
604678 -
數據庫
+關注
關注
7文章
3840瀏覽量
64544 -
大數據
+關注
關注
64文章
8900瀏覽量
137580
發布評論請先 登錄
相關推薦
評論