??近年來,時序數據的應用更為廣泛,包括物聯網、金融領域、監控領域、醫學領域、農業生產領域等各方面,都在大量使用時序數據,通過數據來研究對象的趨勢性、規律性、異常性;并且在 5G 與人工智能的浪潮下,時序數據作為大數據、機器學習、實時預測的基礎數據,作用更加顯著。因此,對時序數據的研究與應用應當更為深入。
??近 5 年來,時序數據庫發展十分迅猛,各大互聯網企業包括 Google、阿里、Amazon 都推出自己的時序數據。
圖 1 DB-Engines 統計不同類別數據庫關注度趨勢
??圖 1 為 DB-Engines 統計從2018年1月到2019 年 12 月截至 24 月各類數據庫的關注度趨勢,可以看到時序數據庫關注度同比 2017 年 12 月上漲 77.3%,相比第二名的圖形數據庫上漲近兩倍。圖 2 為 DB-Engines 統計從2013年12月到2019 年 12 月截至 6年來業內流行的時序數據庫的關注度和使用度排名。
圖 2 DB-Engines 統計時序數據庫關注度趨勢
??從圖中可以看到,從 2015 年開始,各種時序數據庫如雨后春筍般涌現。
??GaussDB(for Influx)時序數據庫依靠華為在數據存儲領域多年的實踐經驗,整合華為云的計算、存儲、服務保障和安全等方面的能力,在架構、性能和數據壓縮等方面進行了突破性的技術創新,達到了較好的效果,對內支撐了華為云基礎設施服務,對外以服務的形式開放,幫助上云企業解決相關業務問題。
??GaussDB(for Influx) 具有支持億級時間線、極致寫入性能、低存儲成本、高性能多維聚合查詢和極致彈性擴縮容等5大特性。以下為特性的大致介紹:
??由于在時序數據庫系統中,無時無刻存在大量并發查詢和寫入操作,因此合理控制內存的使用量就顯得十分重要。而GaussDB(for Influx)便在這一問題上做了進一步優化:
??l 在內存分配與回收上,使用內存池復用技術降低內存碎片,并實現算法動態調整GC頻率,加快內存回收。
??l 在單查詢上,實行Quota控制,避免單查詢耗盡內存。
??l 在緩存中,針對不同節點規格提供不同最優配置。
2 、極致寫入性能
??GaussDB(for Influx)支持每天萬億條數據寫入,在工程實現上有以下優化:
??l 利用所有節點并行寫入,充分發揮集群優勢。
??l Shard節點采用針對場景優化的LSM-Tree布局
??l 在大規模寫入場景下,GaussDB(for Influx)的寫入性能線性擴展度大于80%。
3 、低存儲成本
??GaussDB(for Influx)對數據采用列式存儲,相同類型的數據被集中存儲,更有利于數據壓縮。采用自研的時序數據自適應壓縮算法,在壓縮前對數據進行抽樣分析,根據數據量、數據分布以及數據類型選擇最合適的數據壓縮算法。同時提供了時序數據的分級存儲,支持用戶自定義冷熱數據,實現數據的冷熱分離。熱數據相對數據量小,訪問頻繁,被存儲在性能更好、成本較高的存儲介質上;冷數據相對數據量大,訪問概率低,保存時間較久,被存儲在成本較低的存儲介質上,進而達到節約存儲成本的目的。
4 、高性能多維聚合查詢
??在提升聚合查詢整體性能方面,GaussDB(for Influx)做了如下優化:
??l 采用MPP架構:一條查詢語句可以在多節點及多核并發執行。
??l 向量化查詢引擎:在查詢結果數據量很大時,GaussDB(for Influx)內部實現了向量化查詢引擎,每次迭代批量返回數據,大大減少了額外開銷。
??l 增量聚合引擎:基于滑動窗口的聚合查詢,大部分從聚合結果緩存中直接命中,僅需要聚合增量數據部分即可。
??l 多維倒排索引:支持多維多條件組合查詢,加快數據查詢中過濾無關數據。
5 、極致彈性擴縮容
??在時序數據庫的運行過程中,隨著業務量的增加,常常需要對數據庫進行在線擴容,以滿足業務的要求。
??l 傳統數據庫中的數據存儲在本地,擴容后往往需要遷移數據。當數據量達到一定規模時,數據遷移所耗費的時間往往按天計算,給運維帶來了很大的困難。
??l GaussDB(for Influx)相比于傳統的數據庫,最大的特點就是將計算與存儲分離,能夠輕松實現分鐘級擴容。
??此外,在能源、制造、IOT、互聯網等行業的監控統計及分析的應用場景中,時序洞察提供了針對時序數據的可視化功能。在監控領域,我們常看到能實時反映整個系統運行情況的絢麗監控大屏,這便是數據庫的監控看板功能,可以高效地運用監控數據輔助定位故障、性能調優、容量規劃;可以查看各產品的監控數據走勢及對比;跨產品展示關鍵指標的實時數據、歷史數據和整體走勢。業務人員可以根據該信息對業務進行及時調整。
??通過對時序數據庫的發展分析,時序數據庫的發展空間巨大,但也存在很多問題,GaussDB(for Influx)針對其存在的問題,都進行了針對性的創新與發展,可以說GaussDB(for Influx)為時序數據庫的發展提供了巨大推動力。
審核編輯 黃昊宇
-
華為
+關注
關注
216文章
34530瀏覽量
252724 -
數據庫
+關注
關注
7文章
3845瀏覽量
64618
發布評論請先 登錄
相關推薦
評論