在萬物互聯的時代,圖數據庫在金融科技、社交網絡等領域發揮著不可替代的作用,它能清晰地揭示各類復雜模式。
本文介紹了圖數據庫的歷史由來、特性及其優勢,并說明了圖數據庫解決的是什么樣的問題,闡述了圖數據庫的應用場景,并對其發展做了展望。
1
概 述 #
【 簡介 】
在當前的環境中,通信、互聯網、社交網絡和物聯網等領域積累了大量的關聯數據。
面對各種海量數據,尤其是海量非結構化數據的存儲,傳統的信息存儲和組織模式已經無法滿足客戶需求,圖數據庫卻能夠很清晰地揭示各類復雜模式,提供了新的方式為數據賦能,驅動行業發展。
【 什么是圖數據庫 】
圖數據庫(Graph Database)不是存儲圖像的數據庫,而是基于圖模型,使用圖結構進行語義操作的非關系型數據庫,它應用圖理論存儲實體之間的關系信息,最常見例子就是社會網絡中人與人之間的關系。 它使用頂點、 邊和屬性來表示和存儲數據,支持數據的增刪改查操作。
在圖數據庫中,最主要的組成有兩種,結點集和連接結點的關系。 結點集就是圖中一系列結點的集合,比較接近于關系數據庫中所最常使用的表,而關系則是圖數據庫所特有的組成。
圖數據庫的代表有Neo4j、ArangoDB、Virtuoso、Neptune、JanusGraph、TigerGraph等。
【 圖數據庫發展 】
據數據庫咨詢公司DBEngines統計,圖數據庫是所有數據管理系統中成長最快的分類。由于很早就被Twitter,Facebook以及Google在內的公司采用,圖已經逐漸演變成當今各行各業所使用的主流技術,連續多年處于高速發展中。
2007年,第一款圖數據庫Neo4j的誕生,給關聯查詢帶來了情理之中卻又意料之外的性能優勢。2010 年后,圖數據庫朝著多個不同的方向發展,包括支持大規模分布式圖處理、支持多模態、圖查詢語言的設計、專用硬件的適配等,并且不斷在存儲和計算能力上發展。
值得關注的是,全球最具權威的 IT 研究與顧問咨詢公司 Gartner,將圖技術列為2022年新興技術和趨勢影響力雷達圖中,五項具有影響力的技術之一。
圖數據庫發展史
2圖數據庫技術
在我們了解科學、政府和商業領域的數據集廣泛多樣性的過程中,圖起到了基地的作用。現實世界完全不同于關系型數據庫背后的基于表的模型,它是豐富的且互相之間充滿關聯。一旦理解了圖,你就會發現圖無處不在。比如,Gartner定義了商業世界的5個圖:社交、意向、消費、興趣和移動,并指出運用這些圖的能力是一個“可持續的競爭優勢”。
本章將對圖數據模型、圖數據存儲以及圖數據查詢等方面進行簡要介紹。
【 圖數據模型 】
圖模型是圖數據庫表達圖數據的抽象模型。目前主流的圖模型主要包括資源描述框架(RDF)和屬性圖兩種。
RDF提供了一個統一的標準來描述資源,所謂資源可以指類、屬性、實例等。 RDF 在形式上表示為 SPO(subject, predicate, object)三元組,即(主語/主體、謂語/屬性、賓語/客體),用于描述具體的事物及關系。
RDF模型
相較于RDF,目前主流的圖數據庫選擇的圖模型是屬性圖。 **屬性圖由點、邊、標簽和屬性組成。**開源圖數據庫 Neo4j 和 JanusGraph 都采用屬性圖的數據模型。
屬性圖模型
【 圖數據存儲 】
**圖數據庫有原生和非原生存儲兩種存儲方式。**我們以Neo4j和JanusGraph為例簡要說明兩種方式。
Neo4j使用原生設計的圖存儲,將圖數據存儲在若干不同的存儲文件中,每個存儲文件包含圖特定部分的數據(例如,節點、聯系、標簽和屬性都各自獨立的存儲),其中常用的存儲方式為鏈表、排序樹以及哈希表等。
JanusGraph 使用非原生圖存儲,將圖結構序列化存儲到鍵值對數據庫中。也有很多圖數據庫在存儲上直接使用了 NoSQL 數據庫,比如鍵值對存儲、文檔存儲等。
【 圖數據查詢 】
按照查詢范圍的遞增順序,面向圖數據的查詢可以大體分成單點查詢、鄰居查詢、路徑遍歷、子圖匹配和全圖分析這幾類。
與關系模型以及其它 NoSQL 數據模型相比,基于圖數據模型的查詢具有更高的復雜度,這就對查詢語言提出了更高的要求。查詢語言按照編寫的邏輯,可以分為描述式和命令式兩種。
目前為止,圖數據庫尚且沒有業界統一認可的查詢語言,通常都是僅限于一個產品的。不過,已經有一些標準化的工作,使得Gremlin、SPARQL成為代表性描述式查詢語言,Cypher成為代表性命令式查詢語言。
3圖數據庫的優勢
圖數據庫為何越來越受到歡迎呢?通過節點,邊和屬性的圖的格式存儲數據,圖數據庫克服了其他數據庫無法解決的大而復雜的數據難題,其獨特性可以體現為以下三個方面:
① 性能
在關聯關系的處理上,關系型數據庫處理不可避免要用到表的 JOIN 操作,非常影響性能。而圖數據庫則是類似指針直接跳轉訪問,在典型查詢上比關系數據庫通常有n個數量級的性能優勢。
② 兼容性
現實中的項目通常是不斷演進的,意味著數據內容甚至數據格式也會不斷發生變化。在關系型數據庫中,這意味著表結構的變化,或者多個新表的建立,對源數據的改動非常大。而在圖數據庫里,僅需添加新的頂點、邊、屬性,設置為對應的類型即可。從本質上說,一個頂點代表一個特定的數據,也就是說圖數據庫更關注數據的個體,識別其關聯關系。
③ 直觀性
頂點和邊的圖模型相比于表模型更符合人的思維方式。比如我們面對面用紙筆交流介紹社交網絡關系,會自然而然地使用點邊的方式畫出來,這正是圖模型。在圖數據上進行分析查詢時,也可以直觀地通過點邊連接的拓撲,交互式找到想要的數據。因此有一種說法是:與關系型數據庫相比,圖數據關系才是真的處理“關系”的。
4
圖數據庫的應用 *
圖數據庫的應用原理是查詢和分析連接數據,對海量數據建立關聯,并通過多樣及快速的方法對數據進行分析與挖掘。此外,與其他類型數據庫相比,圖數據庫的操作更為便捷、數據更加直觀、存儲模式靈活、應用場景豐富,是未來處理復雜數據關系的技術趨勢。
目前圖數據庫的需求應用場景正在不斷增多,而從計算和分析數據之間關系的角度來說,圖數據庫比傳統數據庫的性能約有百倍以上的提升,在金融、電信等一系列領域都面臨著巨大的需求。
以數據的關聯特征與問題的相似性為基礎,典型的圖數據庫應用場景如下:反欺詐、推薦引擎、知識圖譜、主數據管理、地理空間分析以及社交網絡等。
圖數據庫應用場景
5
我國****圖數據庫現狀
目前,歐美國家的 Neo4j 和 ArangoDB 等數據庫系統仍然是市場的主流。與歐美國家相比,中國人口眾多,數據量巨大,相應的圖數據庫需求也更大。但是,中國的圖數據庫基礎研究相對薄弱,缺少專業的數據處理人才,更是制約了圖數據庫的應用與發展。
因此,在發展層面,我國需要更專注產品的技術創新層面,打造更完全自主的圖數據庫;在服務層面,積極探索云計算模式的圖數據庫服務,打造基于云計算的圖數據庫;在應用方面,繼續在圖的可視化工具方面進行創新,通過拖拽的方式,自動生成查詢語言、實時反饋結果,提升圖數據庫的應用便捷性。通過圖數據庫發現不同事物、數據之間的深度關聯,獲得更深層次的洞察。
值得一提的是,基于AMiner的數據分析顯示,我國在圖數據庫領域的研究熱度僅次于美國,也涌現了一些比較知名的圖數據庫,比如:阿里云圖數據庫Graph Database,騰訊云圖數據庫Tencent Graph Database以及百度圖數據庫HugeGraph等。
6
**# **圖數據庫的展望 #
當前,我們對圖的了解是建立在數百年的數學和科學研究之上的,而基于此的圖數據庫正在用它獨有的優勢展現出強大的生命力。
未來,隨著全球范圍內互聯網用戶、設備和數字處理的增多,生成的數據也越來越多。也就是說,企業能否充分利用相關數據決定著企業未來的發展。圖數據庫將會是存儲、關聯和利用數據最有效的方式。可以想象的是,通過設計和實現圖數據庫解決方案,以及應用圖算法解決復雜的商業問題的知識,將會構建出一個開拓性的信息系統。
接下來圖數據庫可能面臨三大趨勢,分別是查詢語言統一化、圖數據庫與圖處理引擎融合化、軟硬件一體化。****我們期待未來圖數據庫的發展,能夠帶給全行業新的面貌。
-
物聯網
+關注
關注
2909文章
44635瀏覽量
373400 -
硬件
+關注
關注
11文章
3328瀏覽量
66224 -
數據庫
+關注
關注
7文章
3799瀏覽量
64396
發布評論請先 登錄
相關推薦
評論