企業(yè)、數(shù)據(jù)分析公司、數(shù)據(jù)科學(xué)家......我們都在努力尋找新的方法來探索數(shù)據(jù)的連接和關(guān)系,看看它們?nèi)绾巫屖澜缏?lián)系更加緊密從而變得更加美好。這可能是為電子商務(wù)網(wǎng)站尋找更好的產(chǎn)品推薦,或者是幫助銀行在欺詐行為發(fā)生之前尋找可疑的指標(biāo),或者是為制造企業(yè)尋找提高供應(yīng)鏈效率的方法。
任何業(yè)務(wù)流程最重要的方面是理解任何一個(gè)行動(dòng)或資產(chǎn)的關(guān)系,因?yàn)樗鼈冊(cè)谠摿鞒讨邢嗷リP(guān)聯(lián)。
借助圖分析,我們認(rèn)識(shí)到,所有的數(shù)據(jù)都代表了現(xiàn)實(shí)世界中的某些東西,而現(xiàn)實(shí)世界中的幾乎所有東西都以某種方式聯(lián)系在一起。數(shù)據(jù)中的這些關(guān)系可以告訴我們很多東西。它們可以告訴我們,幫助我們找到新的模式和相似性(像我們這樣的人--基于人口統(tǒng)計(jì)學(xué)、生活方式等),告訴我們個(gè)人如何相互聯(lián)系,形成類似興趣的群體。
它可以應(yīng)用于社交媒體,用模式和關(guān)系來豐富客戶的觀點(diǎn),或者遠(yuǎn)遠(yuǎn)超出商業(yè)社會(huì)分析的范圍,在其他無害的通信中檢測(cè)出可能預(yù)示著即將發(fā)生的攻擊、市場(chǎng)危機(jī)或社會(huì)動(dòng)亂的模式。它們可以揭示出我們?cè)谔囟ㄇ闆r下可能會(huì)購(gòu)買什么產(chǎn)品。或者它們可以預(yù)測(cè)組織或基礎(chǔ)設(shè)施的一個(gè)部分的變化會(huì)如何影響其他部分。
# 什么是圖數(shù)據(jù)庫(kù)
圖可以用來分析各種系統(tǒng)中的各種關(guān)系--甚至超越流程或超越個(gè)別操作模型的限制。大多數(shù)常見的業(yè)務(wù)問題需要了解行為者或?qū)ο笾g的關(guān)系。圖數(shù)據(jù)庫(kù)和圖分析就是出于這種理解數(shù)據(jù)關(guān)系的需要而產(chǎn)生的。圖數(shù)據(jù)庫(kù)是數(shù)據(jù)片斷之間的關(guān)系被預(yù)先連接起來的唯一數(shù)據(jù)模型。圖分析提供了一種分析這些關(guān)系的簡(jiǎn)單方法,使用不需要編程專家建立或維護(hù)的類似SQL的查詢,揭示了更多關(guān)于人、產(chǎn)品、賬戶和地點(diǎn)等實(shí)體的信息。
根據(jù)Gartner分析師Afraz Jaffri在2022年Graph+AI全球峰會(huì)上的說法,"到2025年,上下文情境驅(qū)動(dòng)的分析和人工智能模型將取代60%建立在傳統(tǒng)數(shù)據(jù)上的現(xiàn)有模型。" 這只是表明圖技術(shù)將繼續(xù)在日常業(yè)務(wù)運(yùn)營(yíng)中變得更加核心的許多跡象之一。
# 你每天都在應(yīng)用圖
你可能沒有意識(shí)到這一點(diǎn),那就是你每天都在應(yīng)用圖技術(shù),但這是真的。每次搜索時(shí),您都在使用搜索引擎的知識(shí)圖譜。像谷歌這樣的企業(yè)也在不斷改進(jìn)它為用戶搜索返回結(jié)果的方式,但有一件事是可以確定的。每個(gè)搜索都使用被稱為 PageRank 的圖算法進(jìn)行排名。
考慮一下您每次登錄 LinkedIn 時(shí)會(huì)發(fā)生什么。當(dāng)您搜索和查看您的專業(yè)聯(lián)系人時(shí),您會(huì)看到推薦的聯(lián)系人以及與您有直接或間接聯(lián)系的人的活動(dòng)。這些關(guān)系顯示為 1 度、2 度和 3 度連接。這是在 LinkedIn 的 Professional Network Graph 上進(jìn)行圖數(shù)據(jù)庫(kù)搜索的結(jié)果,表明從您到正在審查的聯(lián)系人的跳數(shù)。每次看到有二度聯(lián)系人的普通人脈或普通群,或者 LinkedIn 推薦你與專業(yè)聯(lián)系人聯(lián)系時(shí),你都在查詢 LinkedIn 的專業(yè)網(wǎng)絡(luò)圖譜。
對(duì)了,不要忘記您每次在零售和電子商務(wù)網(wǎng)站上的購(gòu)物體驗(yàn)。每次您使用淘寶、京東、亞馬遜等在線商店時(shí),您現(xiàn)在可能希望這些服務(wù)能夠提供產(chǎn)品推薦。它們由諸如“購(gòu)買此商品的人也購(gòu)買了類似產(chǎn)品”或“這些商品經(jīng)常一起被購(gòu)買”之類的建議來代表。這些都來自圖分析查詢!
而關(guān)系型或 NoSQL 數(shù)據(jù)庫(kù)等傳統(tǒng)技術(shù)無法存儲(chǔ)和分析關(guān)系數(shù)據(jù)以使這些功能成為現(xiàn)實(shí)。只有圖數(shù)據(jù)庫(kù)可以。
# 使用關(guān)系型數(shù)據(jù)庫(kù)或NoSQL數(shù)據(jù)庫(kù)的挑戰(zhàn)
關(guān)系型數(shù)據(jù)庫(kù)將業(yè)務(wù)事實(shí)存儲(chǔ)在單獨(dú)的數(shù)據(jù)庫(kù)表中。為了揭示、分析和理解這些表之間的關(guān)系,包括客戶詳細(xì)信息、訂單信息以及產(chǎn)品和付款數(shù)據(jù)等信息,您需要在此設(shè)置中執(zhí)行表連接。這個(gè)過程可能需要數(shù)周時(shí)間,甚至需要大量的 SQL 編程來構(gòu)建查詢。
NoSQL 數(shù)據(jù)庫(kù)旨在通過將所有數(shù)據(jù)存儲(chǔ)在單個(gè)表中以進(jìn)行快速檢索來解決此問題,而不是為分析而設(shè)計(jì)。
圖數(shù)據(jù)庫(kù)專門用于存儲(chǔ)和分析數(shù)據(jù)之間的關(guān)系,因?yàn)閿?shù)據(jù)實(shí)體和它們之間的關(guān)系是預(yù)先連接的。這消除了對(duì)大表執(zhí)行耗時(shí)的表連接和多次掃描的需要。利用關(guān)系和上下文的力量,圖技術(shù)為預(yù)測(cè)模型帶來了更高的準(zhǔn)確性、穩(wěn)健性和多功能性,并將圖分析、基于圖的特征和圖機(jī)器學(xué)習(xí)納入其工作流程,以開發(fā)新的人工智能應(yīng)用程序。
考慮到這些明顯的優(yōu)勢(shì),您可能會(huì)問自己,“為什么企業(yè)沒有更快地采用圖數(shù)據(jù)庫(kù)?”這是一個(gè)很好的問題,借此我們需要了解一下圖技術(shù)發(fā)展背后的歷史。
# 圖數(shù)據(jù)庫(kù)在企業(yè)層面的應(yīng)用
第一代圖數(shù)據(jù)庫(kù)是用原生圖存儲(chǔ)建立的。比較有代表性的就是Neo4j,它們提供了圖數(shù)據(jù)庫(kù)的一些基礎(chǔ)功能,但是它們采用的是單服務(wù)器、單線程的架構(gòu),因此速度和可擴(kuò)展性受到限制。
它們非常適合加載和可視化中小型的數(shù)據(jù)集,但無法處理上百GB到TB級(jí)的大型數(shù)據(jù)集,比如復(fù)雜的查詢和實(shí)時(shí)的數(shù)據(jù)更新,因此無法在圖內(nèi)執(zhí)行超過三跳或以上的連接。
作為一個(gè)學(xué)術(shù)概念的證明,它們?cè)诳梢暬瘶I(yè)務(wù)實(shí)體之間的關(guān)系方面非常出色。對(duì)于現(xiàn)實(shí)世界的企業(yè)生產(chǎn)需求來說,最初的規(guī)模根本不存在。這些早期的迭代是建立在Java上的,主要是為研究和開發(fā)而設(shè)計(jì)的,而不是為處理大規(guī)模的生產(chǎn)用例的嚴(yán)格要求。
第二代圖數(shù)據(jù)庫(kù)是建立在NoSQL存儲(chǔ)之上的,解決了擴(kuò)展性的問題。它們是基于Key-value或列式數(shù)據(jù)庫(kù),比如Apache Cassandra,解決了數(shù)據(jù)加載的問題。所以,基于第二代圖數(shù)據(jù)庫(kù),你可以把TB級(jí)的數(shù)據(jù)加載到圖中。但是,由于它們不是原生圖存儲(chǔ),所以在做多跳查詢深度鏈接時(shí),性能表現(xiàn)并不是很好,因此它們?nèi)匀粺o法擴(kuò)展涉及三個(gè)或更多連接或跳躍的查詢。
而且,由于是使用的NoSQL技術(shù),這不是為了做實(shí)時(shí)更新的技術(shù),所以在用戶產(chǎn)生了新的交易、新的購(gòu)買行為時(shí),很難在圖上實(shí)時(shí)地做數(shù)據(jù)更新。這也就限制了它們進(jìn)行深度或復(fù)雜分析的能力。
現(xiàn)代圖平臺(tái)使用C++,是為企業(yè)使用而設(shè)計(jì)的。更現(xiàn)代的方法允許擴(kuò)展計(jì)算能力、突變性(意味著它們支持系統(tǒng)更新)、數(shù)據(jù)流和批處理,同時(shí)在圖數(shù)據(jù)庫(kù)中進(jìn)行快速計(jì)算,而不是在圖數(shù)據(jù)庫(kù)之外將結(jié)果拉入數(shù)據(jù)庫(kù)供用戶訪問。
第二代圖數(shù)據(jù)庫(kù)通常也不支持?jǐn)?shù)據(jù)庫(kù)分片。這使得擁有TB級(jí)數(shù)據(jù)的組織無法將數(shù)據(jù)分布到多個(gè)服務(wù)器上,從而使每個(gè)服務(wù)器都有幾百G的數(shù)據(jù)。
第一代和第二代圖數(shù)據(jù)庫(kù)進(jìn)一步證明了它們的局限性:
不能擴(kuò)展到多臺(tái)機(jī)器上存儲(chǔ)大數(shù)據(jù)(數(shù)據(jù)庫(kù)分片)和并行查詢處理
不能支持下一代欺詐檢測(cè)、推薦引擎、機(jī)器學(xué)習(xí)和人工智能用例所需的深度鏈接分析(超過三跳)。
無法滿足大數(shù)據(jù)更新和亞秒級(jí)查詢性能的實(shí)時(shí)要求。
# 第三代圖數(shù)據(jù)庫(kù)
而也正是前幾代圖數(shù)據(jù)庫(kù)的缺點(diǎn)和圖數(shù)據(jù)庫(kù)的應(yīng)用趨勢(shì)促進(jìn)了下一代圖數(shù)據(jù)庫(kù)和分析技術(shù)的發(fā)展。TigerGraph開發(fā)了第三代圖數(shù)據(jù)庫(kù),來解決第一代和第二代中的這些不足,它又回到了原生圖存儲(chǔ),我們通過分布式部署、并行計(jì)算,不僅針對(duì)數(shù)據(jù)存儲(chǔ)做了優(yōu)化,解決了擴(kuò)展性的問題,而且加快了數(shù)據(jù)加載、數(shù)據(jù)查詢、事務(wù)處理等各個(gè)方面的速度。TigerGraph可專門用于在數(shù)小時(shí)內(nèi)加載TB級(jí)的數(shù)據(jù),并實(shí)時(shí)分析多達(dá)10跳或更多跳的關(guān)系。
第三代圖數(shù)據(jù)庫(kù)是第一個(gè)可以支持HTAP的圖數(shù)據(jù)庫(kù),HTAP可以同時(shí)支持OLTP事務(wù)處理和OLAP數(shù)據(jù)分析,TigerGraph是第一個(gè)支持HTAP的圖數(shù)據(jù)庫(kù),它可以使用圖數(shù)據(jù)庫(kù)中的同一個(gè)實(shí)例和schema,支持事務(wù)處理和分析處理,符合ACID標(biāo)準(zhǔn),并可通過數(shù)據(jù)庫(kù)分片擴(kuò)大和延伸。TigerGraph的開放式查詢語言GSQL,使我們能夠支持修改和可解釋的人工智能,提供一個(gè)可應(yīng)用于多種用例和連接數(shù)據(jù)的人工智能應(yīng)用的平臺(tái)。
這里我們總結(jié)一下TigerGraph作為第三代原生并行圖數(shù)據(jù)庫(kù)的六大優(yōu)勢(shì):
NO.1 可擴(kuò)展性
TigerGraph可以將大量數(shù)據(jù)快速加載到數(shù)據(jù)庫(kù)中進(jìn)行分析,使每臺(tái)機(jī)器每小時(shí)可以加載約100GB的數(shù)據(jù),并且可以通過幾臺(tái)機(jī)器并行加載,從而快速地將TB級(jí)的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)。同時(shí),TigerGraph可以存儲(chǔ)數(shù)十億個(gè)實(shí)體,數(shù)千億個(gè)關(guān)系,并能通過增加硬件,擴(kuò)展集群,達(dá)到萬億甚至更多。
NO.2 事務(wù)性圖(可變的圖)
系統(tǒng)中每秒可能會(huì)產(chǎn)生數(shù)百上千筆交易,比如新的客戶注冊(cè)、物料采購(gòu)支付等,TigerGraph可以支持您的業(yè)務(wù)7X24小時(shí)運(yùn)行,實(shí)時(shí)地進(jìn)行數(shù)據(jù)更新。為了對(duì)您最新的業(yè)務(wù)進(jìn)行分析,需要一個(gè)可變的圖數(shù)據(jù)庫(kù),這意味著您可以像閱讀圖一樣,輕松地對(duì)其進(jìn)行更新。第一代圖數(shù)據(jù)庫(kù),無法作為客戶日常業(yè)務(wù)處理的數(shù)據(jù)庫(kù),客戶一般也不會(huì)這樣應(yīng)用。第二代圖數(shù)據(jù)庫(kù),可以通過NoSQL的方式存儲(chǔ)大量數(shù)據(jù),但是它們不可變,這意味著它們無法支持事務(wù)更新,無法在響應(yīng)查詢的同時(shí)吸收新數(shù)據(jù)。而TigerGraph可以用于生產(chǎn)環(huán)境,每天進(jìn)行數(shù)十億筆交易。
NO.3 實(shí)時(shí)性能
該功能可以對(duì)查詢提供亞秒級(jí)的響應(yīng),這對(duì)于上千萬級(jí)別的實(shí)體和關(guān)系來說,可能會(huì)非常困難。第一代和第二代圖數(shù)據(jù)庫(kù)技術(shù)的查詢,通常會(huì)花費(fèi)很長(zhǎng)時(shí)間,或者超時(shí),尤其是當(dāng)數(shù)據(jù)量增長(zhǎng)時(shí),整個(gè)圖涉及大量的實(shí)體和關(guān)系。而TigerGraph已在多個(gè)客戶的生產(chǎn)環(huán)境中驗(yàn)證,具有亞秒級(jí)的響應(yīng)時(shí)間,可用于金融服務(wù)、電子商務(wù)和醫(yī)療保健等多個(gè)行業(yè)客戶的復(fù)雜查詢。
NO.4 深度鏈接多跳分析
當(dāng)我們進(jìn)行深層鏈接分析時(shí),遍歷整個(gè)圖進(jìn)行3到10跳以上的計(jì)算和分析,可以發(fā)現(xiàn)一些原本不明顯的關(guān)系,這可以用在反欺詐、反洗錢、電商推薦等多個(gè)領(lǐng)域,而這些分析超出了通常的分析范圍。第二代圖數(shù)據(jù)庫(kù)技術(shù)支持大型的圖上進(jìn)行2到3跳,然而當(dāng)進(jìn)行3跳以上的計(jì)算時(shí),由于這些系統(tǒng)的架構(gòu)限制,深度鏈接查詢將耗盡內(nèi)存,或者超時(shí)返回。而TigerGraph適用于跨越數(shù)千億個(gè)實(shí)體的大型圖的深層鏈接分析,用來檢測(cè)欺詐者,并識(shí)別可能涉及洗錢的復(fù)雜支付及交易。
NO.5 查詢語言GSQL
TigerGraph的查詢語言GSQL非常容易學(xué)習(xí),并且很容易開發(fā)復(fù)雜的圖查詢。GSQL不僅包括查詢,還包括數(shù)據(jù)分析和數(shù)據(jù)加載,它們自動(dòng)創(chuàng)建restful頂點(diǎn),并以JSON或CSV格式傳輸數(shù)據(jù),這使得和其它系統(tǒng)集成變得非常容易。GSQL可以用于開發(fā)數(shù)據(jù)導(dǎo)出,將圖查詢與其它系統(tǒng)共享,例如BI系統(tǒng),還可以給機(jī)器學(xué)習(xí)工具提供新的訓(xùn)練數(shù)據(jù)。
NO.6 敏感數(shù)據(jù)的權(quán)限需求
最后,我們要談到一個(gè)重要方面——敏感數(shù)據(jù)的權(quán)限需求。TigerGraph有完善的數(shù)據(jù)加密和權(quán)限機(jī)制,來保護(hù)敏感數(shù)據(jù),以使具有適當(dāng)權(quán)限的用戶部門或組織,可以查看或更新敏感數(shù)據(jù),而其它沒有權(quán)限的用戶部門或組織,沒有辦法查看或更新這些敏感數(shù)據(jù)。
# 第三代圖數(shù)據(jù)庫(kù)的幾個(gè)主要特點(diǎn)
TigerGraph是世界上第一個(gè)原生并行計(jì)算和分布式的圖數(shù)據(jù)庫(kù);
產(chǎn)品架構(gòu)是為實(shí)現(xiàn)互操作性而設(shè)計(jì)的;
擁有用戶可擴(kuò)展的圖算法庫(kù);
提供多圖服務(wù);
TigerGraph具有自己的查詢語言GSQL,圖靈完備,且類似SQL,易于學(xué)習(xí),并始終確保100%兼容即將出臺(tái)的行業(yè)標(biāo)準(zhǔn)語言GQL;
擁有完整的GraphStudio可視化軟件開發(fā)套件,用于端到端圖的設(shè)計(jì)、部署、探索;
可以用于機(jī)器學(xué)習(xí),進(jìn)行一些深度圖特征的實(shí)時(shí)計(jì)算,給機(jī)器學(xué)習(xí)提供特征補(bǔ)充。
審核編輯:劉清
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9205瀏覽量
85558 -
JAVA
+關(guān)注
關(guān)注
19文章
2970瀏覽量
104816 -
SQL
+關(guān)注
關(guān)注
1文章
766瀏覽量
44164 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3816瀏覽量
64465
原文標(biāo)題:Vol.30 還有人不知道圖技術(shù)嗎?那就來了解一下
文章出處:【微信號(hào):TigerGraph,微信公眾號(hào):TigerGraph】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論