互聯網時期,大數據的概念便被提出來。但在大部分人看來,大數據就如同“烏托邦”一樣,是渴望創新的人打造的假想國。當在這前面加上區塊鏈,這一切看來似乎就更虛無縹緲。
但實際上,大數據的產業價值已經影響到人們生活的方方面面。區塊鏈+大數據兩種看似牛馬不相及的技術,卻在解決數據分散、非對稱持有方面有著更多價值,可以更好實現互聯網信息的互聯互通。
隨著區塊鏈發展至今,這一結合到底是科技進步還是癡人說夢?關于區塊鏈+大數據背后的技術研究,大眾又知幾何?
OK區塊鏈聯合OKLink技術副總裁梁福坤,他從區塊鏈瀏覽器這一方向入手,闡述了區塊鏈和大數據的可結合之處以及區塊鏈技術與傳統互聯網技術的不同之處,希望能對讀者有所啟發。
目前來說,OKLink區塊鏈瀏覽器聚焦定位三大技術方向:區塊鏈、大數據和人工智能(AI方向),三者之間緊密協作,打造區塊鏈數據門戶的整體生態。
下面闡述三大技術在瀏覽器中的位置和作用,以及面臨的架構技術挑戰。
1. 區塊鏈技術
區塊鏈角色更多關注全節點作為數據源提供方,依賴區塊鏈技術的分布式、公開透明、可追溯、不可篡改等特征,同時結合數據分布式存儲、點對點傳輸、共識機制、加密算法等多種技術融合形成的區塊鏈創新應用模式。
在區塊鏈瀏覽器的整體架構中,區塊鏈作為數據源存在的挑戰與傳統大數據進行ETL(Extract-Transform-Load)比較。
多幣種主鏈數據組織差異大,在眾多主鏈數據持有能力上,需要思考如何在系統架構上提出能夠保證通用結構復用,又要兼顧多主鏈個性化靈活支持的需求。同時,理解區塊鏈全節點數據的業務特征、不同版本之間差異、分叉對不同高度的解析細節上在研發周期中占用較大比重。
以往大數據架構不需要太多的關注數據業務本身涵義,更多聚焦在數據流轉、計算、存儲,而區塊鏈則需要對業務了解放在首位,起點較高。
2. 大數據技術
在OKLink區塊鏈瀏覽器上,大數據聚焦在區塊鏈數據源解析之后,推送到Kafka消息隊列后續,對數據進行統計分析,實時計算和離線計算部分。
同時,在瀏覽器前端展示ToC提供線上檢索服務和對不同的數據應用放提供ToB(面向商業)的API訪問方式。
當然,區塊鏈瀏覽器中大數據的實踐和傳統互聯網大數據有著較為明顯區分特征,下面逐一說明:
A) 數據中臺
區塊鏈大數據更加側重數據中臺的角色,而不是傳統的后臺提供數據分析、離線計算的位置。之所以在數據中臺委以重任,是需要更快、更為靈活的交付用戶數據。
所以查詢快是OKLink的一大亮點,要提供區塊鏈數據的快速交付,需要在數據解析到流轉、計算存儲、查詢4個方面整個鏈路做全方面的優化,整體協作來完成快速交付。
時效性在區塊鏈對ToB方面至關重要,ms級別的先機會對類似量化交易及時做出預判,類似傳統意義提到的時間就是金錢,唯快不破。
B) 數據弱化分區特征
在互聯網等傳統大數據進行存儲,一般會對數據按照日期進行一級分區,對于數據進行分布式存儲和計算在MPP架構中應用非常嫻熟,數據可以根據使用情況做熱數據、溫數據、冷數據處理分層Cache、歸檔等處理。
而區塊鏈大數據存儲在業務層面需要時刻準備交付,即數據可以理解均為熱點數據,例如按照地址檢索交易記錄,即便較久交易也需要實時交付。
同時,時間維度在做區塊鏈的業務場景應用中不重要,反而區塊高度、交易Hash、地址等維度命中率在大部分場景下有較多應用。
在架構層面,滿足弱化分區特征,需要實現索引和數據的異構引擎配合存儲和計算,在服務層面需要做到數據一致性、檢索過程業務透明、新增索引項靈活配置、熱部署等工程方面挑戰。
C) 流批處理
流批處理指的是區塊鏈計算指標需要結合歷史的統計信息和當前的實時數據做更新,例如地址的累計交易金額=歷史累計交易金額+當前交易金額。
前面提到如果大數據處于后臺角色,可以完全通過離線計算批處理的方式進行統計,這樣的方式即保證了準確性,又相對保險,但在時間上會有滯后。而作為數據中臺能快速準確交付用戶信息,這里需要歷史聚合數據和當前變更數據做實時計算。
這種場景最大的挑戰是數據指標的冷啟動+實時計算結合,并且一個指標從定義到交付更為靈活,就需要在架構設計上支持配置化的指標定義,而非Case by Case的定制開發。
OKLink實時計算平臺“閃電”中采用Flink作為流批數據計算的架構選型,支持靈活定義Source數據源、ETL數據上下游銜接和靈活定義Sink輸出。在存儲方面借助HBase存儲滿足實時更新和按照Key檢索,歷史聚合信息計算結果存儲在HBase,并且記錄歷史截止交易高度,閃電平臺敏銳察覺數據變更并且延續后續實時計算過程。
D) 數據補償機制
即當線上數據出現問題之后,如何能夠快速修正數據。一般來說,數據出現問題的原因包括:計算邏輯變更、數據解析bug、區塊分叉、數據延遲交付等因素。
這些因素雖然在瀏覽器上線后出現的頻率較低,但是每次出現人工處理成本較高,主要表現在處理時間、人工核驗的質量參差不齊。
數據補償機制是數據質量保證重要的途徑,可以滿足數據的最終一致性需求。數據補償的處理步驟可以歸納為識別壞數據、定位數據源、清理目標寫入、數據重計算四個部分,因為針對不同的數據源處理步驟大同小異,所以非常適合工程化方案解決。
當前這里面也存在一些挑戰,比如壞數據出現位置監控與定位、已寫入引擎數據識別和清楚、修正補丁(Patch)熱部署熱加載避免停服、旁路數據修正等。
E) 新數據頻繁變更
數據變更在互聯網場景更多體現在OLTP數據庫中,而在OLAP場景下更多為沉淀數據,追加較多變更非常少。
頻繁變更帶來的問題是數據碎片化嚴重、標記刪除和定期歸檔工程化較為復雜,目標存儲引擎支持更新,同時如果支持冪等性業務操作,還需要識別已寫入數據哪些是覆蓋想,哪些是刪除項。
3. 人工智能技術
人工智能(AI)技術在區塊鏈瀏覽器場景下,落地存在較多場景。從公開、透明、不可篡改的數據中,發現數據背后更多的價值挖掘,例如地址畫像、量化交易都是從已有區塊數據中發現相關性。
AI技術和區塊鏈技術均存在擅長的發揮領域,但是也避免不了有各自的短板,而取長補短融合才能發揮更大的空間。
區塊鏈數據去中心化和分布式存儲給AI帶來公開透明的大數據生態市場、更加豐富AI的數據特征工程、模型與算法提升。同時,把AI技術應用到區塊鏈,可以讓區塊鏈智能合約、工作量證明、自治組織等更加智能、高效、安全、未來精準評估。
首先在數據公開對稱層面,區塊鏈數據不像傳統大數據掌握在BAT等大公司手中,相對數據使用者是對等的關系。
因為區塊鏈數據對使用者更加開放和對等的信息公開性,基于區塊鏈數據的應用在數據層面讓使用者站在同一個起點和基礎。而人工智能的核心算法層、模型層面,更為適應業務需求開展深度發揮,在數據應用層面百花齊放。
其次是合作共贏方面,因為是相同數據樣本產出的結果,后期產業融合、成果融合方面更為開放和流暢。
這其中代表性的例子類似地址的標簽畫像,不同的應用放可以針對標簽構建特征工程和描繪,最后成果可以根據地址的ID-Mapping可以實現融合共享。
類似業界安全方面比較注重的黑產地址、博彩地址、富豪地址、礦池和交易所地址的多角度識別,未來AI、區塊鏈技術在相互調用、促進方面會有更多想象空間等待發現。
評論
查看更多