古风,古风小说,我欲封天txt下载

作者：Hebert W. Pereyra，IBM 杰出工程師，Hybrid Data Management首席架構(gòu)師

譯者：劉俊，IBM watsonx.data開發(fā)架構(gòu)師

北京2023年7月17日/美通社/ -- 數(shù)據(jù)湖誕生至今已有十多年的歷史，為全球一些最大的企業(yè)提供了數(shù)據(jù)分析的支持。然而，也有人認為，絕大多數(shù)數(shù)據(jù)湖部署已經(jīng)演變成為"數(shù)據(jù)沼澤"。不論你站在哪一邊，現(xiàn)實情況是，這些系統(tǒng)中仍然承載著大量的數(shù)據(jù)。這些數(shù)據(jù)規(guī)模龐大，使得移動、遷移或?qū)ζ溥M行現(xiàn)代化都變得異常困難。

數(shù)據(jù)湖的巨大挑戰(zhàn)：單一結(jié)構(gòu)的架構(gòu)問題

從較高層次來看，數(shù)據(jù)湖是一個大規(guī)模的單一數(shù)據(jù)存儲庫。數(shù)據(jù)可以以原始形式存儲，也可以經(jīng)過優(yōu)化，采用適合專用引擎使用的不同格式。

就Hadoop而言，它是最受歡迎的數(shù)據(jù)湖之一，通過使用開源軟件實現(xiàn)該存儲庫，并在通用硬件上運行，可以以非常低的成本在系統(tǒng)中存儲大量數(shù)據(jù)。數(shù)據(jù)可以以開放的數(shù)據(jù)格式進行持久化，從而實現(xiàn)了數(shù)據(jù)消費的民主化，并通過自動復(fù)制提供了高可用性的支持。默認的處理框架具備從故障中恢復(fù)的能力。這無疑是與傳統(tǒng)分析環(huán)境有著顯著差異的重要轉(zhuǎn)變，傳統(tǒng)數(shù)據(jù)分析環(huán)境往往意味著供應(yīng)商鎖定以及無法處理大規(guī)模數(shù)據(jù)。

另一個出乎意料的挑戰(zhàn)是將Spark引入作為大數(shù)據(jù)處理框架。由于其支持數(shù)據(jù)轉(zhuǎn)換、流式處理和SQL，它迅速獲得了廣泛的認可。然而，它并未能與現(xiàn)有的數(shù)據(jù)湖環(huán)境友好共存，因此通常需要額外的專用計算集群才能運行Spark。

我們將時間前移15年回到當下，現(xiàn)實已經(jīng)清楚地表明了這項技術(shù)所涉及的權(quán)衡和妥協(xié)。其快速的采用意味著客戶很快失去了對數(shù)據(jù)湖中數(shù)據(jù)的追蹤。同樣具有挑戰(zhàn)的是，他們無法確定數(shù)據(jù)的來源、獲取方式以及在處理過程中的轉(zhuǎn)換方式。數(shù)據(jù)治理仍然是這項技術(shù)中尚未探索的領(lǐng)域。雖然軟件可能是開源的，但需要有人學(xué)習(xí)如何使用、維護和支持它。僅依賴社區(qū)支持并不能持續(xù)滿足業(yè)務(wù)運營所需的響應(yīng)時間。高可用性通過復(fù)制實現(xiàn)則意味著需要更多磁盤上的數(shù)據(jù)副本，增加存儲成本，并導(dǎo)致故障更加頻繁。而高可用的分布式處理框架則意味著不得不在性能方面做出妥協(xié)，以換取彈性（這將導(dǎo)致交互式分析和商業(yè)智能的性能嚴重下降）。

為何要對數(shù)據(jù)湖進行現(xiàn)代化？

數(shù)據(jù)湖在特定的使用場景中已經(jīng)被證明是成功的。然而清楚的是，企業(yè)迫切需要對這些部署進行現(xiàn)代化，保護基礎(chǔ)設(shè)施、技能和存儲在這些系統(tǒng)中的數(shù)據(jù)的投資。

在尋找答案的過程中，行業(yè)研究了現(xiàn)有的數(shù)據(jù)平臺技術(shù)及其優(yōu)勢。很明顯，有效的方法是將傳統(tǒng)的（或者說是遺留的）數(shù)據(jù)倉庫或數(shù)據(jù)集市的關(guān)鍵特性與數(shù)據(jù)湖的優(yōu)勢結(jié)合起來。以下幾個關(guān)鍵要素迅速浮出水面：

具備彈性和可擴展的存儲，能夠滿足日益增長的數(shù)據(jù)規(guī)模需求。

采用開放的數(shù)據(jù)格式，使數(shù)據(jù)對所有人都可訪問，同時針對高性能進行優(yōu)化，并具備良好定義的結(jié)構(gòu)。

開放的元數(shù)據(jù)（可共享），能夠支持多個消費引擎或框架。

支持數(shù)據(jù)更新（ACID特性）和事務(wù)并發(fā)處理。

綜合的數(shù)據(jù)安全和數(shù)據(jù)治理（如數(shù)據(jù)血緣、完整的數(shù)據(jù)訪問策略定義和執(zhí)行，包括地理分布）。

上述要素導(dǎo)致了湖倉一體的出現(xiàn)。湖倉一體是一種數(shù)據(jù)平臺，是將數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)點融合在一起，形成統(tǒng)一、協(xié)調(diào)的數(shù)據(jù)管理解決方案。

利用watsonx.data來現(xiàn)代化數(shù)據(jù)湖的好處

站在當下數(shù)據(jù)分析的十字路口，IBM的回應(yīng)是為企業(yè)提供watsonx.data解決方案。

站在當下數(shù)據(jù)分析的十字路口，IBM的回應(yīng)是為企業(yè)提供watsonx.data解決方案，這是一個用于大規(guī)模數(shù)據(jù)管理的新型開放式數(shù)據(jù)存儲，允許企業(yè)在無需遷移的情況下圍繞、增強和現(xiàn)代化其現(xiàn)有的數(shù)據(jù)湖和數(shù)據(jù)倉庫。它支持開放式的多云與混合云，可以在客戶管理的基礎(chǔ)設(shè)施（本地或者私有云）和公有云上運行。它建立在湖倉一體架構(gòu)之上，并嵌入了一整套解決方案（以及通用軟件堆棧），適用于所有形態(tài)。

與市場上的競品相比，IBM的方法基于開源堆棧和架構(gòu)。這些組件并不是新的，而是業(yè)界已經(jīng)廣泛使用的成熟組件。IBM關(guān)注它們的互操作性、共存性和元數(shù)據(jù)交換。用戶可以快速入門，從而大大降低了入門和使用的成本，因為其上層架構(gòu)和基礎(chǔ)概念是大家熟悉且直觀的：

通過對象存儲實現(xiàn)開放的數(shù)據(jù)（和表格格式）

通過S3進行數(shù)據(jù)訪問

使用Presto和Spark進行查詢計算（SQL、數(shù)據(jù)科學(xué)、轉(zhuǎn)換和流處理）

通過Hive和兼容結(jié)構(gòu)實現(xiàn)開放的元數(shù)據(jù)共享

Watsonx.data為企業(yè)提供了一種保護他們在數(shù)據(jù)湖和數(shù)據(jù)倉庫數(shù)十年投資的方式，使企業(yè)可立即擴展并逐步現(xiàn)代化其安裝，將每個組件專注于對企業(yè)最重要的使用場景。

一個關(guān)鍵的差異化因素是多引擎策略，允許用戶在統(tǒng)一的數(shù)據(jù)平臺上根據(jù)實際情況選擇適合的技術(shù)。watsonx.data使客戶能夠?qū)崿F(xiàn)完全動態(tài)的分層存儲（以及相關(guān)的計算）。隨著時間的推移，這可以帶來非常顯著的數(shù)據(jù)管理和處理的成本節(jié)省。

如果最終企業(yè)的目標是通過湖倉一體架構(gòu)來現(xiàn)代化現(xiàn)有的數(shù)據(jù)湖部署，那么watsonx.data則通過選擇計算方式來最小化數(shù)據(jù)遷移和應(yīng)用遷移，從而簡化了任務(wù)。

接下來可以做什么？

在過去的幾年里，數(shù)據(jù)湖在大多數(shù)企業(yè)的數(shù)據(jù)管理策略中發(fā)揮了重要作用。如果企業(yè)的目標是對其數(shù)據(jù)管理策略進行演進并現(xiàn)代化為真正的混合分析云架構(gòu)，那么IBM基于湖倉一體架構(gòu)構(gòu)建的新型數(shù)據(jù)存儲watsonx.data，則是值得企業(yè)考慮的技術(shù)選擇。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

存儲

存儲

+關(guān)注

關(guān)注
13

文章
4320

瀏覽量
85911
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
515

瀏覽量
25491
數(shù)據(jù)分析

數(shù)據(jù)分析

+關(guān)注

關(guān)注
2

文章
1451

瀏覽量
34071

戴爾數(shù)據(jù)湖倉助力企業(yè)數(shù)字化轉(zhuǎn)型

在數(shù)字化轉(zhuǎn)型的浪潮下，企業(yè)正面臨著前所未有的數(shù)據(jù)挑戰(zhàn)。從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到如今的非結(jié)構(gòu)化數(shù)據(jù)、半

發(fā)表于 12-20 09:31 ?123次閱讀

OBOO鷗柏丨PLC嵌入式工控一體機進軍現(xiàn)代工廠產(chǎn)線電子看板市場

OBOO鷗柏作為嵌入式工控一體機現(xiàn)代化品牌源頭工廠，將進軍自動化機柜相關(guān)應(yīng)用場景的市場規(guī)劃，OBOO鷗柏工控一體機，觸摸屏查詢一體機相關(guān)數(shù)字

發(fā)表于 11-13 12:28 ?210次閱讀

OBOO鷗柏丨PLC嵌入式工控<b class='flag-5'>一體</b>機進軍<b class='flag-5'>現(xiàn)代</b>工廠產(chǎn)線電子看板市場

測控一體化閘門遠程監(jiān)控運維系統(tǒng)解決方案

灌區(qū)通常需要根據(jù)灌區(qū)面積和用水需求進行合理規(guī)劃，實現(xiàn)主干渠、支渠、斗渠各個閘門的合理部署，是現(xiàn)代化灌區(qū)的重要內(nèi)容。測控一體化閘門是一種集成了測量和控制功能的現(xiàn)代化水工設(shè)施，不僅能夠?qū)崿F(xiàn)

發(fā)表于 09-30 17:03 ?338次閱讀

測控<b class='flag-5'>一體化</b>閘門遠程監(jiān)控運維系統(tǒng)解決方案

一體成型電感感值低的原因

12、谷景揭秘一體成型電感感值低的

發(fā)表于 07-30 10:41 ?0次下載

安消一體化平臺建設(shè)方案

與消防一體化平臺已成為迫切需求。本文古河云科技將詳細介紹針對企業(yè)安全生產(chǎn)和消防管理需求的一體化平臺建設(shè)方案。首先，安消一體化平臺的系統(tǒng)架構(gòu)應(yīng)該包括前端展示層、后端

發(fā)表于 07-26 14:14 ?398次閱讀

啟揚多尺寸安卓屏一體機，助力水肥一體機實現(xiàn)智能化農(nóng)田管理

隨著科技的飛速發(fā)展，農(nóng)業(yè)現(xiàn)代化已然成為趨勢。在農(nóng)業(yè)領(lǐng)域，水肥一體機通過引入傳感器、物聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)，精準控制水肥配比與投放，為作物提供精準的水肥管理方案，提高作物產(chǎn)量，改善農(nóng)產(chǎn)品品質(zhì)，降低

發(fā)表于 07-06 08:00 ?352次閱讀

啟揚多尺寸安卓屏<b class='flag-5'>一體</b>機，助力水肥<b class='flag-5'>一體</b>機實現(xiàn)智能<b class='flag-5'>化</b>農(nóng)田管理

什么是機電一體化？它有哪些應(yīng)用？

在科技飛速發(fā)展的今天，機電一體化技術(shù)已成為現(xiàn)代工業(yè)生產(chǎn)的核心驅(qū)動力之一。它融合了機械工程、電子技術(shù)、計算機技術(shù)、信息技術(shù)等多學(xué)科的理論與技術(shù)，實現(xiàn)了機械與電子的有機結(jié)合，極大地推動了制造業(yè)的智能

發(fā)表于 06-11 14:02 ?5083次閱讀

什么是數(shù)據(jù)湖？數(shù)據(jù)湖和數(shù)據(jù)倉庫有什么區(qū)別？

從本質(zhì)上說，數(shù)據(jù)湖就是一個信息資源庫。人們常常將數(shù)據(jù)湖與數(shù)據(jù)倉庫混為

發(fā)表于 05-20 12:38 ?623次閱讀

什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>？<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉庫有什么區(qū)別？

巡湖護河聯(lián)合執(zhí)法解決通信是關(guān)鍵

我國實行河湖長制進行生態(tài)環(huán)境保護以來，對湖、河的保護治理取得了不錯的成績。隨著治理的深入，在許多大型湖泊以及西北、西南等省界、市界偏遠地區(qū)，常常需要岸與湖、省與省、市與市之間進行聯(lián)合執(zhí)法，進一

發(fā)表于 05-07 08:28 ?255次閱讀

華為推出數(shù)據(jù)湖解決方案及全閃存存儲新品

此次發(fā)布的新品包括OceanStor Dorado 2100，這是業(yè)界首款面向非結(jié)構(gòu)化數(shù)據(jù)設(shè)計的A-A架構(gòu)入門級全閃存NAS，還有對應(yīng)升級的SAN存儲OceanStor Dorado 2000和支持SAN&NAS

發(fā)表于 02-20 14:18 ?566次閱讀

IBM Storage Ceph：現(xiàn)代數(shù)據(jù)湖倉的理想技術(shù)底座

Storage）。在此期間，企業(yè)在擴展 AI 時正面臨前所未有的數(shù)據(jù)挑戰(zhàn)：在多個位置、以多種形式存儲的數(shù)據(jù)量飆升，但數(shù)據(jù)質(zhì)量較差。為了幫助客戶解決這一問題，我們需要領(lǐng)先的解決方案對客

發(fā)表于 02-02 10:24 ?619次閱讀

揭秘湖倉一體：大數(shù)據(jù)演進的未來趨勢與影響

在湖倉一體架構(gòu)下，數(shù)據(jù)要統(tǒng)一存儲管理，一份數(shù)據(jù)作為

發(fā)表于 01-29 14:17 ?990次閱讀

什么是通感算一體化？通感算一體化的應(yīng)用場景

通感算一體化可廣泛應(yīng)用于智能家居、智慧城市、智慧交通、醫(yī)療健康等方面。文檔君為大家搜集了一些典型的應(yīng)用場景。智能家居通感算一體化利用基站或者Wi-Fi路由器為智能家居系統(tǒng)提供更加豐富的功能。

發(fā)表于 01-18 16:12 ?1.2w次閱讀

構(gòu)建高效數(shù)據(jù)生態(tài)：數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、大數(shù)據(jù)平臺與數(shù)據(jù)中臺解析_光點科技

在數(shù)字化的浪潮中，一套高效的數(shù)據(jù)管理系統(tǒng)是企業(yè)競爭力的核心。從傳統(tǒng)的數(shù)據(jù)庫到現(xiàn)代的數(shù)據(jù)中臺，每

發(fā)表于 01-17 10:20 ?379次閱讀

基于工業(yè)智能網(wǎng)關(guān)的城鄉(xiāng)一體化供水物聯(lián)網(wǎng)解決方案

一、方案背景隨著城市化進程的加快，城鄉(xiāng)供水需求不斷增長，傳統(tǒng)的人工管理方式已無法滿足現(xiàn)代化供水系統(tǒng)的需求。為了解決這一問題，物通博聯(lián)提供基于工業(yè)智能網(wǎng)關(guān)的城鄉(xiāng)

發(fā)表于 01-08 14:02 ?357次閱讀