數(shù)據(jù)倉儲(chǔ),數(shù)據(jù)倉儲(chǔ)是什么意思
數(shù)據(jù)倉儲(chǔ),數(shù)據(jù)倉儲(chǔ)是什么意思
各個(gè)組織每天都要捕獲一些基本不可使用的數(shù)據(jù),原因是無法很方便地訪問、操作和呈現(xiàn)這些數(shù)據(jù)。在一個(gè)組織的各計(jì)算機(jī)系統(tǒng)上,有數(shù)十億字節(jié)的數(shù)據(jù)基本上是“鎖定”的。數(shù)據(jù)倉儲(chǔ)技術(shù)定義了可以使該數(shù)據(jù)更容易訪問的策略。
業(yè)內(nèi)分析人士和系統(tǒng)供應(yīng)商長(zhǎng)久以來已經(jīng)認(rèn)識(shí)到有兩種類型的信息系統(tǒng):
作業(yè)系統(tǒng) 作業(yè)系統(tǒng)是指組織內(nèi)將輸入轉(zhuǎn)換成輸出而創(chuàng)造價(jià)值的系統(tǒng)。它接受輸入,即:人、設(shè)備和材料,然后將其轉(zhuǎn)換成能滿足需要的商品或服務(wù)。這些系統(tǒng)用來處理日常的經(jīng)營(yíng)活動(dòng),如記帳、訂單輸入和庫存管理等。這些系統(tǒng)維持企業(yè)運(yùn)行。
信息系統(tǒng) 信息系統(tǒng)是以提供信息服務(wù)為主要目的的數(shù)據(jù)密集型、人機(jī)交互的計(jì)算機(jī)應(yīng)用系統(tǒng)。人們使用這些系統(tǒng)來分析數(shù)據(jù)、作出企業(yè)管理決策和規(guī)劃未來發(fā)展。這些系統(tǒng)通常是指“經(jīng)理管理系統(tǒng)”。
這兩個(gè)系統(tǒng)之間的重要差別在于,作業(yè)系統(tǒng)處理一組特定的數(shù)據(jù)(如庫存),而信息系統(tǒng)則要涉及到從多種多樣的相關(guān)信息源中提取有用的信息。信息系統(tǒng)從以下信息源訪問和使用數(shù)據(jù):
遺留數(shù)據(jù)系統(tǒng) 一個(gè)組織經(jīng)過多年的收集而獲得的數(shù)據(jù)的倉庫。這些系統(tǒng)包括較早的大型機(jī)或小型計(jì)算機(jī)系統(tǒng),這些系統(tǒng)運(yùn)行的特定應(yīng)用程序已經(jīng)不容易從較先進(jìn)的基于PC的應(yīng)用程序中來訪問了。
外部數(shù)據(jù)系統(tǒng) 這些系統(tǒng)位于組織外部,如Web服務(wù)器或訂閱數(shù)據(jù)業(yè)務(wù),它們提供了廣泛的信息(如人口統(tǒng)計(jì)數(shù)據(jù)、經(jīng)濟(jì)趨勢(shì)數(shù)據(jù)、產(chǎn)品數(shù)據(jù)等)。
作業(yè)數(shù)據(jù)系統(tǒng) 如前所述,作業(yè)數(shù)據(jù)是指由記帳和其他企業(yè)系統(tǒng)收集和生成的日常數(shù)據(jù)。
數(shù)據(jù)倉庫可以視為一個(gè)三部分系統(tǒng),其中,中間系統(tǒng)向終端用戶安全地提供可用的數(shù)據(jù)。在中間系統(tǒng)的一側(cè)是終端用戶,一側(cè)是后端數(shù)據(jù)存儲(chǔ)區(qū)。數(shù)據(jù)倉庫通常由以下幾部分組成,如圖D-12所示。
圖D-12 數(shù)據(jù)倉庫結(jié)構(gòu)分級(jí)系統(tǒng)/數(shù)據(jù)集市 從后端系統(tǒng)中選擇的數(shù)據(jù)即存儲(chǔ)在此,以供客戶機(jī)訪問。通常要以多種方式對(duì)數(shù)據(jù)進(jìn)行清理和處理才能對(duì)其進(jìn)行訪問,這在后面將進(jìn)行探討。數(shù)據(jù)倉庫可以包含多個(gè)數(shù)據(jù)集市,每個(gè)數(shù)據(jù)集市對(duì)應(yīng)于公司的一個(gè)部門。盡管數(shù)據(jù)集市可存儲(chǔ)從數(shù)據(jù)倉庫提取的信息,但數(shù)據(jù)倉庫常常是分階段建立的,首先建立部門數(shù)據(jù)集市,然后將各個(gè)數(shù)據(jù)集市合并起來。
前端客戶機(jī) 這些客戶機(jī)是指使用基于PC的應(yīng)用程序訪問數(shù)據(jù)以供分析的終端用戶。
中間件 中間件是一種獨(dú)立的系統(tǒng)軟件或服務(wù)程序,分布式應(yīng)用軟件借助這種軟件在不同的技術(shù)之間共享資源。中間件位于客戶機(jī)/ 服務(wù)器的操作系統(tǒng)之上,管理計(jì)算資源和網(wǎng)絡(luò)通訊。是連接兩個(gè)獨(dú)立應(yīng)用程序或獨(dú)立系統(tǒng)的軟件。中間件可隱藏不同數(shù)據(jù)管理系統(tǒng)之間的差別,并使客戶機(jī)可以容易地訪問這些系統(tǒng)。執(zhí)行中間件的一個(gè)關(guān)鍵途徑是信息傳遞。通過中間件,應(yīng)用程序可以工作于多平臺(tái)或OS環(huán)境。
消息系統(tǒng) 數(shù)據(jù)倉庫通常包含多個(gè)后端系統(tǒng)和多個(gè)客戶機(jī)。一個(gè)消息系統(tǒng)就是一個(gè)傳遞系統(tǒng),用來在整個(gè)數(shù)據(jù)倉庫中傳輸請(qǐng)求和響應(yīng)消息系統(tǒng)使用基礎(chǔ)網(wǎng)絡(luò)協(xié)議和設(shè)備傳遞信息。
元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),這一點(diǎn)與圖書館的目錄卡片包含圖書相關(guān)的信息很類似。可將其按用途的不同分為兩類,技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
從圖D-12中可以看出,客戶機(jī)可以訪問存儲(chǔ)在數(shù)據(jù)集市中的數(shù)據(jù),盡管也可以直接訪問遺留系統(tǒng)、作業(yè)系統(tǒng)或外部系統(tǒng)。但這種分級(jí)的方法有許多優(yōu)點(diǎn),其中包括安全性以及客戶機(jī)對(duì)數(shù)據(jù)分析人員或數(shù)據(jù)管理員嚴(yán)格控制的數(shù)據(jù)的訪問權(quán)。
關(guān)于數(shù)據(jù)倉庫中的信息
數(shù)據(jù)倉庫可以視為一個(gè)系統(tǒng),該系統(tǒng)保存有來自遺留、作業(yè)或外部數(shù)據(jù)源的匯總信息。分級(jí)系統(tǒng)只存儲(chǔ)最新的信息,僅供只讀使用。所有數(shù)據(jù)更新均在作業(yè)系統(tǒng)上進(jìn)行,而不在分級(jí)系統(tǒng)上進(jìn)行。根據(jù)Prism Solutions(現(xiàn)在稱為Informix),在數(shù)據(jù)倉庫中有不同級(jí)別的匯總和細(xì)節(jié),如圖D-13所示。下面進(jìn)行解釋:
圖D-13 數(shù)據(jù)倉儲(chǔ)中的數(shù)據(jù)結(jié)構(gòu)(經(jīng)Prism Solutions許可)
較早的細(xì)節(jié)數(shù)據(jù)是指歷史數(shù)據(jù)或遺留數(shù)據(jù)。
當(dāng)前細(xì)節(jié)數(shù)據(jù)(通常為作業(yè)數(shù)據(jù))是指最新的數(shù)據(jù),該數(shù)據(jù)容量非常大,因此需要進(jìn)行廣泛的匯總以使其易于訪問。
輕度匯總的數(shù)據(jù)是指數(shù)據(jù)庫分析人員或其他一些進(jìn)程已經(jīng)從當(dāng)前細(xì)節(jié)數(shù)據(jù)中提取出來的數(shù)據(jù)。
高度匯總的數(shù)據(jù)是指壓縮數(shù)據(jù),特定部門的終端用戶可以容易地對(duì)該數(shù)據(jù)進(jìn)行訪問。
可以想象,存儲(chǔ)在遺留、作業(yè)或外部系統(tǒng)中的數(shù)據(jù)用多種不同的方式編碼、構(gòu)造和存儲(chǔ),并且數(shù)據(jù)庫設(shè)計(jì)人員多年來使用他們自己的慣例來建立數(shù)據(jù)庫結(jié)構(gòu)。因此,信息在一個(gè)數(shù)據(jù)庫中存儲(chǔ)的方式與相關(guān)信息在其他數(shù)據(jù)庫中存儲(chǔ)的方式大相徑庭。
將數(shù)據(jù)傳輸?shù)椒旨?jí)系統(tǒng)后,它必須由數(shù)據(jù)庫分析人員或?qū)樵撊蝿?wù)設(shè)計(jì)的應(yīng)用程序進(jìn)行“預(yù)處理”。處理過程包括提取、清理、合并、更改和操作數(shù)據(jù),從而將數(shù)據(jù)轉(zhuǎn)變?yōu)榕c終端用戶關(guān)系更大的新的數(shù)據(jù)集。也可以包括廣泛的完整性檢查,以確保終端用戶可以訪問到準(zhǔn)確而及時(shí)的數(shù)據(jù)。
這一過程的主要特征是使用通用的命名慣例和一致的屬性、編碼和結(jié)構(gòu)來集成數(shù)據(jù),例如,來自不同數(shù)據(jù)庫的日期信息的格式可能多種多樣(如Julian、yymmdd、mmddyy等),但可以在分級(jí)系統(tǒng)上僅以Julian格式重新設(shè)置格式和存儲(chǔ)。
如前所述,公司每個(gè)部門可以擁有自己的分級(jí)系統(tǒng)用于輕度或高度匯總的數(shù)據(jù)。數(shù)據(jù)庫分析人員通常負(fù)責(zé)從后端系統(tǒng)上對(duì)數(shù)據(jù)進(jìn)行匯總和提取,并使其可由終端用戶訪問。D2K,Inc.將這些分析人員稱為“農(nóng)場(chǎng)主”,因?yàn)樗麄兊墓ぷ骶褪翘崛〈鎯?chǔ)在“服務(wù)器場(chǎng)”上的數(shù)據(jù)。數(shù)據(jù)農(nóng)場(chǎng)主可以使用OLAP(聯(lián)機(jī)分析處理)和“數(shù)據(jù)開采”工具,這些工具可以幫助他們將信息關(guān)聯(lián)在一起,并在數(shù)據(jù)中發(fā)現(xiàn)有趣和有意義的關(guān)系。OLAP所提供的數(shù)據(jù)格式是多維“立方體”,而不是比較傳統(tǒng)的表格形式。
支持?jǐn)?shù)據(jù)倉儲(chǔ)概念的新軟件可用來替代EIS(執(zhí)行信息系統(tǒng))和DSS(決策支持系統(tǒng))。數(shù)據(jù)倉庫中發(fā)生的數(shù)據(jù)不斷更新并不會(huì)使這些早期的系統(tǒng)受益,并且這些系統(tǒng)僅限于少數(shù)決策者使用。
IDWA(國(guó)際數(shù)據(jù)倉儲(chǔ)協(xié)會(huì))確定了一種數(shù)據(jù)倉庫類型,并將其稱為“作業(yè)數(shù)據(jù)倉庫”。該倉庫可提供在前端系統(tǒng)已經(jīng)鑒別的后端數(shù)據(jù)進(jìn)行動(dòng)態(tài)訪問。它用銀行作為例子來說明這一點(diǎn)。該銀行被要求來鑒定某家公司的所有資產(chǎn),銀行要從多個(gè)不同的系統(tǒng)上提取相關(guān)的數(shù)據(jù),然后法院傳令凍結(jié)所有帳號(hào)。如果所有這些帳號(hào)都存儲(chǔ)在多個(gè)不同的遺留系統(tǒng)上,則會(huì)引發(fā)一個(gè)問題。銀行雇員需要分別關(guān)閉每個(gè)帳號(hào)。如果使用作業(yè)數(shù)據(jù)倉庫,則所有帳號(hào)可以使用同一種軟件來關(guān)閉,該軟件原本用于提取帳戶信息。
構(gòu)建數(shù)據(jù)倉庫的目的
(1)市場(chǎng)的激烈競(jìng)爭(zhēng)和管理過程的復(fù)雜性,決定了一個(gè)企業(yè)為了生存與發(fā)展,就需要對(duì)客戶關(guān)系、市場(chǎng)營(yíng)銷、產(chǎn)品工程、投資分析等方面的歷史數(shù)據(jù)進(jìn)行提取與分析,從中找到對(duì)企業(yè)進(jìn)一步發(fā)展有價(jià)值的潛在信息。
(2)數(shù)據(jù)倉庫能夠把企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,為企業(yè)的各層決策提供數(shù)據(jù)依據(jù)。
(3)企業(yè)現(xiàn)有的系統(tǒng)不能提供更多的決策信息(盡管企業(yè)已經(jīng)有了大量的數(shù)據(jù)積累)。
(4)通過構(gòu)造一種體系化的數(shù)據(jù)存貯環(huán)境,將分析決策所需的大量數(shù)據(jù)從傳統(tǒng)的操作環(huán)境中分離出來,使分散的、不一致的操作數(shù)據(jù)轉(zhuǎn)換成集成的、統(tǒng)一的信息。
(5)可以為市場(chǎng)營(yíng)銷和客戶分析提供基本的信息源和輔助工具。
(6)可以實(shí)現(xiàn)對(duì)產(chǎn)品、部門、機(jī)構(gòu)的利潤(rùn)與成本分析。
(7)可以規(guī)范管理流程、優(yōu)化業(yè)務(wù)處理、提高資本利用率。
規(guī)劃和構(gòu)建數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的構(gòu)架由三部分組成:數(shù)據(jù)源、數(shù)據(jù)源轉(zhuǎn)換/裝載形成新數(shù)據(jù)庫、OLAP(聯(lián)機(jī)分析處理 On-line Analytical Processing)。
決定構(gòu)建數(shù)據(jù)倉庫的組織面對(duì)著一個(gè)重要任務(wù),就是如何生成用戶可以使用的及時(shí)、準(zhǔn)確和有用的信息。為構(gòu)建數(shù)據(jù)倉庫,曾經(jīng)有許多被誤導(dǎo)的嘗試,最終所提供的信息都不準(zhǔn)確或不完整。而且常常是除了構(gòu)建數(shù)據(jù)倉庫之外別無其他選擇。另一種方法是將有價(jià)值的數(shù)據(jù)仍鎖定在遺留系統(tǒng)中。
曾經(jīng)有一個(gè)公司構(gòu)建了七個(gè)數(shù)據(jù)倉庫,前六次嘗試均以失敗告終,成為學(xué)習(xí)經(jīng)驗(yàn)。
數(shù)據(jù)倉庫的實(shí)施過程大體可分為三個(gè)階段:數(shù)據(jù)倉庫的項(xiàng)目規(guī)劃、設(shè)計(jì)和實(shí)施、維護(hù)調(diào)整。
構(gòu)建數(shù)據(jù)倉庫一開始應(yīng)仔細(xì)規(guī)劃策略并建立原型。在購(gòu)買昂貴的硬件之前,開發(fā)人員應(yīng)與用戶緊密合作,以便準(zhǔn)確確定分級(jí)系統(tǒng)上需要什么信息以及將如何使用這些信息。完成這一任務(wù)的通常做法是構(gòu)建一些小型系統(tǒng),然后由這些小型系統(tǒng)擴(kuò)展成為完整的生產(chǎn)系統(tǒng)。
供應(yīng)商們已經(jīng)開發(fā)出一些特殊的系統(tǒng)用于數(shù)據(jù)倉儲(chǔ)。IBM擁有它自己的“信息倉庫”系統(tǒng)。并行數(shù)據(jù)庫系統(tǒng)正在出現(xiàn),可以改善對(duì)數(shù)據(jù)庫系統(tǒng)的訪問。新的數(shù)據(jù)可視化工具已經(jīng)開發(fā)出專門用于這一目的的并行處理系統(tǒng)。
Web接口可能是數(shù)據(jù)倉儲(chǔ)中新的最重要的方面。許多供應(yīng)商(包括D2K, Inc.)正在開發(fā)一些應(yīng)用程序,用來將存儲(chǔ)在倉庫中的數(shù)據(jù)傳輸?shù)絎eb瀏覽器上。“推送”技術(shù)用于自動(dòng)為訂閱的用戶提供他們所感興趣的最新數(shù)據(jù)視圖。利用Web技術(shù),只需設(shè)置數(shù)據(jù)格式以便在Web瀏覽器上顯示即可。然后,任何系統(tǒng)上的用戶就可以使用任何Web瀏覽器來顯示該信息了。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
相關(guān)閱讀:
- [電子說] IBM Security可落地經(jīng)驗(yàn)助企業(yè)構(gòu)筑現(xiàn)代化安全屏障 2023-10-24
- [電子說] DLT698轉(zhuǎn)modbus協(xié)議網(wǎng)關(guān)把電能數(shù)據(jù)接到wincc的方法 2023-10-24
- [電子說] 自動(dòng)化PLC控制柜如何進(jìn)行監(jiān)控管理?有什么應(yīng)用場(chǎng)景 2023-10-24
- [電子說] 環(huán)旭電子推出Pisces企業(yè)級(jí)無線路由器助力企業(yè)應(yīng)對(duì)高密度數(shù)據(jù)挑戰(zhàn) 2023-10-24
- [電子說] 設(shè)備互聯(lián)(IOT數(shù)據(jù)采集)平臺(tái)有什么功能 2023-10-24
- [電子說] 物通博聯(lián)工業(yè)采集網(wǎng)關(guān)實(shí)現(xiàn)水處理除臭設(shè)備運(yùn)行狀態(tài)監(jiān)控 2023-10-24
- [電子說] Andes旗下高性能多核矢量處理器IP的AX45MPV正式上市 2023-10-24
- [電子說] 工業(yè)物聯(lián)網(wǎng)解決方案:卷繞機(jī)數(shù)據(jù)采集管理系統(tǒng) 2023-10-24
( 發(fā)表人:admin )