“大數據”、“數據分析”和“數據挖掘”忽然變成了熱門的流行詞,不斷形成與發展的新型的生產力和服務推動著人類經濟社會項目的數據形式與規模向著更快、更準的方向發展,這無疑也預示著現代大數據時代正朝著我們推進。大數據是互聯網的海量數據挖掘,而數據挖掘更多是針對內部企業行業小眾化的數據挖掘,數da據分析就是進行做出針對性的分析和診斷,大數據需要分析的是趨勢和發展,數據挖掘主要發現的是問題和診斷。
那么應當如何正確、合理地應用現代數據呢?應當如何分析、研究數據資源?這已經逐漸成為當代人較多關注的問題。所以應首先了解什么是“大數據”、“數據分析”和“數據挖掘”。
大數據(bigdata)指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產;在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性)。
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,并使得數據分析得以推廣,數據分析是數學與計算機科學相結合的產物。
數據挖掘(英語:Datamining)又譯為資料探勘、數據采礦,它是數據庫知識發現(英語:KnowledgeDiscoveryinDatabases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程,數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
美國的大數據挖掘分析公司Palantir成立于2004年,該平臺把人工智能算法和強大的引擎(可以同時掃描多個數據庫)整合,可以同時處理大量數據庫,并允許用戶通過多種方式快速瀏覽相關信息。其產品已被美國中情局(CIA)、聯邦調查局(FBI)、海陸空三軍、聯邦檢察官、私人調查機構及其他客戶所使用。類似CIA和FBI這樣的情報機構有成千上萬個數據庫,并記錄著不同的數據,比如財務數據、DNA樣本、語音資料、錄像片段以及世界各地的地圖。將這些數據建立聯系需要數年的時間,即便統一在一起,也很難駕馭不同種類的數據,比如說如何關聯銷售數據和監控錄像資料,而Palantir公司所做的就是開發軟件使這一切變得更容易。
Palantir引發了計算機時代的一場革命,它梳理所有可以獲得的數據庫,對相關信息進行確認,并將他們整合起來。Palantir成立之初就獲得CIA基金公司In-Q-Tel的投資,現在成為了美國情報機關在反恐戰爭不能缺少的工具。Palantir有效地解決了911后對情報工作提出的技術難題:如何從大量的數據中快速獲取有價值的線索,可以說是CIA的反恐秘密武器。
責任編輯人:CC
-
數據挖掘
+關注
關注
1文章
406瀏覽量
24244 -
數據分析
+關注
關注
2文章
1449瀏覽量
34060 -
大數據
+關注
關注
64文章
8892瀏覽量
137456
發布評論請先 登錄
相關推薦
評論