中國高度重視大數據發展。我們秉持創新、協調、綠色、開放、共享的發展理念,圍繞建設網絡強國、數字中國、智慧社會,全面實施國家大數據戰略,助力中國經濟從高速增長轉向高質量發展。
當前,我國數字經濟總量已超過 22 萬億元,占 GDP 比重逾 30%, 中央政府對于發展大數據、人工智能等前沿科技產業極為重視。
大數據的定義
大數據是一個寬泛的概念,從 2001 年“大數據”一詞在 Gartner 的研究報告出現至今,大數據一直沒有統一的定義。
Gartner 認為大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
國際數據公司(IDC)從大數據的 4 個特征來定義,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。
維基百科對“大數據”的定義是“無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合”。
無論各方對于大數據的定義有何不同,但均體現了大數據“大”的特征。但體量大、結構多樣體現更多的是數據特征,對于數據的處理與應用,則需要新技術(新型計算架構、智能算法等)、新理念與新知識。因此大數據不僅“大”,而且“新”,是新資源、新工具和新應用的綜合體。
對于大數據的處理與應用,則需要新技術(新型計算架構、智能算法等)、新理念與新知識。因此大數據不僅“大”,而且“新”,是新資源、新工具和新應用的綜合體。
大數據的四大特征
在IT界雖然對大數據都有著自己不同的解讀。但大家都普遍認為,大數據有著4“V”特征,即Volume(容量大)?Variety(種類多)?Velocity(速度快)和最重要的Value(價值密度低)。
Volume是指大數據巨大的數據量與數據完整性。十幾年前,由于存儲方式?科技手段和分析成本等的限制,使得當時許多數據都無法得到記錄和保存。即使是可以保存的信號,也大多采用模擬信號保存,當其轉變為數字信號的時候,由于信號的采樣和轉換,都不可避免存在數據的遺漏與丟失。那么現在,大數據的出現,使得信號得以以最原始的狀態保存下來,數據量的大小已不是最重要的,數據的完整性才是最重要的。
Variety意味著要在海量?種類繁多的數據間發現其內在關聯。在互聯網時代,各種設備連成一個整體,個人在這個整體中既是信息的收集者也是信息的傳播者,加速了數據量的爆炸式增長和信息多樣性。這就必然促使我們要在各種各樣的數據中發現數據信息之間的相互關聯,把看似無用的信息轉變為有效的信息,從而做出正確的判斷。
Velocity可以理解為更快地滿足實時性需求。目前,對于數據智能化和實時性的要求越來越高,比如開車時會查看智能導航儀查詢最短路線,吃飯時會了解其他用戶對這家餐廳的評價,見到可口的食物會拍照發微博等諸如此類的人與人?人與機器之間的信息交流互動,這些都不可避免帶來數據交換。而數據交換的關鍵是降低延遲,以近乎實時的方式呈獻給用戶。
大數據特征里最關鍵的一點,就是Value。Value的意思是指大數據的價值密度低。大數據時代數據的價值就像沙子淘金,數據量越大,里面真正有價值的東西就越少。現在的任務就是將這些ZB?PB級的數據,利用云計算?智能化開源實現平臺等技術,提取出有價值的信息,將信息轉化為知識,發現規律,最終用知識促成正確的決策和行動。
大數據的關鍵技術
大數據作為一種新興技術,目前尚未形成完善、達成共識的技術標準體系。對大數據的理解和分析,提出了大數據參考架構。
大數據參考架構總體上可以概括為“一個概念體系,二個價值鏈維度”。“一個概念體系”是指它為大數據參考架構中使用的概念提供了一個構件層級分類體系,即“角色—活動—功能組件”,用于描述參考架構中的邏輯構件及其關系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數據作為一種新興的數據應用范式對IT技術產生的新需求所帶來的價值,“信息價值鏈”反映的是大數據作為一種數據科學方法論對數據到知識的處理過程中所實現的信息流價值。這些內涵在大數據參考模型圖中得到了體現。
大數據的關鍵技術有:
1、數據收集
大數據時代,數據的來源極其廣泛,數據有不同的類型和格式,同時呈現爆發性增長的態勢,這些特性對數據收集技術也提出了更高的要求。數據收集需要從不同的數據源實時的或及時的收集不同類型的數據并發送給存儲系統或數據中間件系統進行后續處理。數據收集一般可分為設備數據收集和Web數據爬取兩類,常常用的數據收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網絡爬蟲,如Heritrix、Nutch等。
2、數據預處理
數據的質量對數據的價值大小有直接影響,低質量數據將導致低質量的分析和挖掘結果。廣義的數據質量涉及許多因素,如數據的準確性、完整性、一致性、時效性、可信性與可解釋性等。
大數據系統中的數據通常具有一個或多個數據源,這些數據源可以包括同構/異構的(大)數據庫、文件系統、服務接口等。這些數據源中的數據來源現實世界,容易受到噪聲數據、數據值缺失與數據沖突等的影響。此外數據處理、分析、可視化過程中的算法與實現技術復雜多樣,往往需要對數據的組織、數據的表達形式、數據的位置等進行一些前置處理。
數據預處理形式上包括數據清理、數據集成、數據歸約與數據轉換等階段。
3、數據存儲
分布式存儲與訪問是大數據存儲的關鍵技術,它具有經濟、高效、容錯好等特點。分布式存儲技術與數據存儲介質的類型和數據的組織管理形式直接相關。目前的主要數據存儲介質類型包括內存、磁盤、磁帶等;主要數據組織管理形式包括按行組織、按列組織、按鍵值組織和按關系組織;主要數據組織管理層次包括按塊級組織、文件級組織以及數據庫級組織等。
不同的存儲介質和組織管理形式對應于不同的大數據特征和應用特點。
4、數據處理
分布式數據處理技術一方面與分布式存儲形式直接相關,另一方面也與業務數據的溫度類型(冷數據、熱數據)相關。目前主要的數據處理計算模型包括MapReduce計算模型、DAG計算模型、BSP計算模型等。
(1)MapReduce分布式計算框架
MapReduce是一個高性能的批處理分布式計算框架,用于對海量數據進行并行分析和處理。與傳統數據倉庫和分析技術相比,MapReduce 適合處理各種類型的數據,包括結構化、半結構化和非結構化數據,并且可以處理數據量為TB 和 PB 級別的超大規模數據。
(2)分布式內存計算系統
使用分布式共享內存進行計算可以有效的減少數據讀寫和移動的開銷,極大的提高數據處理的性能。支持基于內存的數據計算,兼容多種分布式計算框架的通用計算平臺是大數據領域所必需的重要關鍵技術。
(3)分布式流計算系統
在大數據時代,數據的增長速度超過了存儲容量的增長,在不遠的將來,人們將無法存儲所有的數據,同時,數據的價值會隨著時間的流逝而不斷減少,此外,很多數據涉及用戶的隱私無法進行存儲。對數據流進行實時處理的技術獲得了人們越來越多的關注。
5、數據分析
大數據分析技術包括已有數據信息的分布式統計分析技術,以及未知數據信息的分布式挖掘和深度學習技術。分布式統計分析技術基本都可藉由數據處理技術直接完成,分布式挖掘和深度學習技術則可以進一步細分為:
(1)聚類
聚類指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。
(2)分類
分類是指在一定的有監督的學習前提下,將物體或抽象對象的集合分成多個類的過程。也可以認為,分類是一種基于訓練樣本數據(這些數據已經被預先貼上了標簽)區分另外的樣本數據標簽的過程,即另外的樣本數據應該如何貼標簽。
(3)關聯分析
關聯分析是一種簡單、實用的分析技術,就是發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。關聯分析在數據挖掘領域也稱為關聯規則挖掘。
(4)深度學習
深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練數據,來學習更有用的特征,從而最終提升分類或預測的準確性。
6、數據可視化
數據可視化(Data Visualization)運用計算機圖形學和圖像處理技術,將數據換為圖形或圖像在屏幕上顯示出來,并進行交互處理。它涉及到計算機圖形學、圖像處理、計算機輔助設計、計算機視覺及人機交互等多個技術領域。數據可視化概念首先來自科學計算可視化(Visualization in Scientific Computing),科學家們不僅需要通過圖形圖像來分析由計算機算出的數據,而且需要了解在計算過程中數據的變化。
大數據產業鏈
大數據產業鏈包括一切與大數據產生與聚集(數據源)、組織與管理(儲存)、分析與發現(技術)、交易、應用與衍生產業相關的所有活動。按照數據價值實現流程,貴陽大數據交易所發布的《2016 年中國大數據交易產業白皮書》將大數據產業鏈分為六大層級:數據源、大數據硬件支撐層、大數據技術層、大數據交易層、大數據應用層與大數據衍生層,其中每一層都包含相應的 IT 硬件設施、軟件技術與信息服務等,構成了大數據產業鏈的完整閉環。
數據源:
大數據產業基礎。數據源是大數據產業鏈的第一個環節,是大數據產業發展的基礎。由于中國大數據流通在全社會還未形成規模,目前數據源區塊主要集中在政府管理部門、互聯網巨頭、移動通訊企業等手中。隨著互聯網滲透不斷深入,數據產生方式也變得更加多樣,數據源已經呈現出爆炸式增長,越來越多的企業將加入數據生產和采集行業,數據源將進一步擴大。
硬件支撐:
大數據底層支柱。大數據硬件是指數據產生、采集、傳輸、存儲、計算等一系列與大數據產業鏈相關的硬件設備。包含傳感器、移動智能終端、各種有線/無線傳輸設備、存儲設備、服務器、網絡/安全設備等。在大數據需求的刺激下,越來越多的硬件產品都打出“智能牌”。智能硬件逐漸改變人們日常生活的同時,還在用戶無觸發、無感知的情況下,24 小時不間斷采集數據。
技術層:
大數據價值實現手段。大數據技術層指實現一切大數據采集與預處理、存儲管理、大數據分析挖掘、大數據安全和大數據可視化的技術手段。大數據技術能夠將大規模數據中隱藏的信息和知識挖掘出來,為社會經濟活動提供依據,提高各個領域的運行效率,甚至整個社會經濟的集約化程度,是大數據價值實現的重要條件。
交易層:
最大化數據價值。隨著大數據技術的成熟和發展,大數據在商業上的應用越來越廣泛,有關大數據的交互、整合、交換日益增多,大數據交易也應運而生。大數據交易可以打破信息孤島及行業信息壁壘,匯聚海量高價值數據,對接數據市場的多樣化需求,完善產業生態環境,實現數據價值的最大化,對推進大數據產業創新發展方面具有深遠意義。目前大數據交易有交易所模式、電商模式、API 模式,大數據的價值通過數據確權、清洗、交易等形式得以釋放和體現。
應用層:
大數據價值體現。大數據的價值體現在大數據應用上。大數據產業的下游由大量公司組成,它們基本上扮演的角色是大數據生態圈里的數據提供者、特色服務運營者和產品分銷商,基本通過開放平臺和搜索引擎獲取用戶,處于產業的邊緣地帶。目前,大數據應用在各行各業的發展呈現“階梯式”格局:互聯網行業是大數據應用的領跑者,政府、金融、電信、交通、醫療等領域積極嘗試大數據,其中政府、金融會在近幾年呈爆發式增長。
衍生層:
大數據下的新業態。大數據衍生層是指基于大數據分析和應用而衍生出來的各種新業態。大數據分析和應用,在經濟社會各領域的擴散滲透,不僅促進相關產業生產率水平的提升,同時也衍生出很多與之相關聯的新興產業,使得人類生產生活、工作消費方式發生根本性轉變。
我國大數據產業發展現狀
1 、政策支撐大數據產業發展
2017 年 1 月工信部發布《大數據產業發展規劃(2016-2020年)》,規劃認為我國大數據產業發展有五點現狀:
1)、信息化積累了豐富的數據資源,我國已成為產生和積累數據量最大、數據類型最豐富的國家之一;
2)、大數據技術創新取得明顯突破,在軟硬件、平臺建設、智能分析及開源技術方面均取得一定進展;
3)、大數據應用推進勢頭良好,在互聯網服務中得到廣泛應用,同時向傳統產業積極滲透;
4)、我國大數據產業體系初具雛形。龍頭企業引領下上下游企業互動的產業格局初步形成,同時基于大數據的創新創業日趨活躍,大數據技術、產業與服務成為社會資本投入的熱點;
5)、大數據產業支撐能力日益增強,形成了大數據標準化工作機制,標準體系初步形成,同時大數據安全保障體系和法律法規不斷完善。
應用為代表的下游產業將成為大數據主體。中國大數據應用市場規模重點集中在政府和金融等領域,與這幾個領域數據量大有關。隨著大數據產業上游格局逐漸穩定,硬件設備及技術逐漸成熟,以及政府的不斷推動,大數據應用行業增速也將超過其他行業。
目前,大數據也已經成為我國戰略方向之一。2017 年 12 月 8 日中央政治局就實施國家大數據戰略進行了第二次集體學習,習近平在主持會議時說:“大數據發展日新月異,我們應該審時度勢、精心謀劃、超前布局、力爭主動” 。
2、互聯網巨頭引領產業發展
BAT 等互聯網巨頭引領大數據產業。國內互聯網企業業務布局各個方向擁有大量用戶,擁有巨量的數據,企業對這些數據進行采集于分析,用于支撐其自身的電子商務、定向廣告和影視娛樂等傳統業務,來獲取更多的經濟效益。同時,在互聯網產業 O2O的趨勢下,互聯網企業逐漸將業務延伸到金融、保險、旅游、教育、交通服務等多個領域,在這一過程中又進一步豐富了數據來源,促進了分析技術的發展,擴展了大數據分析在諸多行業的應用。
熱門行業應用競爭較為激烈。隨著大數據逐漸成熟,基礎設施逐漸完善,產業上游已經初具規模,各種行業應用不斷落地。從需求方來看,企業對于大數據應用的需求持續增強,并著力培育自身的數據資產,各類大數據應用逐漸落地,并成為產業鏈的核心。
從供給方來看,新興技術推動大數據技術環境趨向成熟,行業大數據應用逐漸豐富,大數據生態系統多元化程度加強。相比于全球大數據應用于廣泛的領域,我國應用主要集中在政府、金融、電商、醫療健康等領域,競爭較為激烈。
3、工業互聯網下大數據價值凸顯
數據是工業互聯網的核心。工業互聯網是互聯網和新一代信息技術與全球工業系統深度融合集成所形成的產業的應用生態。工業互聯網的實質首先是全面互聯,在全面互聯的基礎上,通過數據流動和分析,形成智能化變革,形成新的模式和新的業態,因此工業互聯網比互聯網更強調數據,更強調充分的聯接,數據的傳輸、集成以及分析和建模,數據是工業互聯網的核心。
大數據應用將帶來工業企業創新和變革的新時代。通過互聯網、移動物聯網等帶來的低成本感知、高速移動連接、分布式計算和高級分析,信息技術和全球工業系統正在深入融合,給全球工業帶來深刻的變革,創新企業的研發、生產、運營、營銷和管理方式。
80多家企業聯盟,打造工業數據生態體系。2017 年 12 月8 日包括聯想牽頭海爾、騰訊云、TCL 智能制造等 80多家企業成立了“工業大數據產業應用聯盟”,旨在打造覆蓋工業企業全價值流程、全產業生命周期的數據生態體系。
4 、“數字中國”加碼大數據
數字經濟已經成為帶動中國經濟增長的核心動力。根據騰訊研究院發布的《中國互聯網+數字經濟指數(2017)》數據,2016 年,中國數字經濟總量達到 22.6 萬億元,同比增長超過 18.9%,顯著高于當年 GDP 增速,占 GDP 的比重達到 30.3%,對 GDP 的貢獻已達到 69.9%。同時,報告測算得出 2016 年數字經濟對于我國新增就業的貢獻已經超過 1/5,成為帶動就業增長的新引擎。
5、美國大數據發展領跑世界,中美仍有明顯差異
美國大數據進入國家戰略,發展領跑世界。2009 年至今,Data.gov(美國政府數據庫)全面開放了 40 萬聯邦政府原始數據集,同時宣布采用新的“開源政府平臺”管理數據,代碼將向各國開發者開放。從這個角度看,大數據已成為美國國家創新戰略、國家安全戰略、國家 ICT 產業發展戰略以及國家信息網絡安全戰略的核心領域。
根據貴陽大數據交易所發布的《2016 年中國大數據交易產業白皮書》的數據,2017 年美國大數據市場規模為 1431 億美元,按當年人民幣對美元平均匯率 6.75 計算,2017 年美國大數據市場規模為中國的 2.7 倍。同時,貴陽大數據交易所預計 2020 年美國大數據市場規模將達到 3823 億美元,占全球市場份額達到 37.2%,遠遠超過排名第二的中國,發展領跑世界。雖然近年來中國大數據產業發展迅速,且日趨成熟,但與領跑者美國仍有三到五年的差距。
十九大結束之后,政治局第二次集體學習即“審時度勢精心謀劃超前布局力爭主動,實施國家大數據戰略加快建設數字中國”, 更突顯國家大數據戰略在國家持續發展中的核心地位!明確了大數據戰略的核心思想:大數據是信息化發展的新階段;大數據產業生態要自主可控;推動實體經濟和數字經濟融合發展;建設全國信息共享體系和平臺;大數據要在改善民生領域有所作為;保障國家數據安全。
原文標題:大數據戰略打造"數字中國"
文章出處:【微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
人工智能
+關注
關注
1791文章
47336瀏覽量
238696 -
大數據
+關注
關注
64文章
8893瀏覽量
137471 -
工業互聯網
+關注
關注
28文章
4323瀏覽量
94140
原文標題:大數據戰略打造"數字中國"
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論