在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從復雜性的角度看大數據研究和應用面臨的挑戰

悟空智能科技 ? 來源:未知 ? 作者:胡薇 ? 2018-05-14 10:20 ? 次閱讀

中國信息化百人會學術委員、中國工程院院士李國杰認為,目前大數據技術還不成熟,面對海量、異構、動態變化的數據,傳統的數據處理和分析技術難以應對,現有的數據處理系統實現大數據應用的效率較低,成本和能耗較大,而且難以擴展,這些挑戰大多來自數據本身的復雜性、計算的復雜性和信息系統的復雜性。李國杰認為,發展大數據不要一味追求“數據規模大”,不要“技術驅動”,要“應用為先”,不能拋棄“小數據”方法,同時要高度關注構建大數據平臺的成本。

大數據技術和人類探索復雜性的努力有密切關系。20世紀70年代,新三論(耗散結構論、協同論、突變論)的興起對幾百年來貫穿科學技術研究的還原論發起了挑戰。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復雜性為主的圣菲研究所,提出超越還原論的口號,在科技界掀起了一場復雜性科學運動。雖然雷聲很大,但30年來并未取得預期的效果,其原因之一可能是當時還沒有出現解決復雜性的技術。

集成電路、計算機與通信技術的發展大大增強了人類研究和處理復雜問題的能力。大數據技術將復雜性科學的新思想發揚光大,可能使復雜性科學得以落地。復雜性科學是大數據技術的科學基礎,大數據方法可以看作復雜性科學的技術實現。大數據方法為還原論與整體論的辯證統一提供了技術實現途徑。大數據研究要從復雜性研究中吸取營養,從事數據科學研究的學者不但要了解20世紀的“新三論”,可能還要學習與超循環、混沌、分形和元胞自動機等理論有關的知識,擴大自己的視野,加深對大數據機理的理解。

大數據技術還不成熟,面對海量、異構、動態變化的數據,傳統的數據處理和分析技術難以應對,現有的數據處理系統實現大數據應用的效率較低,成本和能耗較大,而且難以擴展。這些挑戰大多來自數據本身的復雜性、計算的復雜性和信息系統的復雜性。

1數據復雜性引起的挑戰

圖文檢索、主題發現、語義分析、情感分析等數據分析工作十分困難,其原因是大數據涉及復雜的類型、復雜的結構和復雜的模式,數據本身具有很高的復雜性。目前,人們對大數據背后的物理意義缺乏理解,對數據之間的關聯規律認識不足,對大數據的復雜性和計算復雜性的內在聯系也缺乏深刻理解,領域知識的缺乏制約了人們對大數據模型的發現和高效計算方法的設計。形式化或定量化地描述大數據復雜性的本質特征及度量指標,需要深入研究數據復雜性的內在機理。人腦的復雜性主要體現在千萬億級的樹突和軸突的鏈接,大數據的復雜性主要也體現在數據之間的相互關聯。理解數據之間關聯的奧秘可能是揭示微觀到宏觀“涌現”規律的突破口。大數據復雜性規律的研究有助于理解大數據復雜模式的本質特征和生成機理,從而簡化大數據的表征,獲取更好的知識抽象。為此,需要建立多模態關聯關系下的數據分布理論和模型,理清數據復雜度和計算復雜度之間的內在聯系,奠定大數據計算的理論基礎。

2計算復雜性引起的挑戰

大數據計算不能像處理小樣本數據集那樣做全局數據的統計分析和迭代計算,在分析大數據時,需要重新審視和研究它的可計算性、計算復雜性和求解算法。大數據樣本量巨大,內在關聯密切而復雜,價值密度分布極不均衡,這些特征對建立大數據計算范式提出了挑戰。對于PB級的數據,即使只有線性復雜性的計算也難以實現,而且,由于數據分布的稀疏性,可能做了許多無效計算。

傳統的計算復雜度是指某個問題求解時需要的時間空間與問題規模的函數關系,所謂具有多項式復雜性的算法是指當問題的規模增大時,計算時間和空間的增長速度在可容忍的范圍內。傳統科學計算關注的重點是,針對給定規模的問題,如何“算得快”。而在大數據應用中,尤其是流式計算中,往往對數據處理和分析的時間、空間有明確限制,比如網絡服務如果回應時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數據應用本質上是在給定的時間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計算復雜性的思維邏輯有很大的轉變。所謂“算得多”并不是計算的數據量越大越好,需要探索從足夠多的數據,到剛剛好的數據,再到有價值的數據的按需約簡方法。

基于大數據求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要數據充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基于自舉和采樣的局部計算和近似方法,提出不依賴于全量數據的新型算法理論,研究適應大數據的非確定性算法等理論。

3系統復雜性引起的挑戰

大數據對計算機系統的運行效率和能耗提出了苛刻要求,大數據處理系統的效能評價與優化問題具有挑戰性,不但要求理清大數據的計算復雜性與系統效率、能耗間的關系,還要綜合度量系統的吞吐率、并行處理能力、作業計算精度、作業單位能耗等多種效能因素。針對大數據的價值稀疏性和訪問弱局部性的特點,需要研究大數據的分布式存儲和處理架構。

大數據應用涉及幾乎所有的領域,大數據的優勢是能在長尾應用中發現稀疏而珍貴的價值,但一種優化的計算機系統結構很難適應各種不同的需求,碎片化的應用大大增加了信息系統的復雜性,像昆蟲種類一樣多(500多萬種)的大數據和物聯網應用如何形成手機一樣的巨大市場,這就是所謂“昆蟲綱悖論”。為了化解計算機系統的復雜性,需要研究異構計算系統和可塑計算技術。

大數據應用中,計算機系統的負載發生了本質性變化,計算機系統結構需要革命性的重構。信息系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,關注的重點不是數據加工,而是數據的搬運;系統結構設計的出發點要從重視單任務的完成時間轉變到提高系統吞吐率和并行處理能力,并發執行的規模要提高到10億級以上。構建以數據為中心的計算系統的基本思路是從根本上消除不必要的數據流動,必要的數據搬運也應由“大象搬木頭”轉變為“螞蟻搬大米”。

發展大數據應避免的誤區

1不要一味追求“數據規模大”

大數據主要難點不是數據量大,而是數據類型多樣、要求及時回應和原始數據真假難辨。現有數據庫軟件解決不了非結構化數據,要重視數據融合、數據格式的標準化和數據的互操作。采集的數據往往質量不高是大數據的特點之一,但盡可能提高原始數據的質量仍然值得重視。腦科學研究的最大問題就是采集的數據可信度差,基于可信度很差的數據難以分析出有價值的結果。

一味追求數據規模大不僅會造成浪費,而且效果未必很好。多個來源的小數據的集成融合可能挖掘出單一來源大數據得不到的大價值。應多在數據的融合技術上下功夫,重視數據的開放與共享。所謂數據規模大與應用領域有密切關系,有些領域幾個PB的數據未必算大,有些領域可能幾十TB已經是很大的規模。

發展大數據不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境污染一樣,及早關注大數據可能帶來的“污染”和侵犯隱私等各種弊端。

2不要“技術驅動”,要“應用為先”

新的信息技術層出不窮,信息領域不斷冒出新概念、新名詞,估計繼“大數據”以后,“認知計算”、“可穿戴設備”、“機器人”等新技術又會進入炒作高峰。我們習慣于跟隨國外的熱潮,往往不自覺地跟著技術潮流走,最容易走上“技術驅動”的道路。實際上發展信息技術的目的是為人服務,檢驗一切技術的唯一標準是應用。我國發展大數據產業一定要堅持“應用為先”的發展戰略,堅持應用牽引的技術路線。技術有限,應用無限。各地發展云計算和大數據,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。

3不能拋棄“小數據”方法

流行的“大數據”定義是:無法通過目前主流軟件工具在合理時間內采集、存儲、處理的數據集。這是用不能勝任的技術定義問題,可能導致認識的誤區。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的數據處理多數還是“小數據”問題。我們應重視實際碰到的問題,不管是大數據還是小數據。

統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱不會隨著數據量的增大而自動填平。大數據中有大量的小數據問題,大數據采集同樣會犯小數據采集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由于搜索推薦等人為的干預造成統計誤差。

大數據界流行一種看法:大數據不需要分析因果關系、不需要采樣、不需要精確數據。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結合、白盒與黑盒研究相結合、大數據方法與小數據方法相結合。

4要高度關注構建大數據平臺的成本

目前全國各地都在建設大數據中心,呂梁山下都建立了容量達2 PB以上的數據處理中心,許多城市公安部門要求存儲3個月以上的高清監控錄像。這些系統的成本都非常高。數據挖掘的價值是用成本換來的,不能不計成本,盲目建設大數據系統。什么數據需要保存,要保存多少時間,應當根據可能的價值和所需的成本來決定。大數據系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低1000倍,計劃到2024年才能研制出來,用現在的技術構建的巨型系統能耗極高。

我們不要攀比大數據系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數據應用,因地制宜發展大數據。發展大數據與實現信息化的策略一樣:目標要遠大、起步要精準、發展要快速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8899

    瀏覽量

    137575

原文標題:發展大數據不要一味追求數據規模大,要“應用為先”

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    浪潮信息剖析智能時代數據存儲領域面臨挑戰與機遇

    在當今數字化時代,算力與存力的協同增長已成為驅動各行各業發展的關鍵力量。特別是在人工智能(AI)這一前沿領域,隨著數據量的爆炸式增長,對存儲系統的需求日益復雜和多樣。近期,在首屆CCF中國存儲大會上,浪潮信息存儲首席架構師孫斌深刻剖析了智能時代
    的頭像 發表于 12-30 09:43 ?231次閱讀

    芯片的失效分析與應對方法

    在汽車、數據中心和人工智能等關鍵領域,半導體芯片的可靠成為系統穩定運行的核心要素。隨著技術發展,芯片面臨著更為復雜的使用環境與性能需求,其失效問題愈發凸顯。本文將深入探討芯片失效的根
    的頭像 發表于 12-20 10:02 ?1427次閱讀
    芯片的失效<b class='flag-5'>性</b>分析與應對方法

    一文聊聊自動駕駛測試技術的挑戰與創新

    隨著自動駕駛技術的飛速發展,自動駕駛測試的重要也日益凸顯。自動駕駛測試不僅需要驗證車輛的感知、決策、控制模塊的獨立性能,還需確保系統在復雜場景中運行的整體可靠。然而,自動駕駛測試面臨
    的頭像 發表于 12-03 15:56 ?241次閱讀
    一文聊聊自動駕駛測試技術的<b class='flag-5'>挑戰</b>與創新

    光伏連接器外殼:超越簡單塑料的復雜性與重要

    將深入探討光伏連接器外殼的設計要求及其超越簡單塑料的復雜性與重要。 一、光伏連接器外殼的設計要求 材料選擇 光伏連接器的外殼并非簡單的塑料,而是需要經過精心選擇的材料,以滿足以下要求: 耐候:光伏系統通常安
    的頭像 發表于 11-04 14:50 ?203次閱讀
    光伏連接器外殼:超越簡單塑料的<b class='flag-5'>復雜性</b>與重要<b class='flag-5'>性</b>

    簡潔至上——探索產品與技術的優雅原則

    背景 上周開發了一個需求,發現一個歷史功能,產品和技術代碼的角度,將簡單的事情變得復雜。這一經歷再次深化了我對一個核心理念的認識: 簡化復雜性
    的頭像 發表于 10-25 11:12 ?885次閱讀
    簡潔至上——探索產品與技術的優雅原則

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    和數量直接影響到模型的準確和可靠。因此,數據獲取、處理、分析和質量控制在AI for Science中至關重要。此外,數據驅動的研究范式
    發表于 10-14 09:16

    【?嵌入式機電一體化系統設計與實現?閱讀體驗】+磁力輸送機系統設計的創新與挑戰

    ,提高了可靠面臨挑戰與解決方案 磁懸浮力的不穩定性 :磁懸浮力的非線性本質要求復雜的控制算法來維持穩定懸浮。通過實時反饋控制和先進的算法設計,如自適應控制和模糊邏輯,可以有效
    發表于 09-14 22:44

    設備管理:大數據賦能開啟智能新篇章

    傳統設備管理存在人工錄入易出錯、流程復雜、效率低等問題,且缺乏對設備的全面管理和預防維護。大數據應用面臨數據安全問題,企業必須采取多方面措
    的頭像 發表于 09-04 11:00 ?77次閱讀
    設備管理:<b class='flag-5'>大數據</b>賦能開啟智能新篇章

    英偉達Blackwell芯片延遲發貨,臺積電量產面臨技術挑戰

    近期,科技界傳來消息,英偉達備受矚目的新一代人工智能(AI)芯片Blackwell GPU因設計復雜性遭遇重大挑戰,導致其發貨時間預計將推遲三個月或更長時間,這一變動可能波及Meta、谷歌、微軟等重量級客戶。
    的頭像 發表于 08-06 15:28 ?1633次閱讀

    FPGA設計面臨挑戰和解決方案

    設計可靠的可編程邏輯門陣列(FPGA)對于不容故障的系統來說是一項具有挑戰性的任務。本文介紹FPGA設計的復雜性,重點關注如何在提高可靠的同時管理隨之帶來的功耗增加、設計復雜性和潛在
    的頭像 發表于 08-06 11:33 ?499次閱讀

    當今汽車設計面臨的互連挑戰

    當今汽車的復雜性成倍增加,增添了許多提升乘客舒適的配置和信息娛樂系統,為確保行駛安全采用了先進駕駛輔助系統(ADAS)和自動駕駛技術。許多新增功能都需要提升與其他車輛和周圍環境的通信,實質上將車輛
    發表于 07-17 16:12 ?245次閱讀

    全光網應用面臨挑戰

    盡管全光網絡具有諸多優勢和廣闊的應用前景,但在實際應用中仍然面臨一些挑戰,例如: 成本挑戰:全光網絡的建設和維護成本相對較高,包括光纖敷設、光交換設備和光傳輸設備等硬件設備的采購和維護成本。特別是在
    的頭像 發表于 05-09 11:03 ?607次閱讀

    硬件工程師在可靠設計中所面臨挑戰及解決之道

    Course硬件電路可靠設計HardwareEngineer硬件電路工程師在進行可靠設計時,常常會陷入一系列煩惱之中。這些挑戰包括成本、時間壓力、可靠預測的不確定性、
    的頭像 發表于 03-23 08:16 ?1098次閱讀
    硬件工程師在可靠<b class='flag-5'>性</b>設計中所<b class='flag-5'>面臨</b>的<b class='flag-5'>挑戰</b>及解決之道

    CYBT-343026傳輸大數據時會丟數據的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據 SPP 樣本制作了一個操作 SPP 的應用程序。 但是,傳輸大數據時有時會丟失數據。 它從
    發表于 03-01 15:04

    解決選擇合適安全控制器的復雜性

    作者:Jeff Shepard 投稿人:DigiKey 北美編輯 工業系統中的安全是一個關鍵而復雜的主題,因此為給定應用指定最佳安全控制器具有挑戰性。其中考慮因素包括與安全控制器相關的眾多
    的頭像 發表于 02-13 13:32 ?603次閱讀
    解決選擇合適安全控制器的<b class='flag-5'>復雜性</b>
    主站蜘蛛池模板: 天堂视频免费| 日日夜夜操天天干| 亚洲三级理论| 欧美爆操| 国产免费高清视频在线观看不卡| 成年片免费网址网站| 国产成人经典三级在线观看| 成人国产在线24小时播放视频| 77成人| 狠狠se| 俺也去第四色| 天天干天天澡| 国产成人午夜片在线观看| 免费观看高清视频| 男女视频在线观看免费| 在线成人看片| www.一区二区三区| 五月婷婷激情六月| 亚洲三级网址| 四虎影视精品| 色老太视频| 久久精品视频免费观看| 波多野结衣在线视频免费观看| 天天天天天天天操| 成人午夜视频免费看欧美| 亚洲视频在线播放| 香港三级在线视频| 免费日本黄色| 久久婷婷一区二区三区| ts人妖在线| 在线视频 亚洲| 新午夜影院| 国产精选经典三级小泽玛利亚| tube69hdxxxx日本| 亚洲男人天堂2021| 亚洲人成电影在线播放| 欧美a色| 国产网站免费视频| 天天爱夜夜做| 久操视频免费观看| 国产精品看片|