近日,“浪潮云數智中國行-重慶站”現場,重慶郵電大學計算機學院/人工智能學院執行院長張清華做了題為《人工智能發展的內驅動力》的主題演講。張清華院長分享了人工智能時代下數據、算法和算力的發展,尤其對人工智能時代下的“數據科學”做了精彩的解讀。
隨著計算機、互聯網、移動互聯網與物聯網的發展,我們已經進入了以數據為主體的數字化進程中,科學研究也已經走向“數據科學”第四范式。數據是數字世界的基本要素,也是人工智能的生產資料。然而,目前我們對數據的挖掘與探索仍然停留在表層,并未發現數據本身的新規律、新知識,并由此創造新的價值。面對數據的挑戰,深化人工智能發展,重大的科學基礎設施建設必不可少。
將重慶郵電大學建設為“重慶市大數據智能化的一個實驗場所、人才高地、科技高地”,是重慶市的重要戰略部署。目前,重慶郵電大學正加緊籌劃建設“大數據試驗場”,推動科學基礎設施的建設,為重慶市以大數據智能化為引領的創新驅動發展戰略提供強有力的基礎設施支撐。2020年7月,重慶郵電大學與浪潮攜手打造了計算性能達每秒千萬億次規模的人工智能創新平臺,作為重郵的核心算力底座,支撐起重郵的大數據智能化研究,切實推動重慶市的智慧新基建發展與國家新一代人工智能創新發展試驗區建設。
數字世界來臨,數據成為生產資料
人工智能的三大要素是算法、算力和數據。其中,數據是人工智能時代的生產資料。那么我們為什么進入數字世界,被數據包圍?首先要提到的是計算機的發展,計算機令一切數字化成為可能,也讓高效計算成為可能,我們已經身處數字化進程中,是抵擋不住的潮流。第二,網絡的發明讓機器的互聯互通成為可能,讓信息高效匯聚成為可能。第三,移動互聯網的發展使得我們的數據從固定終端轉移到移動終端,變為我們的手機、iPad。第四,物聯網通過傳感器,使人與人之間、人與物之間、物與物之間構建起萬物互聯的數據世界,讓現實世界精確映射到數字世界成為可能。實際上我們每個人都是數字世界的最基本要素和數據生產者,每個人都在數字世界上對自己進行畫像,最后匯聚成一個數字海洋,也就是我們今天所說的“數字世界”。
在人類社會誕生前,世界上我只有一維空間,即物理空間。有人類社會后,我們說形成了包含社會空間在內的二維空間,現在我們給自己構造了一個第三空間,就叫數字空間。在三維空間里,除了物理空間、社會空間,還有虛擬的數字空間。數字世界現在正在逐漸形成,其基本要素就是數據,數字世界就是我們現實世界的基本映射,有人提出是孿生世界。我個人認為,這個映射空間目前還不是孿生,未來可能構建從物理世界到數字世界的雙生,可能那時候提“數字人”會更為準確。
數據科學作為第四范式
2013年被稱為大數據元年,后來國家每年都在制定計劃推動大數據發展,我們如何治理數據世界,如何應用數據世界?對應的就需要處理數據的科學,因此,大數據戰略推出后,“數據科學”應運而生。
什么是數據科學,我查了很多資料,但是沒有很準確的定義。有人這樣說過,要成為一門科學,背后一定要有基礎理論支撐。我們的人工智能發展得非常繁榮,然而,繁榮主要是在應用端。可以說,治理數據的模型、方法都還在路上。現在,應用實踐已經倒逼我們做理論研究、基礎理論分析。
科學研究的第一范式是實驗科學,第二范式是理論科學,第三范式是計算科學,第四范式就是數據密集型科學,也即“數據科學”,它以數據挖掘為依據,也就是數據世界形成后我們希望從數據當中獲取其本身蘊含的規律和價值。然而,目前我們在數字世界中能還原現實世界的規律,但是還沒有發現,數據世界本身的新規律。
“數據科學”的特征我主要說三個。第一是不在意數據的雜亂,而在意數據的量;第二是不要求數據精準,而強調數據面面俱到。面面俱到的含義不是涵蓋所有數據,而是各個方面都要有代表性數據,這就離不開概率論支持。第三是不追求因果關系,但重視統計規律。這意味著不只追求因果關系,更多在于追求關聯關系。
科學研究的前三種范式都屬于知識范式,它們的重要特征就是從數據特征里面挖掘出能夠被我們理解的知識。數據科學范式下,有一個不一樣的思維方式:我們是否可以挖掘出客觀存在但人類無法理解的知識呢?數據科學的內涵知識,是否可以通過數字世界的特殊方式直接解決問題?我認為數據科學范式下挖掘出來知識,可能我們理解不了,但是機器能理解,這種規律應該是數據范式下我們去探索和思考的。
建設大數據試驗場驅動數據科學發展
要探索數據世界、治理數據世界,就必須發展“數據科學”,這是一個重要前提。每一個科學都需要探索,在探索過程中都需要做試驗或者實驗。試驗是探索,實驗是驗證。我想,最重要的事情就是做“大數據試驗場”。大數據試驗場想做的就是驅動數據科學發展,探索數字世界的奧秘,換一個角度看世界。
為什么要建大數據試驗場呢?因為數據孤島的存在,我們現在的一些數據挖掘方法,只能挖到一些很低端的淺層次的數據,更深層次的怎樣進行挖掘,需要新的挖掘方法和新的理論,就需要建設試驗場。做一個比較淺顯易懂的對比方式,試驗場跟礦場是類似的。
目前,重郵正在建設“大數據試驗場”,我們建設大數據試驗場的目的是探索數據科學本身的內涵、探究數據科學本身規律,然后引導產業創新,引導行業的發展。我們在浪潮等一些知名企業的指導下,構建了千萬元級的算力,但長期目標是打造示范性算力基礎設施,構建大數據試驗場基礎設施,在高校中打造算力平臺的典范,為重慶市實施大數據智能化發展作出貢獻。
責任編輯:pj
-
數據
+關注
關注
8文章
7057瀏覽量
89098 -
移動終端
+關注
關注
1文章
212瀏覽量
24831 -
人工智能
+關注
關注
1791文章
47336瀏覽量
238698
發布評論請先 登錄
相關推薦
評論