微軟研究院出品《數據科學基礎》,放眼未來40年,PDF下載已開放。
計算機科學作為一門科學始于20世紀60年代。計算機科學的重點是編程語言、編譯器、操作系統以及為這些領域提供支撐的數學理論。理論計算機科學課程涵蓋有限自動機、正則表達式、無語境式語言和可計算性等。
自上世紀70年代開始,算法研究逐漸成為理論計算機科學的重要組成部分。 算法研究的重要目的是提升計算機的有用性。到了今天,計算機科學的發展正在發生根本性的變化,研究人員注意力和研究重點更多地放在了應用上。
產生這一變化的原因有很多,其中計算和通信技術的融合在這個過程中發揮了重要作用。同時,在自然科學、商業和其他領域,收集和存儲數據的能力不斷上升,這對數據的理解以及如何在現代環境中進行數據處理提出了更高的要求。網絡和社交網絡作在日常生活中核心地位的提升,也為理論計算機科學理論的發展提供了新的機遇和挑戰。
雖然計算機科學的傳統領域仍然非常重要,但未來將有越來越多的研究人員將使用計算機來理解和提取應用程序中出現的大量數據中的可用信息。考慮到這一點,我們寫了這本書,希望本書可以涵蓋我們期望在未來40年內有用的理論,本書與過去同類數據的一個主要變化是之一對概率、統計和數值方法更加重視。
目錄及各章內容簡介
本書更早的版本已用于本科和研究生課程教學使用。本科課程所需的背景材料在附錄部分給出。包括信息處理,搜索和機器學習等各領域中的現代數據通常以具有大量組件的向量方式表示。向量表示不僅僅是用于存儲記錄的許多字段的簿記設備。實際上,向量的兩個顯著方面:幾何(長度,點積,正交等)和線性代數(相關性,秩,奇異值等)結果是相關的。
第2章和第3章分別奠定了幾何和線性代數的基礎。更具體地說,就是當涉及到高維度時,我們對二維或三維空間的直覺可能出乎意料地出現偏差。
第2章闡述了理解這類偏差所需的基礎知識。本章以及整本書的重點是多關注知識和思想以及數學基礎,而不是特定的應用。
第3章重點介紹奇異值分解(SVD),這是處理矩陣數據的核心工具。本章給出了SVD的數學和算法的原理描述。奇異值分解的應用包括主成分分析,這是目前已經廣泛使用的技術,以及對概率密度、離散優化等與統計學結合后的現代應用,對這類應用的描述相對詳細。使用確定性方法探索web或大型系統的配置空間之類的大規模結構的成本可能會非常高。隨機游走(又稱馬爾可夫鏈)經常是效率更高的處理方式。這種游走的固定分布對網絡搜索物理系統模擬等應用非常重要。
隨機游走的基礎數學理論以及與電氣網絡的連接是第4章的核心內容。計算機科學在過去二十年中的一個巨大進步是,一些過去只能用在特定領域的方法,現在已經可以成功解決來自多個不同領域的問題。機器學習就是一個突出的例子。
第5章描述了機器學習的基礎,示例算法都可以用于優化給定的訓練樣例,并能夠理解并預見到這種算法優化能夠在新的未知數據上獲得良好性能。這其中涉及一些重要的量度,如Vapnik-Chervonenkis維度,以及一些重要的算法,如感知器算法,隨機梯度下降,強化學習和深度學習,以及重要的概念,如正則化和過擬合。算法領域傳統上假設問題的輸入數據會呈現在隨機存取存儲器中,算法可以重復訪問。而對于涉及大量數據的問題,這種方式是不可行的。在這種情況下,采樣起著至關重要的作用,而且必須進行動態采樣。
第6章主要探討如何有效地繪制高質量樣本,以及如何使用這些樣本估計統計和線性代數變量。盡管第5章內容側重監督學習,但是從標記訓練數據中學習,無監督學習或從未標記數據中學習的問題同樣重要。無監督學習的中心問題之一是聚類,我們將在第7章中討論。。
在討論了一些基本聚類方法(如k-means算法)之后,第7章重點介紹理解這些算法的現代發展過程,以及用于分析不同類型聚類問題的新算法和通用框架。對大型架構(如網絡和社交網絡)的理解的核心,是構建出能夠獲取這些架構的基本屬性的有效模型。最簡單的模型是由Erd¨os和Renyi制定的隨機圖,我們在第8章進行詳細介紹。
第9章重點介紹從數據中尋求合理性的一些線性代數問題,尤其是主題建模和非負矩陣分解。除了討論眾所周知的模型之外,本章還描述了一些關于模型和算法的當前研究動態。
第10章討論了排名和社會選擇以及壓縮感知等關于稀疏表示問題。此外還簡要討論了線性規劃和半定規劃。
-
微軟
+關注
關注
4文章
6624瀏覽量
104308 -
數據科學
+關注
關注
0文章
165瀏覽量
10082
原文標題:微軟研究院出品《數據科學基礎》,放眼未來40年(PDF下載)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論