真正的數(shù)據(jù)愛好者有很多需要閱讀的內容:大數(shù)據(jù),機器學習,數(shù)據(jù)科學,數(shù)據(jù)挖掘等。除了這些技術領域,還有一些特定的技術和語言需要你繼續(xù)研究:Hadoop,Spark,Python,和R等等,還有無數(shù)實現(xiàn)自動化的工具等等,這些工具幾乎每天都會用到,這就需要你不斷的學習。幸運的是,以上提到的這些都不缺關于它們的書籍。
本文首先幫大家盤點幾本大數(shù)據(jù)相關的書籍,這些書都是亞馬遜上的暢銷排行榜上的:
關于大數(shù)據(jù)
1、《Big Data》
在大數(shù)據(jù)的背景下,我很少看到關于數(shù)據(jù)建模,數(shù)據(jù)層,數(shù)據(jù)處理需求分析以及數(shù)據(jù)架構和存儲實現(xiàn)問題。這本書卻提供了令人耳目一新的全面解決方案。
但不可忽略的是,它也引入了大多數(shù)開發(fā)者并不熟悉的、困擾傳統(tǒng)架構的復雜性問題。本書將教你充分利用集群硬件優(yōu)勢的Lambda架構,以及專門用來捕獲和分析網(wǎng)絡規(guī)模數(shù)據(jù)的新工具,來創(chuàng)建這些系統(tǒng)。
關于Apache Hadoop
2、《Hadoop: The Definitive Guide》
本書通過豐富的案例學習來解釋Hadoop的幕后機理,闡述了Hadoop如何解決現(xiàn)實生活中的具體問題。第3版覆蓋Hadoop的最新動態(tài),包括新增的MapReduceAPI,以及MapReduce2及其靈活性更強的執(zhí)行模型(YARN)。
關于Apache Spark
3、《Learning Spark》
《Spark 快速大數(shù)據(jù)分析》是一本為Spark 初學者準備的書,它沒有過多深入實現(xiàn)細節(jié),而是更多關注上層用戶的具體用法。不過,本書絕不僅僅限于Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
關于數(shù)據(jù)挖掘
4、《數(shù)據(jù)挖掘》
本書是關于數(shù)據(jù)挖掘領域的綜合概述,我認為這本書作為研究生的課程用書是最好的,或者作為參考書。本書前版曾被KDnuggets的讀者評選為最受歡迎的數(shù)據(jù)挖掘專著,是一本可讀性極佳的教材。
它從數(shù)據(jù)庫角度全面系統(tǒng)地介紹數(shù)據(jù)挖掘的概念、方法和技術以及技術研究進展,并重點關注近年來該領域重要和最新的課題——數(shù)據(jù)倉庫和數(shù)據(jù)立方體技術,流數(shù)據(jù)挖掘,社會化網(wǎng)絡挖掘,空間、多媒體和其他復雜數(shù)據(jù)挖掘。
5、《Mining of Massive Datasets》
本書是在Anand Rajaraman和Jeff Ullman于斯坦福大學教授多年的一門季度課程的材料基礎上總結而成的。簡單來說,本書是關于數(shù)據(jù)挖掘的。但是,本書主要關注極大規(guī)模數(shù)據(jù)的挖掘,也就是說這些數(shù)據(jù)大到無法在內存中存放。
由于重點強調數(shù)據(jù)的規(guī)模,所以本書的例子大都來自Web本身或者Web上導出的數(shù)據(jù)。另外,本書從算法的角度來看待數(shù)據(jù)挖掘,即數(shù)據(jù)挖掘是將算法應用于數(shù)據(jù),而不是使用數(shù)據(jù)來“訓練”某種類型的機器學習引擎。
免費電子書
想從事數(shù)據(jù)科學,除了以上提及的那些書籍,還有很多這個領域的入門書籍,但是在你真正開始之前,你更應該對這個領域有一個廣泛的了解。
下面我們還精選了5本免費的電子書,可以幫助你更好的理解數(shù)據(jù)科學的全部內容,以及為你后續(xù)學習數(shù)據(jù)科學、大數(shù)據(jù)和數(shù)據(jù)分析做好準備。
1、《Big Data: The Numbers Game Deciphered》
要想學習簡明扼要的關于大數(shù)據(jù)世界的概述,可以閱讀這本只有11頁的電子書,這本書以數(shù)據(jù)科學領域的最新發(fā)展為背景,讀完這本書,你將可以了解到:
成為數(shù)據(jù)科學家應該具備的學歷
數(shù)據(jù)科學領域需要具備的技術/非技術類的技能
2、《Top Programming Languages for a Data Scientist》
編程是數(shù)據(jù)科學家絕對必須具備的核心技術技能。通過這本詳細的指南,了解掌握哪些編程語言可以優(yōu)先考慮入門數(shù)據(jù)科學。讀完這本書,你可以了解到
數(shù)據(jù)科學職業(yè)的十大編程語言列表;
這些編程語言的特點;
如何將你掌握的技能應用于數(shù)據(jù)科學家。
3、《8 Essential Concepts of Big Data and Hadoop》
Hadoop可以說是大數(shù)據(jù)家族中最重要的技術,稱得上是大數(shù)據(jù)革命的核心。通過閱讀這本便捷指南,可以了解你需要了解的關于Hadoop及其生態(tài)系統(tǒng)的所有信息。
4、《Secret to Unlocking Tableau's Hidden Potential》
Tableau使分析變得簡單易行,不僅適用于分析師,也適用于高層管理人員,IT專業(yè)人員以及其他所有人員。如果你正在尋找能夠充分發(fā)揮Tableau功能的技巧,以及有用的黑客技巧,這本電子書將會告訴你需要了解的內容。
5、《Top 25 Interview Questions and Answers: Big Data Analysis》
即便你是一位很厲害的數(shù)據(jù)專家,在求職面試中,你依然需要絞盡腦汁讓面試官對你印象深刻,否則你依然很難得到你一直夢寐以求的那個職位,這本書灰機了大數(shù)據(jù)面試最常問的問題和答案,相信可以助你一臂之力。
-
機器學習
+關注
關注
66文章
8422瀏覽量
132739 -
大數(shù)據(jù)
+關注
關注
64文章
8894瀏覽量
137494 -
亞馬遜
+關注
關注
8文章
2668瀏覽量
83419
發(fā)布評論請先 登錄
相關推薦
評論