Github的大名想必?zé)o人不知,無人不曉。一些新手或許會不敢接觸Github,但同為初學(xué)者,我非常清楚Github的用途遠(yuǎn)不止管理項(xiàng)目版本。除了人人都可參與的開源項(xiàng)目以外,Github上還有豐富的學(xué)習(xí)資源。
網(wǎng)課固然讓人受益良多,但輔以練習(xí)才能鞏固新知。一些常用網(wǎng)站,例如“Codewars”和“Codekata”,提供每日練習(xí),用戶可根據(jù)自身需求選擇語言并解題。
如果要針對Pandas進(jìn)行強(qiáng)化練習(xí),可以參考下列四大可供學(xué)習(xí)Pandas的Github代碼倉庫。其中一個代碼倉庫經(jīng)Fork次數(shù)最多,受眾層次廣,Pandas新手以及進(jìn)階學(xué)習(xí)者都可使用。
Pandas Exercises——多種類數(shù)據(jù)(4k Forks)
該代碼倉庫由11個部分組成,涵蓋了從數(shù)據(jù)預(yù)處理到高級數(shù)據(jù)可視化等內(nèi)容。每個文件夾中有多個數(shù)據(jù)集,包含不同的練習(xí)。
用戶可下載IPYNB文件,打開Jupyter notebook,親自動手一試。可將代碼輸入題目下方的空白cell框格中,并查看“Exercise_with_Solution.ipynb”文件以核對答案。
該代碼倉庫資源綜合性強(qiáng),共有27個notebook可供使用。即使已經(jīng)熟悉Pandas,“入門須知(Getting and knowing)”部分也值得一看,或許可從中新學(xué)到.describe(include=all) 和 .nunique()等函數(shù)。
Pandas Videos——多種類數(shù)據(jù)/含視頻(1.2k Forks)
該代碼倉庫內(nèi)含的Jupyter notebook附有代碼,其代碼來自于一個介紹Pandas多種不同功能的系列視頻。作者使用真實(shí)數(shù)據(jù)集,遍歷了解決問題的全過程,將其寫進(jìn)notebook中并發(fā)布于網(wǎng)上。
理想狀態(tài)下,打開Jupyter notebook后便會隨之播放視頻。視頻和代碼都瀏覽完畢后,可將代碼倉庫中的notebook作為“答題紙”。這些notebook中還附有腳注,有助于厘清特定cell框格的輸出結(jié)果。
這些視頻與相應(yīng)的notebook綜合性極強(qiáng)。對于Pandas相關(guān)的疑問,諸如“如何對Pandas中的Series和Dataframe進(jìn)行排序”等簡單小問題,或是“如何用Pandas和sci-kit learn在Kaggle完成提交”等復(fù)雜大問題,都能在這一代碼倉庫中獲得解答。
100 Pandas Puzzles(1k Forks)
該代碼庫中含有一個Jupyter notebook文件和一些練習(xí)以供下載。用戶可將代碼填入問題下方的cell框格中,并可與“solutionsnotebook”文件中的相應(yīng)cell框格進(jìn)行比對。
notebook由不同部分組成,包括“導(dǎo)入Pandas(Importing Pandas)”、“DataFrame基礎(chǔ)知識(DataFrame basics)”和“Series與DatetimeIndex(Series andDatetimeIndex)”等。大多數(shù)問題并不需大段代碼,在理想情況下僅用寥寥幾行即可解決。
該代碼倉庫中的“掃雷(Minesweeper)”部分很有趣,內(nèi)容包含:創(chuàng)建DataFrame,使其內(nèi)含掃雷游戲的必要數(shù)據(jù),包括方格坐標(biāo)值、格內(nèi)是否含雷及其相鄰方格中的含雷數(shù)量。“掃雷”中等偏難,對于已完成之前練習(xí)的人來說,仍屬力所能及之范圍。有別于傳統(tǒng)的數(shù)據(jù)分析,該部分考察了在特殊場景中運(yùn)用DataFrame的能力,頗具趣味性。
作者也指出了題目列表尚不完整,有意完善題目的人可以提出申請,以獲取更多練習(xí)、做出更正和改進(jìn)。
Pycon 2019 Tutorial——中等難度(180 Forks)
該代碼倉庫中含有一個極長的notebook,其中有作者在自制的“使用Pandas的最佳數(shù)據(jù)科學(xué)實(shí)踐(Data Science Best Practices with Pandas)”視頻中討論到的代碼。該代碼倉庫不含Pandas的基礎(chǔ)知識,因此適合中等水平的Pandas用戶使用。
它共有八個主要部分,并不十分遵循“教程”模式,更類似于真實(shí)的數(shù)據(jù)分析項(xiàng)目,從數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)清洗到創(chuàng)建初步可視化,以幫助解答一些具體的問題,例如“平均來說,哪類職業(yè)的工作者發(fā)表的TED演講最為有趣?”等。
對于剛接觸Python和Pandas的數(shù)據(jù)分析項(xiàng)目的新手來說,可以觀看整個視頻來學(xué)習(xí)他人如何完成數(shù)據(jù)清洗、探索和分析等不同步驟,取其精華并活用于自己的項(xiàng)目之中。
學(xué)習(xí)的途徑多種多樣,你不妨從中選取符合自己Pandas水平的學(xué)習(xí)資源,在Github上一試身手。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7026瀏覽量
89026 -
源代碼
+關(guān)注
關(guān)注
96文章
2945瀏覽量
66747 -
GitHub
+關(guān)注
關(guān)注
3文章
471瀏覽量
16442
發(fā)布評論請先 登錄
相關(guān)推薦
評論