從進(jìn)入大學(xué),我就常在思考,未來要做什么,自己的興趣是什么。我的大學(xué)階段,在保證本專業(yè)的成績優(yōu)秀的情況下,我盡一切努力探索更多未知的領(lǐng)域。參加過全國物流設(shè)計(jì)大賽,電子商務(wù)大賽,機(jī)械設(shè)計(jì)大賽,創(chuàng)新創(chuàng)業(yè)大賽,全國大學(xué)生數(shù)學(xué)建模大賽,還參與各種社團(tuán),學(xué)生活動,只是為了找尋真正喜歡的方向。后面,我發(fā)現(xiàn)能從心底里感興趣,真正喜歡的就是參與數(shù)學(xué)建模的整個過程,這也在最后奠定了以后的方向。
保研后,在完成學(xué)校所有的論文要求和實(shí)驗(yàn)室項(xiàng)目的同時,我開啟了數(shù)據(jù)分析的實(shí)習(xí)道路,現(xiàn)在已經(jīng)在互聯(lián)網(wǎng)實(shí)習(xí)快一年了,記錄一下所有的成長歷程吧!
首先是面試,有兩輪的面試,因?yàn)槭羌夹g(shù)崗,第一個面試官問了兩個算法題和一個數(shù)學(xué)題,第二個面試官問了一個用sql處理數(shù)據(jù)的問題和兩個數(shù)學(xué)題,而第二個面試官就是我們數(shù)據(jù)組的老大。
開始的一周,需要搭建跳板機(jī),vpn和git的環(huán)境,接著就開始工作了。
我們組的工作內(nèi)容:
我們組的工作是分析公司各業(yè)務(wù)的log日志,包括服務(wù)器和客戶端,還有每個業(yè)務(wù)服務(wù)的數(shù)據(jù)庫中的數(shù)據(jù)。最后搭建數(shù)據(jù)倉庫,完成一整套數(shù)據(jù)收集,處理,分析到展示的過程,其中還涉及監(jiān)控和報警,有離線數(shù)據(jù)還有實(shí)時數(shù)據(jù)的分析。我們提供一個數(shù)據(jù)報表展示平臺,每一個報表由運(yùn)維,產(chǎn)品,運(yùn)營,服務(wù)器開發(fā)等同事提出數(shù)據(jù)需求,最后由我們完成,同時,我們還會處理各種臨時需求,數(shù)據(jù)分析等工作,并提供一個方便大家查詢數(shù)據(jù)的sql查詢接口。
技術(shù)流:
首先,各業(yè)務(wù)的產(chǎn)品經(jīng)理想要分析某個點(diǎn)擊行為或者功能,需要和對應(yīng)的開發(fā),和我們組協(xié)商打點(diǎn)的數(shù)據(jù)格式,參數(shù),對應(yīng)的服務(wù)器名,日志路徑,或者jdbc,庫名與表名,對應(yīng)的字段名稱,具體業(yè)務(wù)邏輯和含義。業(yè)務(wù)產(chǎn)品需要給我們提出數(shù)據(jù)分析需求,不同的維度的篩選,統(tǒng)計(jì)指標(biāo)的定義。接著需要大數(shù)據(jù)工程師,如果是離線數(shù)據(jù),需要用sqoop將數(shù)據(jù)導(dǎo)入hdfs上,存入規(guī)定地標(biāo)準(zhǔn)路徑和文件中,建立partition以天為分區(qū)。然后數(shù)據(jù)分析工程師需要搭建整個數(shù)據(jù)倉庫,公司的數(shù)據(jù)倉庫是用php搭建的框架,對應(yīng)格式基本一致的數(shù)據(jù)源,用hive建表,可以對應(yīng)csv,用jave寫serde進(jìn)行解析等方式處理,如果是非格式化且記錄之間的格式變動較大,需要用pig處理,pig中調(diào)用python,處理后再用hive建表,也有需要用r進(jìn)行處理的數(shù)據(jù),最后數(shù)據(jù)經(jīng)過ods,dw層以hive表記錄,到最后dm層時實(shí)現(xiàn)產(chǎn)品最后的統(tǒng)計(jì)分析需求,dm以mysql表記錄,數(shù)據(jù)倉庫的建立需要伴隨著業(yè)務(wù)不斷修改邏輯,最后展示到web中,web中還需要進(jìn)行一些簡單的sql進(jìn)行展示,用js插件可以調(diào)用不用的數(shù)據(jù)展示形式。實(shí)時數(shù)據(jù)是用kafak進(jìn)行收集,然后實(shí)時查詢,離線數(shù)據(jù)是晚上12:00開始跑job,其中包括任務(wù)調(diào)度,依賴等的設(shè)置。如果有以月跑的數(shù)據(jù),還crontab進(jìn)行調(diào)度,有些數(shù)據(jù)還需要外部信息,比如ip地址的對應(yīng),手機(jī)型號等,要寫對應(yīng)爬蟲收集相關(guān)數(shù)據(jù)。公司有三個業(yè)務(wù),業(yè)務(wù)的數(shù)據(jù)還會內(nèi)嵌,交叉統(tǒng)計(jì),有時候某一個業(yè)務(wù)邏輯修改會影響很多數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,因此數(shù)據(jù)分析工作是一個復(fù)雜的系統(tǒng)工程。
作為一個數(shù)據(jù)分析工程師,我的工作主要是分析離線數(shù)據(jù),在產(chǎn)品提出需求后,分析要統(tǒng)計(jì)的邏輯,提出倒數(shù)需求log或mysql,建立數(shù)據(jù)倉庫hive,pig,python,php,從ods層到dm層寫出數(shù)據(jù)統(tǒng)計(jì)的邏輯,最后把數(shù)據(jù)放如mysql,最后配置web頁面,有時候會寫簡單的爬蟲,跑臨時數(shù)據(jù),會用shell寫個簡單的腳本,用crontab進(jìn)行調(diào)度等。倉庫的代碼用git管理。
結(jié)語:
喜歡我們組的氛圍,大家都熱愛各種創(chuàng)新的技術(shù)和分析方法,熱愛分享。很感激老大帶領(lǐng)我進(jìn)入了公司,進(jìn)入了我們組,感謝大家對我的幫助,開啟了我數(shù)據(jù)分析的道路。
-
工程師
+關(guān)注
關(guān)注
59文章
1571瀏覽量
68574 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1455瀏覽量
34090
發(fā)布評論請先 登錄
相關(guān)推薦
評論