有同學問:陳老師,每次被面試都被問“你使用過哪些數據分析的方法”。結果都感覺答不上來。我回答做了相關分析、回歸分析、聚類分析、因子分析又經常被人懟。所以到底數據分析有什么方法?為啥我在做數據分析,卻感覺沒什么方法?
答:首先,相關分析、回歸分析、聚類分析、因子分析的名字叫XX分析,但它們是統計學方法,只是數據分析的工具,不是解決問題的全部辦法。很多同學一看到名字叫分析,就想當然的以為我只要按這些XX分析的代碼跑一遍就算分析了,這種行為經常會被真正懂行人懟。
就舉個最簡單的例子,所謂相關分析,很多同學就是算了個相關系數。可統計上的相關系數與業務中的相關關系是兩碼事。我家門前的大樹年年都在長,中國GDP也年年在漲,兩列數據算個相關系數哇塞0.99,P值小于0.05,所以我家門前的樹是我中華龍脈,我要發財啦!——不要笑,脫離了業務意義去做統計模型,做出來的笑果(我沒打錯)就是這樣的。
所以回答這個問題,要回到數據分析到底解決哪些業務問題上去。我們之前分享過,數據分析可以解決的是:
是多少(數據描述狀況)
是什么(樹立數據標準)
為什么(探索問題原因)
會怎樣(預測業務走勢)
又如何(綜合判斷狀況)
其中問題1是用數據描述問題,把問題量化。問題2345都需要探索-假設-檢驗-總結的循環性的過程。真正服務于業務的時候,只要熟練掌握了量化-探索-假設-檢驗-總結的循環,就能完成一個分析。無論是企業里的經營問題,還是個人感情、生活各種疑難雜癥莫不如此。
然而,這么說面試官肯定不滿意。他們還是期待著你說出一些具體名詞的。因此人們總會發明一些新詞,比如什么AARRR法,矩陣法,切割法,杜邦分析法等等,甚至還有懶省事的干脆叫業務法(是啊,肯定是業務法啊,不結合業務分析啥)。經常把人都聽得頭暈了。這里我們結合數據分析能解決的問題,梳理下這些方法。
屬于“是多少”的方法
“是多少”指數據描述狀況。如果只用1個指標就能描述清楚狀況,比如身高、年齡這種,是沒有什么分析方法的。但是如果指標很多,就會涉及到選擇哪些重點指標,以什么方式展示這些指標。于是,就有了很多描述性方法。比如一些常見的:
AARRR:互聯網行業增長黑客理論的五個大指標。需要注意的是,實際用的時候,還有很多二級三級小指標,絕不是五個指標就完事了,切記。而且AARRR都是圍繞用戶來說的,實際上也只適用于用戶運營,不是所有業務都能硬插這五個指標的。
漏斗法:只要一個流程環節數》2,都能擺一個漏斗出來,用來衡量流程轉化率的指標。最典型的比如互聯網廣告(站外頁-落地頁-促進頁-轉化頁),比如B2B銷售的售前流程也很長(銷售線索-初次接觸-溝通需求-展示demo-議價-競標-簽署合同),也能擼出來一個漏斗。
杜邦分析法:原本是財務分析中用來衡量企業經營效益與財務指標的方法,現在也被推廣開,用來拆解經營指標。比如銷售金額=用戶數*付費率*客單價。然后再層層拆解用戶數,客單價構成。有意思的是,杜邦分析法拆出來的邏輯圖會很復雜,所以很多人為了提高逼格直接把它叫“分析模型”……
量收利進銷存:零售行業,無論線上線下都是這六個關鍵指標。和AARRR一樣,有一堆二級三級小指標。
要注意:以上都是描述問題的方法,并沒有解答問題,比如看到用戶流失率75%所以呢?所以75%是好還是壞呢?描述+標準才能對問題做判斷。所以才有了下邊“是什么”的方法。
屬于“是什么”的方法
“是多少”指樹立數據標準的方法。尋找標準可以基于業務經驗,但業務經驗也需要數據進行驗證才知道是對的錯的。因此,產生了“是什么”的兩大類方法:探索標準的方法,驗證標準的方法。
探索標準的方法,和到底要對幾個指標進行探索有關。比如只用1個指標的方法有:二八法、十分位法、切割法。名字聽著玄妙,實際上就是切割線擺在哪。當我們沒有信心的時候,可以根據二八定律,把切割線擺在20%,也可以先拆10組或者若干組出來,探索下擺在哪里合適。比如用2個指標,就是所謂矩陣法,其實就是把兩個指標交叉,分出四個象限,看看四類有沒有明顯特點。
如果超過3個指標,一般不建議直接交叉。即使只有3個指標,每個指標分3類,也會產生3*3*3=27類出來,在業務上太復雜了。這時候會用一些統計學的方法。在無標注的情況下可以用Kmean聚類進行分類探索,在有標注情況下可以用決策樹。是滴,大家看到了,統計學/機器學習的方法只是解決分析問題的工具,就是這個意思。
找出來標準以后要進行驗證。好的標準要能清晰區分不同群體。比如女生說要相親的男生身高180。那意味著179的人她真的不要,181她不會立即拒絕。如果176的她照樣接受,就說明畫出來標準沒有區分度,要么是標準劃分出了問題,要么就是做標準的指標壓根就找錯了。
需要注意的是:有沒有用數據找標準,有沒有驗證過業務部門的標準,是從取數到分析的分水嶺。很多同學覺得自己沒有做分析,不知道分析的是什么,核心原因就是手上只有數據沒有標準。比如跑出來一個:本月底銷售額3000萬,可3000萬又怎樣呢?不知道。然而渠道部一看到月底銷售額3000萬,就大喊一聲:肯定是華東大區藏了業績,下個月頭他們至少還要吐500萬出來!這就是有沒有評價標準的差距。所以平時工作中就得養成強烈的標準意識,這樣才能進行真正的分析。
屬于“為什么”的方法
“為什么”指探索問題原因。一提探索原因,大家腦子自然蹦出來的就是相關分析……往往會以為計算個相關系數,丫就真的相關了。于是產生了開篇的“龍脈梗”。實際上,想僅通過數據分析找原因,是相當困難的。往往要內部數據+外部調研+業務判斷+測試,共同努力鎖定原因。這一點切記切記,面試的時候經常有同學在這里吹牛吹大了,被懟得體無完膚。
正因為很難僅通過數據鎖定原因,所以通過數據分析找原因往往是一個系統的過程。需要做齊量化-探索-假設-檢驗-總結全套流程。嚴格來說,這里不是靠某個分析方法得出的結論。但是考慮到面試官還是很想聽幾個方法的名字的,我們可以這么說:
找原因的方法可以分作經驗推斷與算法推斷兩種。經驗推斷就是經典的歸納法與演繹法,具體到數據操作上,就是分組對比(歸納原因)和趨勢推演(演繹判斷)。比如問為什么銷售額下降,用歸納法就是將每一次銷售下降的時候,相關癥狀指標列出來,然后做分組對比,看哪個因素影響下跌的厲害。用演繹法,就是假設銷售下降就是因為人員流失/引流產品不給力/季節因素導致的,那么我做了相應調整:人員調動/上新品/等季節過去,以后應該銷售能回升。實際中,當然是兩種方法結合,不斷逼近真相。
算法推斷,不是靠人工智能阿爾法大狗子汪汪一叫就把原因叼回來,而是通過指標的計算發現潛在問題點,然后回歸到業務里去驗證。你可以簡單理解為把上邊經驗推斷的過程,量化為一堆指標的計算。比如相關分析雖然不能證明因果,但是能提供分析假設,拿到假設以后我們就能進一步驗證,到底這種關系是真相關還是偽相關。因此,做分類的模型與計算相關系數的統計方法,理論上都能用來做這種探索。
屬于“會怎樣”的方法
“會怎樣”指預測業務走勢。一提到預測,大家腦子里會自然蹦出來很多很多統計學/機器學習的算法。具體的操作展開寫內容太多,這里僅幫大家梳理下邏輯。細節可以后邊慢慢更,或者大家自己去看相關統計學/機器學習文章。
首先大類上,預測分定性預測和定量預測兩種。定性方法是基于業務經驗和業務假設,來推測未來走勢。有兩種推測法,一種是找一個類似的業務場景進行推測。比如馬上上一款新產品,根據過往的經驗,一般上市后T+N周銷售走勢應該是XX,所以類似的也該是這樣。是所謂經驗推斷法。
另一種是基于業務假設,比如新產品上市,假設推廣部門傳播力度為X,假設銷售部門配備人員為Y,假設供應鏈的產品到貨率是Z,之后套入杜邦分析法的模型進行計算,綜合預測銷量。定性預測并不全是拍腦袋,因為定性假設選取的場景和參數可以通過分析來獲得,并不是完全沒有依據。同時,對業務部門而言,定性預測時責權劃分非常清晰,每個部門要做到多少業績一清二楚,反而容易推動執行。
定量的方法又分為基于時間的時間序列法,與基于因果關系的算法兩類。比如預測店鋪銷量,如果用時間序列法,則根據過往1-3年銷量數據來預測未來的銷售數據。如果基于因果關系,則要引入與銷售結果相關的變量,比如店鋪位置、店鋪產品線、產品價格、顧客評價、顧客人數等等。定量預測看起來很復雜,很多同學會直觀的認為復雜就是牛逼的。可實際操做過幾次就會發現,時間序列法對于環境變化不敏感,容易被突發事件沖擊。因果關系法可能采集不到足夠的數據,導致模型預測精度很難上去。
所以在工作中真正操作的時候,要因地制宜選方法。在面試的時候,要客觀陳述建模效果。又有很多同學本能的認為,模型在測試集上跑出來的準確率越高越牛逼。連過擬合這種問題都忘了。結果在面試的時候被面試官懟穿,這都是很常見的哈。說話謹慎不是問題,被懟穿了才是。
屬于“又如何”的方法
又如何指綜合判斷狀況,下分析結論。如果判斷標準很清晰,判斷的指標很少,那下結論是很快速的,不需要復雜的分析。比如女生說我就是不喜歡禿頭的男生,那就看照片一票否決,來的非常爽快。這里不需要分析。但當牽扯指標很多,指標形態很復雜的時候,就很難決定了。比如小姐姐說我想要一個男的對我好(行為指標)有上進心(心理指標)有發展潛力(預測值)真心愛我(戀愛原因),這要求一出,就是個非常復雜的判斷。所以,“又如何”是分析最后一步,因為往往做判斷,需要做一大堆前期工作。需要搞掂了數據、搞掂了標準、了解清楚原因,做了預測以后,才知道怎么下結論。
在復雜判斷中,有主觀法和客觀法兩種。主觀法就是基于人工判斷(專家判斷),只不過打分方式有很多種,直接打分再賦權重的往往叫專家法,打一個矩陣評分再計算的叫層次分析法(AHP)客觀法可以通過因子分析(用方差解釋率做權重)神經網絡(算法訓練權重),這樣不依賴專家打工。
實際工作中,做評估的最大敵人是沒標準,或者標準沒節操。看到銷量下降就試圖甩給沒有數據的外部因素,或者甩給目標定得太高,這樣的話分析就沒法做了。做評估第二大敵是所謂“業務常識”,經常有業務部門跳出來“你做過業務嗎?老夫從業10年都沒見過這樣的”。做評估的第三大敵是領導意見,領導就是不想下這個結論,你咋辦?只能回來改ppt啊。所以你看,做評估的算法有很多,真正用起來少,還真不能怪我們沒本事。
以上就是對常用方法的簡單總結。恭喜堅持到這里的同學,上述總結的思維導圖如下,大家可以收藏了。不過這里只歸納了文章中提及的一些內容,可能有遺漏,這里也沒有結合具體業務場景,大家可以根據自己的實踐再加以補充。
全文只是一個概覽,如果大家有興趣的話,讓我看到你們點擊“在看”的小手,后邊陳老師有動力慢慢分享。需注意的是,如果是面試時講自己用的數據分析方法,一定要和自己簡歷里的工作內容對的上,不然人家指著簡歷隨口一句:你在哪個工作項目中用的這些方法?具體怎么用的?數據如何?估計就問崩了。面試千萬條,真實第一條,瞎編易穿幫,失業兩行淚。
如果是在實際工作中,則要因地制宜選擇方法。遇到事先問三問:
數據足不足夠
時間允不允許
業務買不買單
在企業中,不是方法越難越有價值,而是越能幫助到業務才越有價值。同樣效果前提下,方法越簡單越好。因此真正做工作的時候,往往是在時間、數據、業務需求限制下,選擇最短平快的方法。至于復雜的方法,可以在工作有余力的時候自己嘗試。想探索數學的奧秘,可以去讀個博士做科研。在企業做數據分析是為了助力業務,并不是自己嗨,一定要牢記這點。
更不用說,很多企業的數據化管理程度之低,還停留在“我就要個數,一個數而已”或者“讓你的人工智能阿爾法大狗子幫我解決下和這個問題”兩個極端上。數據真正發揮價值,靠的是體系化運作,不是某個大數據神人掐指一算,切記切記。
-
互聯網
+關注
關注
54文章
11177瀏覽量
103548 -
人工智能
+關注
關注
1792文章
47497瀏覽量
239211 -
數據分析
+關注
關注
2文章
1455瀏覽量
34090
原文標題:你使用過哪些數據分析的方法?
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論