Patrick Riley是Google Accelerated Science團(tuán)隊(duì)的首席工程師和高級(jí)研究員,加入該團(tuán)隊(duì)之前,他在谷歌的網(wǎng)絡(luò)搜索部門度過(guò)了12年 ,是谷歌搜索功能的重要開發(fā)者之一,他也在搜索日志收集和用戶行為分析方面做了大量工作。為了把這十幾年來(lái)總結(jié)的經(jīng)驗(yàn)分享給其他開發(fā)者,他特意撰文提出了一些分析大型復(fù)雜數(shù)據(jù)集的實(shí)用建議。
多年來(lái),我?guī)ьI(lǐng)一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)處理谷歌搜索的服務(wù)器日志。我們經(jīng)常會(huì)被要求用數(shù)據(jù)解釋一些奇怪的結(jié)果,用日志解釋新現(xiàn)象,測(cè)試其他同事的分析結(jié)果,或者衡量用戶的各種行為。有些人好像很擅長(zhǎng)從事這種高質(zhì)量的數(shù)據(jù)分析工作,其他同事也樂(lè)于評(píng)價(jià)他們?yōu)椤爸?jǐn)慎的”“有條不紊的”。但這些形容詞實(shí)際上是什么意思呢?是什么為他們贏得了這些標(biāo)簽?
為了找出答案,我之前整理了一份名為“優(yōu)秀的數(shù)據(jù)分析”(Good Data Analysis)的共享文檔,并把它掛在了谷歌內(nèi)部。出人意料的是,這份文檔的瀏覽量一路飆升,輕松打破過(guò)去11年來(lái)我在谷歌做的其他工作的閱讀記錄。即便是距離最后一次更新已過(guò)去4年的今天,還是有很多Google員工會(huì)經(jīng)常去查看它。
為什么它會(huì)這么受歡迎,而且長(zhǎng)盛不衰?我思考了很久,認(rèn)為其中的主要原因是文檔不僅包含抽象的概念描述,更重要的是它非常具有實(shí)踐性。在工作中,我也的確發(fā)現(xiàn)許多同事汲取了其中的觀點(diǎn),并出色地完成了各項(xiàng)任務(wù)。因此,我決定在這篇文章中分享其中的部分內(nèi)容。
本文將分為以下三塊:
技巧:操作、檢查數(shù)據(jù)的想法和技巧。
處理:關(guān)于數(shù)據(jù)處理方法、檢查思路、檢查方向的建議。
社交:如何和他人合作并傳達(dá)自己的數(shù)據(jù)和見(jiàn)解。
技巧
觀察數(shù)據(jù)分布
雖然通常情況下我們一般用匯總度量(平均值、中位數(shù)、標(biāo)準(zhǔn)差等)來(lái)交流數(shù)據(jù)分布,但我們確實(shí)需要看到更豐富的分布表示。例如直方圖、CDF、QQ plot等可以更直觀地展示數(shù)據(jù)中是否有重要的有趣特征,而這些特征是我們分析多模式行為和總結(jié)重要異常值所必需的。
審視異常值
作為一名數(shù)據(jù)分析師,你應(yīng)該注意查看數(shù)據(jù)中的異常值,它們就像過(guò)去被放進(jìn)礦坑檢查毒氣的金絲雀,可以回答分析中的許多基礎(chǔ)問(wèn)題。雖然把它們從數(shù)據(jù)中剔除出去,或者分類成一個(gè)特殊類別是一個(gè)好方法,但你也應(yīng)該清楚之所以這樣做的理由。
例如我們可以通過(guò)查看點(diǎn)擊率(CTR)最低的詞條發(fā)現(xiàn)導(dǎo)致系統(tǒng)漏算點(diǎn)擊次數(shù)的一些元素,通過(guò)查看點(diǎn)擊率最高的詞條發(fā)現(xiàn)導(dǎo)致系統(tǒng)多統(tǒng)計(jì)點(diǎn)擊次數(shù)的設(shè)計(jì)漏洞。但另一方面,有些異常值是永遠(yuǎn)無(wú)法解釋的,所以你要注意自己在上面花的時(shí)間。
報(bào)告噪聲
在開展數(shù)據(jù)工作前我們首先要明確一點(diǎn),就是數(shù)據(jù)中存在隨機(jī)性,而且這種隨機(jī)性有時(shí)會(huì)欺騙我們。如果不夠小心,你很可能會(huì)把噪聲統(tǒng)計(jì)進(jìn)結(jié)果里。因此對(duì)于自己得出的每一個(gè)估算結(jié)果,我們都要在心里掂量一下它的可信程度。有時(shí)候我們會(huì)要求更精準(zhǔn)的分析結(jié)果(置信區(qū)間、P值、貝葉斯因子等),但有時(shí)我們的要求也會(huì)比較松。
例如當(dāng)同事問(wèn)你星期一公司收到了多少有關(guān)青蛙的搜索記錄,你就可以直接看下近幾周來(lái)各星期一的數(shù)據(jù)情況,做一個(gè)快速分析,然后跟他說(shuō)“通常在一千萬(wàn)到兩千萬(wàn)之間”(不是實(shí)數(shù))。
看示例
無(wú)論何時(shí),如果你要生成新的分析代碼,你就肯定需要查看一些基礎(chǔ)數(shù)據(jù)的示例,以及如何用代碼描述、解釋數(shù)據(jù)的示例。如果沒(méi)有它們,我們幾乎沒(méi)法生成任何復(fù)雜的工作分析代碼。數(shù)據(jù)科學(xué)家的每一份分析報(bào)告其實(shí)就是在基礎(chǔ)數(shù)據(jù)上刪除大量功能后提取的高度凝練的摘要。只有通過(guò)查看完整示例,我們才能確信最后的這份總結(jié)是合理的。
為了防止分析結(jié)果過(guò)分側(cè)重于最普遍的情況,我們應(yīng)該進(jìn)行分層抽樣,以便在整個(gè)分布中獲得最好的樣本。例如如果你要計(jì)算用戶的點(diǎn)擊時(shí)間,你最好把所有可以看的樣本都看一遍,尤其關(guān)注其中的極端值。這就引出了另一個(gè)問(wèn)題,如果你沒(méi)有處理數(shù)據(jù)用的合理的可視化工具,你最好先去弄一個(gè)來(lái)一勞永逸。
數(shù)據(jù)切片
這里的切片指的是把數(shù)據(jù)分類成組,然后在各子組中查看具體指標(biāo)的值。在分析網(wǎng)絡(luò)流量時(shí),我們通常會(huì)根據(jù)電腦端/移動(dòng)端、瀏覽器、語(yǔ)言環(huán)境等把數(shù)據(jù)分成各個(gè)類別。有時(shí)同一種用戶現(xiàn)象在不同子組之間表現(xiàn)不同,這時(shí)我們就需要分門別類地分析數(shù)據(jù)。如果你覺(jué)得每次都分這么多類很麻煩,你也可以稍微選幾類橫向?qū)Ρ纫幌拢_定不分類對(duì)分析結(jié)果不存在太大影響。當(dāng)然,在某種情況下,某些子組也可能會(huì)有不良數(shù)據(jù),或存在數(shù)據(jù)表達(dá)不完整、根本性質(zhì)不同等問(wèn)題。
當(dāng)你確定要對(duì)數(shù)據(jù)分組后(如experiment/control、A/B),你最好注意一下mix shift帶來(lái)的影響。mix shift指的是各子組包含的數(shù)據(jù)量不同,而這會(huì)影響最終的分析結(jié)果,如辛普森悖論就認(rèn)為在分組比較中都占優(yōu)勢(shì)的一方,會(huì)在總評(píng)中反而是失勢(shì)的一方。所以如果要對(duì)比的兩個(gè)子組數(shù)據(jù)量相近,它們產(chǎn)生的結(jié)果是相對(duì)準(zhǔn)確的。
考慮實(shí)際意義
在有大量數(shù)據(jù)的情況下,你可以把注意力集中在統(tǒng)計(jì)顯著性上,也可以深入研究每點(diǎn)數(shù)據(jù)的細(xì)節(jié)。但是你需要問(wèn)自己:“即使X值只比Y值高0.1%,它也有那么重要嗎?”當(dāng)你不能理解/分類部分?jǐn)?shù)據(jù)時(shí),這一點(diǎn)尤為重要。如果你無(wú)法理解我們?nèi)罩局械哪承┯脩糇址敲礋o(wú)論是10%還是0.1%,它都會(huì)對(duì)你的分析結(jié)果產(chǎn)生重大影響。
另一方面,有時(shí)你獲得的數(shù)據(jù)量很少,其中的許多變化看起來(lái)并不具有統(tǒng)計(jì)意義,但你又不能說(shuō)它們是尋常現(xiàn)象,那這時(shí)你就要問(wèn)自己:這些數(shù)據(jù)有多大可能是一個(gè)事實(shí)上的重大變化?
隨時(shí)間檢查一致性
在進(jìn)行數(shù)據(jù)分類時(shí),一個(gè)需要經(jīng)常使用的重要指標(biāo)是時(shí)間(我們常以幾天為單位)。這是因?yàn)殡S著時(shí)間推移,許多潛在數(shù)據(jù)可能會(huì)干擾我們的分析結(jié)果。通常情況下,我們會(huì)仔細(xì)檢查功能的初始版本或初始數(shù)據(jù)收集,但這種情況并不罕見(jiàn)。
有時(shí)某一天或某一時(shí)刻會(huì)出現(xiàn)一個(gè)異常值,你要做的不是當(dāng)即刪掉它,而是把它作為“魚餌”,去釣出導(dǎo)致這種現(xiàn)象出現(xiàn)的“魚”。查看日間數(shù)據(jù)的另一個(gè)好處是可以讓你掌握數(shù)據(jù)的變化,這也可以被作為驗(yàn)證置信區(qū)間和統(tǒng)計(jì)顯著性的一個(gè)佐證。當(dāng)然,它還是不能被用來(lái)替代置信空間計(jì)算的。
處理
獨(dú)立驗(yàn)證、描述和評(píng)估
我認(rèn)為探索性數(shù)據(jù)分析有3個(gè)相互關(guān)聯(lián)的階段:
驗(yàn)證(初始數(shù)據(jù)分析):在我眼里,這些數(shù)據(jù)是否是自洽的、是否是被正確收集的,它們是否符合我的分析結(jié)果?像這類問(wèn)題,我們一般會(huì)放在數(shù)據(jù)的完整性檢查中解決。常見(jiàn)的有:如果該功能的手動(dòng)測(cè)試已經(jīng)完成,我能看相關(guān)測(cè)試日志嗎?對(duì)于那個(gè)剛在移動(dòng)端上線的功能,我的日志還把它歸于PC端嗎?
描述:這些數(shù)據(jù)客觀解釋了什么?例如“為什么用戶很少用7個(gè)單詞的組合進(jìn)行搜索?”“為什么點(diǎn)擊后頁(yè)面加載時(shí)間慢了1%?”“為什么網(wǎng)頁(yè)的跳轉(zhuǎn)率會(huì)逐漸降低?”等。
評(píng)估:根據(jù)描述,這些數(shù)據(jù)是否反映了谷歌對(duì)于全球用戶而言所發(fā)生的變化?例如“用戶搜索結(jié)果更快了”“點(diǎn)擊質(zhì)量更高了”等。
通過(guò)分離這些階段,我們能更輕松地和他人達(dá)成合作。對(duì)于數(shù)據(jù)描述,這應(yīng)該是每個(gè)從業(yè)人員都能達(dá)成一致的事情,但共同評(píng)估卻會(huì)導(dǎo)致更多的爭(zhēng)論,因?yàn)槲覀兠總€(gè)人都對(duì)數(shù)據(jù)賦予了帶有自身觀點(diǎn)的意義和價(jià)值。如果不把描述和評(píng)估分離開來(lái),那我們最終只能獲得自己希望得到的分析結(jié)果。此外,評(píng)估通常是一項(xiàng)更困難的任務(wù),因?yàn)橥ㄟ^(guò)嚴(yán)格比較其他特征和指標(biāo)來(lái)確定指標(biāo)的規(guī)范價(jià)值通常需要投入大量資金。
雖然分離了,但這些工作的展開不會(huì)是線性的。當(dāng)你探索數(shù)據(jù)時(shí),很多時(shí)候你需要在各個(gè)階段間來(lái)回切換,但無(wú)論在任何時(shí)候,你都應(yīng)該清楚自己這在做這三步里的哪一步。
確認(rèn)測(cè)試/數(shù)據(jù)收集設(shè)置
在查看任何數(shù)據(jù)之前,請(qǐng)確保你了解測(cè)試的方法和數(shù)據(jù)收集的設(shè)置。測(cè)試者和分析師之間的溝通確實(shí)是一個(gè)很大的挑戰(zhàn)。如果你可以直接查看測(cè)試協(xié)議或配置,我建議你無(wú)論如何都去看看。如果不能看,那就寫下你對(duì)它的理解,然后向?qū)嶒?yàn)者請(qǐng)教你的理解是否是正確的。
考慮到我們很可能會(huì)受異常/錯(cuò)誤的配置和數(shù)量限制(例如僅針對(duì)特定瀏覽器的有效數(shù)據(jù)),所以這項(xiàng)工作可以為后期工作建立驗(yàn)證理論,以下是兩個(gè)值得關(guān)注的點(diǎn):
如果它是某個(gè)產(chǎn)品的功能,你可以自己先測(cè)試一下;如果不能,那你至少也要自己研究截圖和描述。
找找測(cè)試結(jié)束前發(fā)生的重大事件(假期、大型發(fā)布會(huì)等)。
檢查“生命體征”
驗(yàn)證時(shí),我們中的大多數(shù)人都熱衷于得出各類結(jié)論(如用戶是否用了我覺(jué)得很棒的新功能?),但在那之前,我們需要檢查很多其他可能與這些內(nèi)容無(wú)關(guān)的東西,這些東西可以被用在以后的分析中,或者幫助直接指出數(shù)據(jù)中的問(wèn)題。
用戶數(shù)量改變了嗎?之前導(dǎo)致錯(cuò)誤點(diǎn)擊量統(tǒng)計(jì)的bug修好了嗎?錯(cuò)誤率變化了嗎?就像醫(yī)生在做體檢時(shí)會(huì)不厭其煩地檢查你的身高、體重和血壓,這些都是衡量數(shù)據(jù)的重要標(biāo)志,可以捕捉潛在的大問(wèn)題。
這也是驗(yàn)證非常重要的一個(gè)部分。
標(biāo)準(zhǔn)第一,自定義第二
這個(gè)強(qiáng)調(diào)的是工作應(yīng)樹立一些不變的標(biāo)桿,在查看新功能和新數(shù)據(jù)時(shí),你可能會(huì)想添加一些相應(yīng)的特殊指標(biāo),但在那之前,即便你期望做一些調(diào)整,你也應(yīng)該先在標(biāo)準(zhǔn)指標(biāo)的基礎(chǔ)上看一看。例如在向搜索頁(yè)面添加全新UI功能是,你應(yīng)該先了解它對(duì)標(biāo)準(zhǔn)指標(biāo),如點(diǎn)擊結(jié)果的影響,然后再深入研究該為這個(gè)新功能設(shè)立什么標(biāo)準(zhǔn)、
這樣做是因?yàn)闃?biāo)準(zhǔn)指標(biāo)已經(jīng)經(jīng)歷過(guò)了很好的驗(yàn)證,并且可能是更準(zhǔn)確的。如果你的自定義指標(biāo)對(duì)標(biāo)準(zhǔn)指標(biāo)沒(méi)有意義,那么你的新指標(biāo)很可能是錯(cuò)誤的。
多次檢查
當(dāng)你成功發(fā)現(xiàn)一個(gè)現(xiàn)象,尤其是發(fā)現(xiàn)一個(gè)新現(xiàn)象時(shí),請(qǐng)?jiān)囍枚喾N方法對(duì)同一基礎(chǔ)事物做多次衡量。然后再檢查這些結(jié)果是的否具有一致性。通過(guò)多次檢查,你可以找出日志代碼中的錯(cuò)誤,發(fā)現(xiàn)基礎(chǔ)數(shù)據(jù)的意外功能或其他重要的篩選步驟。
如果你能用不同的數(shù)據(jù)源進(jìn)行檢查,那樣的結(jié)果會(huì)更好。
檢查重現(xiàn)性
按時(shí)間分類數(shù)據(jù)和隨時(shí)間檢查一致性都是檢查重現(xiàn)性的一些特例。如果一個(gè)現(xiàn)象是重要而有意義的,那它應(yīng)該可以在不同的用戶群和時(shí)間中被挖掘出來(lái)。但重現(xiàn)性意味著更多。如果我們正在構(gòu)建數(shù)據(jù)模型,那我們會(huì)希望模型能在基礎(chǔ)數(shù)據(jù)的小擾動(dòng)之間保持穩(wěn)定。
模型能從時(shí)間分類數(shù)據(jù)和隨機(jī)子樣本中提取具有可靠性和可重復(fù)性的特征。如果它不可重現(xiàn),那么可能是你并沒(méi)有捕獲到產(chǎn)生這些數(shù)據(jù)的基礎(chǔ)知識(shí)。
檢查與過(guò)去統(tǒng)計(jì)結(jié)果的一致性
在工作中,你常常會(huì)需要計(jì)算一個(gè)與過(guò)去已經(jīng)計(jì)算的某個(gè)度量相似的東西。這時(shí)你應(yīng)該將新的指標(biāo)與過(guò)去報(bào)告的指標(biāo)進(jìn)行比較,即使這些指標(biāo)針對(duì)的是不同的用戶群體。例如,如果你正在統(tǒng)計(jì)特殊人群的搜索量,并且你得到的數(shù)字比普遍接受的數(shù)字大得多,那么你就需要進(jìn)行調(diào)查。你的人數(shù)統(tǒng)計(jì)可能針對(duì)這個(gè)人群是正確的,但現(xiàn)在你必須做更多的工作來(lái)驗(yàn)證這一點(diǎn)。
你統(tǒng)計(jì)的是同一個(gè)東西嗎?你有什么證據(jù)證明前后兩個(gè)統(tǒng)計(jì)數(shù)據(jù)的差別?你可以不給出確切的結(jié)論,但你得自圓其說(shuō)。如果你做不到,那你就得假設(shè)自己是錯(cuò)的,然后找出說(shuō)服自己的理由。這類天差地別的數(shù)據(jù)更多的時(shí)候只是個(gè)錯(cuò)誤,而不會(huì)是天方夜譚般的新見(jiàn)解。
同樣的,新的指標(biāo)應(yīng)該先應(yīng)用于舊數(shù)據(jù)/功能。當(dāng)你根據(jù)新結(jié)果提出新指標(biāo)后,因?yàn)槟悴恢乐笜?biāo)正確與否,所以你要把它放到舊數(shù)據(jù)上重新驗(yàn)證。
提出假設(shè)并尋找證據(jù)
通常,針對(duì)復(fù)雜問(wèn)題的探索性數(shù)據(jù)分析是迭代的。當(dāng)你發(fā)現(xiàn)數(shù)據(jù)中的異常情況、趨勢(shì)或其他特征,你會(huì)做出假設(shè)來(lái)解釋這些現(xiàn)象。在這里,最重要的不是做一個(gè)假設(shè),然后宣布假設(shè)為真,而是找出證據(jù)來(lái)確認(rèn)/否定這一理論。例如你認(rèn)為某地區(qū)的搜索量異常是因?yàn)楣雀柙谠摰匦峦瞥龅墓δ軐?dǎo)致的,那你就得證明該功能的目標(biāo)用戶是唯一導(dǎo)致異常結(jié)果的人群。或者,至少證明這個(gè)異常值和功能發(fā)布的預(yù)期值基本一致。
良好的數(shù)據(jù)分析就像是講故事。為了確保故事的真實(shí)性,你要一般講一變從故事中預(yù)見(jiàn)未來(lái),在這個(gè)過(guò)程中,你要反復(fù)問(wèn)自己:我會(huì)做什么樣的實(shí)驗(yàn)來(lái)驗(yàn)證這個(gè)分析?即使最后你沒(méi)有做這些實(shí)驗(yàn),它們也會(huì)給你帶來(lái)一些啟發(fā)性的思路。
這時(shí)你理解的不僅僅是當(dāng)前的一堆數(shù)據(jù),還有各位為未來(lái)分析準(zhǔn)備好的新的度量和技術(shù)。
使分析結(jié)果從分析迭代中受益
在進(jìn)行探索性分析時(shí),你應(yīng)該盡可能多地進(jìn)行整個(gè)分析的迭代。通常情況下,你需要完成數(shù)據(jù)收集、處理、建模等多個(gè)步驟。如果這些工組花費(fèi)太長(zhǎng)時(shí)間,那么你就錯(cuò)過(guò)了在相同時(shí)間內(nèi)獲得更多次迭代的機(jī)會(huì)。
此外,當(dāng)你最終看到你的數(shù)據(jù)時(shí),你可能會(huì)有不一樣的發(fā)現(xiàn)。因此你的初始關(guān)注的不是完美的,而只是合理的。為自己留下筆記,并再次關(guān)注過(guò)濾步驟和數(shù)據(jù)記錄等無(wú)法解析/理解的內(nèi)容,你會(huì)看到不一樣的世界。
社交
數(shù)據(jù)分析從問(wèn)題開始,而不是數(shù)據(jù)或技術(shù)
當(dāng)你做數(shù)據(jù)分析時(shí)你應(yīng)該有一個(gè)目標(biāo)。如果你把自己的需求作為問(wèn)題,那你就要確保自己正在收集目標(biāo)數(shù)據(jù),而且這數(shù)據(jù)對(duì)你的需求會(huì)很有幫助。你的問(wèn)題可以,也應(yīng)該隨著數(shù)據(jù)的發(fā)展而發(fā)展,但缺乏目標(biāo)的分析是毫無(wú)意義的。
此外,千萬(wàn)不要因?yàn)槟阆矚g某些技術(shù)就陷入陷阱,然后只找出有關(guān)于這個(gè)技術(shù)的部分問(wèn)題。
數(shù)據(jù)過(guò)濾
幾乎每個(gè)大數(shù)據(jù)分析都是從不同階段的過(guò)濾數(shù)據(jù)開始的。無(wú)論你想過(guò)濾什么,你都應(yīng)該考慮這兩個(gè)因素:
確認(rèn)并明確你在過(guò)濾什么;
計(jì)算每次要過(guò)濾多少。
對(duì)于第二條,通常最好的方法是實(shí)際計(jì)算包括過(guò)濾目標(biāo)在內(nèi)的所有指標(biāo),然后結(jié)合數(shù)據(jù)來(lái)進(jìn)行排除。此外,查看過(guò)濾掉的數(shù)據(jù)對(duì)分析也很有意義,因?yàn)槟憧赡軙?huì)“意外”地在里面找到不少“良好”數(shù)據(jù)。
比率應(yīng)該有明確的分子和分母
在數(shù)據(jù)分析中,基礎(chǔ)指標(biāo)的比率往往是最有趣的,但很多數(shù)據(jù)科學(xué)家往往會(huì)忽視這一點(diǎn),然后給出一些含糊不清的結(jié)論。例如“網(wǎng)站在搜索結(jié)果中的點(diǎn)擊率”,它到底是“網(wǎng)站點(diǎn)擊/該網(wǎng)站的點(diǎn)擊結(jié)果”,還是“搜索結(jié)果頁(yè)面點(diǎn)擊/顯示該網(wǎng)站搜索結(jié)果頁(yè)面的點(diǎn)擊結(jié)果”?
如果你要和人交流,你就必須講清楚這一點(diǎn),不然別人沒(méi)法比較以前的指標(biāo)并給出正確解釋。
解釋你的專業(yè)用語(yǔ)
因?yàn)楣ぷ魃系脑颍銜?huì)經(jīng)常需要把分析和結(jié)果呈現(xiàn)給沒(méi)有數(shù)據(jù)背景的人看,他們中的一部分也許看得懂?dāng)?shù)據(jù),但也有一部分人是看不懂的,甚至大多數(shù)人沒(méi)法理解你口中的置信區(qū)間是什么意思,也不能理解你的統(tǒng)計(jì)方法究竟有多可靠。
這時(shí)你被誤解的風(fēng)險(xiǎn)就很大,所以為了工作的順利開展,你有責(zé)任提供數(shù)據(jù)的背景和全貌,并給出盡可能易于理解的表達(dá)。
懷疑論&支持者
在處理數(shù)據(jù)時(shí),你必須既是自己分析結(jié)果的支持者,也是一個(gè)懷疑論者。每一個(gè)數(shù)據(jù)分析師都希望自己能從數(shù)據(jù)中找出一些有趣的現(xiàn)象,當(dāng)你得到這種現(xiàn)象時(shí),你不應(yīng)該沾沾自喜,而應(yīng)該問(wèn)自己“我可以用哪些數(shù)據(jù)來(lái)支持這個(gè)結(jié)論?”“我可以用哪些方法來(lái)推翻這個(gè)結(jié)論?”。特別是你覺(jué)得自己很想得到這個(gè)特定結(jié)論時(shí),你必須發(fā)揮懷疑態(tài)度以避免犯錯(cuò)誤。
和外行人分享結(jié)果
熟練的同行評(píng)審員可以提供質(zhì)量不同的反饋和完整性檢查,但外行人不行,外行人更傾向于判斷你的結(jié)果是否符合他們的明確標(biāo)準(zhǔn)。理想情況下,你也許有一位不太懂?dāng)?shù)據(jù)的同事,他可以為你提供一些非常有價(jià)值的建議。這些建議不僅能讓你對(duì)自己的結(jié)果進(jìn)行反思和檢查,還能迫使你把一切做得盡善盡美。
在早期,同行的幫助是很有用的;但越到晚期,他們就越容易產(chǎn)生一些古怪的分歧。
期待并接受無(wú)知和錯(cuò)誤
我們可以從數(shù)據(jù)中學(xué)到很多。Nate Silver在“信號(hào)與噪音”中做了一個(gè)強(qiáng)有力的例子,只有當(dāng)我們?cè)敢獬姓J(rèn)自己能力的極限,我們才能在更好地在分析工作中取得進(jìn)展。承認(rèn)無(wú)知是一種力量,它通常不會(huì)立即得到回報(bào),而且當(dāng)場(chǎng)感覺(jué)很糟糕,但最終會(huì)幫助我們贏得同行和領(lǐng)導(dǎo)的尊重。
當(dāng)你沒(méi)能及時(shí)發(fā)現(xiàn)自己的錯(cuò)誤時(shí),你會(huì)很沮喪,,但你要做的主動(dòng)接受錯(cuò)誤并把它作為自己今后信譽(yù)的保障,可信度才是數(shù)據(jù)科學(xué)家最關(guān)鍵的社會(huì)價(jià)值。
最后的話
即便我們做到了這24點(diǎn)中的任意一點(diǎn)的,在數(shù)據(jù)分析這條路上,大家所要面對(duì)的困難還有很多。當(dāng)你把這些想法應(yīng)用于實(shí)際問(wèn)題時(shí),你會(huì)自然在自己的領(lǐng)域生成最重要的習(xí)慣和技巧。請(qǐng)分享你的經(jīng)驗(yàn)和心得,幫助更多人成為更好的數(shù)據(jù)科學(xué)家!
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1455瀏覽量
34090 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24749
原文標(biāo)題:谷歌首席工程師:對(duì)大型復(fù)雜數(shù)據(jù)進(jìn)行分析的實(shí)用建議
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論