在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分析大型復(fù)雜數(shù)據(jù)集的三大實(shí)用建議

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-05-10 14:51 ? 次閱讀

Patrick Riley是Google Accelerated Science團(tuán)隊(duì)的首席工程師和高級(jí)研究員,加入該團(tuán)隊(duì)之前,他在谷歌的網(wǎng)絡(luò)搜索部門度過(guò)了12年 ,是谷歌搜索功能的重要開發(fā)者之一,他也在搜索日志收集和用戶行為分析方面做了大量工作。為了把這十幾年來(lái)總結(jié)的經(jīng)驗(yàn)分享給其他開發(fā)者,他特意撰文提出了一些分析大型復(fù)雜數(shù)據(jù)集的實(shí)用建議。

多年來(lái),我?guī)ьI(lǐng)一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)處理谷歌搜索的服務(wù)器日志。我們經(jīng)常會(huì)被要求用數(shù)據(jù)解釋一些奇怪的結(jié)果,用日志解釋新現(xiàn)象,測(cè)試其他同事的分析結(jié)果,或者衡量用戶的各種行為。有些人好像很擅長(zhǎng)從事這種高質(zhì)量的數(shù)據(jù)分析工作,其他同事也樂(lè)于評(píng)價(jià)他們?yōu)椤爸?jǐn)慎的”“有條不紊的”。但這些形容詞實(shí)際上是什么意思呢?是什么為他們贏得了這些標(biāo)簽

為了找出答案,我之前整理了一份名為“優(yōu)秀的數(shù)據(jù)分析”(Good Data Analysis)的共享文檔,并把它掛在了谷歌內(nèi)部。出人意料的是,這份文檔的瀏覽量一路飆升,輕松打破過(guò)去11年來(lái)我在谷歌做的其他工作的閱讀記錄。即便是距離最后一次更新已過(guò)去4年的今天,還是有很多Google員工會(huì)經(jīng)常去查看它。

為什么它會(huì)這么受歡迎,而且長(zhǎng)盛不衰?我思考了很久,認(rèn)為其中的主要原因是文檔不僅包含抽象的概念描述,更重要的是它非常具有實(shí)踐性。在工作中,我也的確發(fā)現(xiàn)許多同事汲取了其中的觀點(diǎn),并出色地完成了各項(xiàng)任務(wù)。因此,我決定在這篇文章中分享其中的部分內(nèi)容。

本文將分為以下三塊:

技巧:操作、檢查數(shù)據(jù)的想法和技巧。

處理:關(guān)于數(shù)據(jù)處理方法、檢查思路、檢查方向的建議。

社交:如何和他人合作并傳達(dá)自己的數(shù)據(jù)和見(jiàn)解。

技巧

觀察數(shù)據(jù)分布

雖然通常情況下我們一般用匯總度量(平均值、中位數(shù)、標(biāo)準(zhǔn)差等)來(lái)交流數(shù)據(jù)分布,但我們確實(shí)需要看到更豐富的分布表示。例如直方圖、CDF、QQ plot等可以更直觀地展示數(shù)據(jù)中是否有重要的有趣特征,而這些特征是我們分析多模式行為和總結(jié)重要異常值所必需的。

審視異常值

作為一名數(shù)據(jù)分析師,你應(yīng)該注意查看數(shù)據(jù)中的異常值,它們就像過(guò)去被放進(jìn)礦坑檢查毒氣的金絲雀,可以回答分析中的許多基礎(chǔ)問(wèn)題。雖然把它們從數(shù)據(jù)中剔除出去,或者分類成一個(gè)特殊類別是一個(gè)好方法,但你也應(yīng)該清楚之所以這樣做的理由。

例如我們可以通過(guò)查看點(diǎn)擊率(CTR)最低的詞條發(fā)現(xiàn)導(dǎo)致系統(tǒng)漏算點(diǎn)擊次數(shù)的一些元素,通過(guò)查看點(diǎn)擊率最高的詞條發(fā)現(xiàn)導(dǎo)致系統(tǒng)多統(tǒng)計(jì)點(diǎn)擊次數(shù)的設(shè)計(jì)漏洞。但另一方面,有些異常值是永遠(yuǎn)無(wú)法解釋的,所以你要注意自己在上面花的時(shí)間。

報(bào)告噪聲

在開展數(shù)據(jù)工作前我們首先要明確一點(diǎn),就是數(shù)據(jù)中存在隨機(jī)性,而且這種隨機(jī)性有時(shí)會(huì)欺騙我們。如果不夠小心,你很可能會(huì)把噪聲統(tǒng)計(jì)進(jìn)結(jié)果里。因此對(duì)于自己得出的每一個(gè)估算結(jié)果,我們都要在心里掂量一下它的可信程度。有時(shí)候我們會(huì)要求更精準(zhǔn)的分析結(jié)果(置信區(qū)間、P值、貝葉斯因子等),但有時(shí)我們的要求也會(huì)比較松。

例如當(dāng)同事問(wèn)你星期一公司收到了多少有關(guān)青蛙的搜索記錄,你就可以直接看下近幾周來(lái)各星期一的數(shù)據(jù)情況,做一個(gè)快速分析,然后跟他說(shuō)“通常在一千萬(wàn)到兩千萬(wàn)之間”(不是實(shí)數(shù))。

看示例

無(wú)論何時(shí),如果你要生成新的分析代碼,你就肯定需要查看一些基礎(chǔ)數(shù)據(jù)的示例,以及如何用代碼描述、解釋數(shù)據(jù)的示例。如果沒(méi)有它們,我們幾乎沒(méi)法生成任何復(fù)雜的工作分析代碼。數(shù)據(jù)科學(xué)家的每一份分析報(bào)告其實(shí)就是在基礎(chǔ)數(shù)據(jù)上刪除大量功能后提取的高度凝練的摘要。只有通過(guò)查看完整示例,我們才能確信最后的這份總結(jié)是合理的。

為了防止分析結(jié)果過(guò)分側(cè)重于最普遍的情況,我們應(yīng)該進(jìn)行分層抽樣,以便在整個(gè)分布中獲得最好的樣本。例如如果你要計(jì)算用戶的點(diǎn)擊時(shí)間,你最好把所有可以看的樣本都看一遍,尤其關(guān)注其中的極端值。這就引出了另一個(gè)問(wèn)題,如果你沒(méi)有處理數(shù)據(jù)用的合理的可視化工具,你最好先去弄一個(gè)來(lái)一勞永逸。

數(shù)據(jù)切片

這里的切片指的是把數(shù)據(jù)分類成組,然后在各子組中查看具體指標(biāo)的值。在分析網(wǎng)絡(luò)流量時(shí),我們通常會(huì)根據(jù)電腦端/移動(dòng)端、瀏覽器、語(yǔ)言環(huán)境等把數(shù)據(jù)分成各個(gè)類別。有時(shí)同一種用戶現(xiàn)象在不同子組之間表現(xiàn)不同,這時(shí)我們就需要分門別類地分析數(shù)據(jù)。如果你覺(jué)得每次都分這么多類很麻煩,你也可以稍微選幾類橫向?qū)Ρ纫幌拢_定不分類對(duì)分析結(jié)果不存在太大影響。當(dāng)然,在某種情況下,某些子組也可能會(huì)有不良數(shù)據(jù),或存在數(shù)據(jù)表達(dá)不完整、根本性質(zhì)不同等問(wèn)題。

當(dāng)你確定要對(duì)數(shù)據(jù)分組后(如experiment/control、A/B),你最好注意一下mix shift帶來(lái)的影響。mix shift指的是各子組包含的數(shù)據(jù)量不同,而這會(huì)影響最終的分析結(jié)果,如辛普森悖論就認(rèn)為在分組比較中都占優(yōu)勢(shì)的一方,會(huì)在總評(píng)中反而是失勢(shì)的一方。所以如果要對(duì)比的兩個(gè)子組數(shù)據(jù)量相近,它們產(chǎn)生的結(jié)果是相對(duì)準(zhǔn)確的。

考慮實(shí)際意義

在有大量數(shù)據(jù)的情況下,你可以把注意力集中在統(tǒng)計(jì)顯著性上,也可以深入研究每點(diǎn)數(shù)據(jù)的細(xì)節(jié)。但是你需要問(wèn)自己:“即使X值只比Y值高0.1%,它也有那么重要嗎?”當(dāng)你不能理解/分類部分?jǐn)?shù)據(jù)時(shí),這一點(diǎn)尤為重要。如果你無(wú)法理解我們?nèi)罩局械哪承┯脩糇址敲礋o(wú)論是10%還是0.1%,它都會(huì)對(duì)你的分析結(jié)果產(chǎn)生重大影響。

另一方面,有時(shí)你獲得的數(shù)據(jù)量很少,其中的許多變化看起來(lái)并不具有統(tǒng)計(jì)意義,但你又不能說(shuō)它們是尋常現(xiàn)象,那這時(shí)你就要問(wèn)自己:這些數(shù)據(jù)有多大可能是一個(gè)事實(shí)上的重大變化?

隨時(shí)間檢查一致性

在進(jìn)行數(shù)據(jù)分類時(shí),一個(gè)需要經(jīng)常使用的重要指標(biāo)是時(shí)間(我們常以幾天為單位)。這是因?yàn)殡S著時(shí)間推移,許多潛在數(shù)據(jù)可能會(huì)干擾我們的分析結(jié)果。通常情況下,我們會(huì)仔細(xì)檢查功能的初始版本或初始數(shù)據(jù)收集,但這種情況并不罕見(jiàn)。

有時(shí)某一天或某一時(shí)刻會(huì)出現(xiàn)一個(gè)異常值,你要做的不是當(dāng)即刪掉它,而是把它作為“魚餌”,去釣出導(dǎo)致這種現(xiàn)象出現(xiàn)的“魚”。查看日間數(shù)據(jù)的另一個(gè)好處是可以讓你掌握數(shù)據(jù)的變化,這也可以被作為驗(yàn)證置信區(qū)間和統(tǒng)計(jì)顯著性的一個(gè)佐證。當(dāng)然,它還是不能被用來(lái)替代置信空間計(jì)算的。

處理

獨(dú)立驗(yàn)證、描述和評(píng)估

我認(rèn)為探索性數(shù)據(jù)分析有3個(gè)相互關(guān)聯(lián)的階段:

驗(yàn)證(初始數(shù)據(jù)分析):在我眼里,這些數(shù)據(jù)是否是自洽的、是否是被正確收集的,它們是否符合我的分析結(jié)果?像這類問(wèn)題,我們一般會(huì)放在數(shù)據(jù)的完整性檢查中解決。常見(jiàn)的有:如果該功能的手動(dòng)測(cè)試已經(jīng)完成,我能看相關(guān)測(cè)試日志嗎?對(duì)于那個(gè)剛在移動(dòng)端上線的功能,我的日志還把它歸于PC端嗎?

描述:這些數(shù)據(jù)客觀解釋了什么?例如“為什么用戶很少用7個(gè)單詞的組合進(jìn)行搜索?”“為什么點(diǎn)擊后頁(yè)面加載時(shí)間慢了1%?”“為什么網(wǎng)頁(yè)的跳轉(zhuǎn)率會(huì)逐漸降低?”等。

評(píng)估:根據(jù)描述,這些數(shù)據(jù)是否反映了谷歌對(duì)于全球用戶而言所發(fā)生的變化?例如“用戶搜索結(jié)果更快了”“點(diǎn)擊質(zhì)量更高了”等。

通過(guò)分離這些階段,我們能更輕松地和他人達(dá)成合作。對(duì)于數(shù)據(jù)描述,這應(yīng)該是每個(gè)從業(yè)人員都能達(dá)成一致的事情,但共同評(píng)估卻會(huì)導(dǎo)致更多的爭(zhēng)論,因?yàn)槲覀兠總€(gè)人都對(duì)數(shù)據(jù)賦予了帶有自身觀點(diǎn)的意義和價(jià)值。如果不把描述和評(píng)估分離開來(lái),那我們最終只能獲得自己希望得到的分析結(jié)果。此外,評(píng)估通常是一項(xiàng)更困難的任務(wù),因?yàn)橥ㄟ^(guò)嚴(yán)格比較其他特征和指標(biāo)來(lái)確定指標(biāo)的規(guī)范價(jià)值通常需要投入大量資金。

雖然分離了,但這些工作的展開不會(huì)是線性的。當(dāng)你探索數(shù)據(jù)時(shí),很多時(shí)候你需要在各個(gè)階段間來(lái)回切換,但無(wú)論在任何時(shí)候,你都應(yīng)該清楚自己這在做這三步里的哪一步。

確認(rèn)測(cè)試/數(shù)據(jù)收集設(shè)置

在查看任何數(shù)據(jù)之前,請(qǐng)確保你了解測(cè)試的方法和數(shù)據(jù)收集的設(shè)置。測(cè)試者和分析師之間的溝通確實(shí)是一個(gè)很大的挑戰(zhàn)。如果你可以直接查看測(cè)試協(xié)議或配置,我建議你無(wú)論如何都去看看。如果不能看,那就寫下你對(duì)它的理解,然后向?qū)嶒?yàn)者請(qǐng)教你的理解是否是正確的。

考慮到我們很可能會(huì)受異常/錯(cuò)誤的配置和數(shù)量限制(例如僅針對(duì)特定瀏覽器的有效數(shù)據(jù)),所以這項(xiàng)工作可以為后期工作建立驗(yàn)證理論,以下是兩個(gè)值得關(guān)注的點(diǎn):

如果它是某個(gè)產(chǎn)品的功能,你可以自己先測(cè)試一下;如果不能,那你至少也要自己研究截圖和描述。

找找測(cè)試結(jié)束前發(fā)生的重大事件(假期、大型發(fā)布會(huì)等)。

檢查“生命體征”

驗(yàn)證時(shí),我們中的大多數(shù)人都熱衷于得出各類結(jié)論(如用戶是否用了我覺(jué)得很棒的新功能?),但在那之前,我們需要檢查很多其他可能與這些內(nèi)容無(wú)關(guān)的東西,這些東西可以被用在以后的分析中,或者幫助直接指出數(shù)據(jù)中的問(wèn)題。

用戶數(shù)量改變了嗎?之前導(dǎo)致錯(cuò)誤點(diǎn)擊量統(tǒng)計(jì)的bug修好了嗎?錯(cuò)誤率變化了嗎?就像醫(yī)生在做體檢時(shí)會(huì)不厭其煩地檢查你的身高、體重和血壓,這些都是衡量數(shù)據(jù)的重要標(biāo)志,可以捕捉潛在的大問(wèn)題。

這也是驗(yàn)證非常重要的一個(gè)部分。

標(biāo)準(zhǔn)第一,自定義第二

這個(gè)強(qiáng)調(diào)的是工作應(yīng)樹立一些不變的標(biāo)桿,在查看新功能和新數(shù)據(jù)時(shí),你可能會(huì)想添加一些相應(yīng)的特殊指標(biāo),但在那之前,即便你期望做一些調(diào)整,你也應(yīng)該先在標(biāo)準(zhǔn)指標(biāo)的基礎(chǔ)上看一看。例如在向搜索頁(yè)面添加全新UI功能是,你應(yīng)該先了解它對(duì)標(biāo)準(zhǔn)指標(biāo),如點(diǎn)擊結(jié)果的影響,然后再深入研究該為這個(gè)新功能設(shè)立什么標(biāo)準(zhǔn)、

這樣做是因?yàn)闃?biāo)準(zhǔn)指標(biāo)已經(jīng)經(jīng)歷過(guò)了很好的驗(yàn)證,并且可能是更準(zhǔn)確的。如果你的自定義指標(biāo)對(duì)標(biāo)準(zhǔn)指標(biāo)沒(méi)有意義,那么你的新指標(biāo)很可能是錯(cuò)誤的。

多次檢查

當(dāng)你成功發(fā)現(xiàn)一個(gè)現(xiàn)象,尤其是發(fā)現(xiàn)一個(gè)新現(xiàn)象時(shí),請(qǐng)?jiān)囍枚喾N方法對(duì)同一基礎(chǔ)事物做多次衡量。然后再檢查這些結(jié)果是的否具有一致性。通過(guò)多次檢查,你可以找出日志代碼中的錯(cuò)誤,發(fā)現(xiàn)基礎(chǔ)數(shù)據(jù)的意外功能或其他重要的篩選步驟。

如果你能用不同的數(shù)據(jù)源進(jìn)行檢查,那樣的結(jié)果會(huì)更好。

檢查重現(xiàn)性

按時(shí)間分類數(shù)據(jù)和隨時(shí)間檢查一致性都是檢查重現(xiàn)性的一些特例。如果一個(gè)現(xiàn)象是重要而有意義的,那它應(yīng)該可以在不同的用戶群和時(shí)間中被挖掘出來(lái)。但重現(xiàn)性意味著更多。如果我們正在構(gòu)建數(shù)據(jù)模型,那我們會(huì)希望模型能在基礎(chǔ)數(shù)據(jù)的小擾動(dòng)之間保持穩(wěn)定。

模型能從時(shí)間分類數(shù)據(jù)和隨機(jī)子樣本中提取具有可靠性和可重復(fù)性的特征。如果它不可重現(xiàn),那么可能是你并沒(méi)有捕獲到產(chǎn)生這些數(shù)據(jù)的基礎(chǔ)知識(shí)。

檢查與過(guò)去統(tǒng)計(jì)結(jié)果的一致性

在工作中,你常常會(huì)需要計(jì)算一個(gè)與過(guò)去已經(jīng)計(jì)算的某個(gè)度量相似的東西。這時(shí)你應(yīng)該將新的指標(biāo)與過(guò)去報(bào)告的指標(biāo)進(jìn)行比較,即使這些指標(biāo)針對(duì)的是不同的用戶群體。例如,如果你正在統(tǒng)計(jì)特殊人群的搜索量,并且你得到的數(shù)字比普遍接受的數(shù)字大得多,那么你就需要進(jìn)行調(diào)查。你的人數(shù)統(tǒng)計(jì)可能針對(duì)這個(gè)人群是正確的,但現(xiàn)在你必須做更多的工作來(lái)驗(yàn)證這一點(diǎn)。

你統(tǒng)計(jì)的是同一個(gè)東西嗎?你有什么證據(jù)證明前后兩個(gè)統(tǒng)計(jì)數(shù)據(jù)的差別?你可以不給出確切的結(jié)論,但你得自圓其說(shuō)。如果你做不到,那你就得假設(shè)自己是錯(cuò)的,然后找出說(shuō)服自己的理由。這類天差地別的數(shù)據(jù)更多的時(shí)候只是個(gè)錯(cuò)誤,而不會(huì)是天方夜譚般的新見(jiàn)解。

同樣的,新的指標(biāo)應(yīng)該先應(yīng)用于舊數(shù)據(jù)/功能。當(dāng)你根據(jù)新結(jié)果提出新指標(biāo)后,因?yàn)槟悴恢乐笜?biāo)正確與否,所以你要把它放到舊數(shù)據(jù)上重新驗(yàn)證。

提出假設(shè)并尋找證據(jù)

通常,針對(duì)復(fù)雜問(wèn)題的探索性數(shù)據(jù)分析是迭代的。當(dāng)你發(fā)現(xiàn)數(shù)據(jù)中的異常情況、趨勢(shì)或其他特征,你會(huì)做出假設(shè)來(lái)解釋這些現(xiàn)象。在這里,最重要的不是做一個(gè)假設(shè),然后宣布假設(shè)為真,而是找出證據(jù)來(lái)確認(rèn)/否定這一理論。例如你認(rèn)為某地區(qū)的搜索量異常是因?yàn)楣雀柙谠摰匦峦瞥龅墓δ軐?dǎo)致的,那你就得證明該功能的目標(biāo)用戶是唯一導(dǎo)致異常結(jié)果的人群。或者,至少證明這個(gè)異常值和功能發(fā)布的預(yù)期值基本一致。

良好的數(shù)據(jù)分析就像是講故事。為了確保故事的真實(shí)性,你要一般講一變從故事中預(yù)見(jiàn)未來(lái),在這個(gè)過(guò)程中,你要反復(fù)問(wèn)自己:我會(huì)做什么樣的實(shí)驗(yàn)來(lái)驗(yàn)證這個(gè)分析?即使最后你沒(méi)有做這些實(shí)驗(yàn),它們也會(huì)給你帶來(lái)一些啟發(fā)性的思路。

這時(shí)你理解的不僅僅是當(dāng)前的一堆數(shù)據(jù),還有各位為未來(lái)分析準(zhǔn)備好的新的度量和技術(shù)。

使分析結(jié)果從分析迭代中受益

在進(jìn)行探索性分析時(shí),你應(yīng)該盡可能多地進(jìn)行整個(gè)分析的迭代。通常情況下,你需要完成數(shù)據(jù)收集、處理、建模等多個(gè)步驟。如果這些工組花費(fèi)太長(zhǎng)時(shí)間,那么你就錯(cuò)過(guò)了在相同時(shí)間內(nèi)獲得更多次迭代的機(jī)會(huì)。

此外,當(dāng)你最終看到你的數(shù)據(jù)時(shí),你可能會(huì)有不一樣的發(fā)現(xiàn)。因此你的初始關(guān)注的不是完美的,而只是合理的。為自己留下筆記,并再次關(guān)注過(guò)濾步驟和數(shù)據(jù)記錄等無(wú)法解析/理解的內(nèi)容,你會(huì)看到不一樣的世界。

社交

數(shù)據(jù)分析從問(wèn)題開始,而不是數(shù)據(jù)或技術(shù)

當(dāng)你做數(shù)據(jù)分析時(shí)你應(yīng)該有一個(gè)目標(biāo)。如果你把自己的需求作為問(wèn)題,那你就要確保自己正在收集目標(biāo)數(shù)據(jù),而且這數(shù)據(jù)對(duì)你的需求會(huì)很有幫助。你的問(wèn)題可以,也應(yīng)該隨著數(shù)據(jù)的發(fā)展而發(fā)展,但缺乏目標(biāo)的分析是毫無(wú)意義的。

此外,千萬(wàn)不要因?yàn)槟阆矚g某些技術(shù)就陷入陷阱,然后只找出有關(guān)于這個(gè)技術(shù)的部分問(wèn)題。

數(shù)據(jù)過(guò)濾

幾乎每個(gè)大數(shù)據(jù)分析都是從不同階段的過(guò)濾數(shù)據(jù)開始的。無(wú)論你想過(guò)濾什么,你都應(yīng)該考慮這兩個(gè)因素:

確認(rèn)并明確你在過(guò)濾什么;

計(jì)算每次要過(guò)濾多少。

對(duì)于第二條,通常最好的方法是實(shí)際計(jì)算包括過(guò)濾目標(biāo)在內(nèi)的所有指標(biāo),然后結(jié)合數(shù)據(jù)來(lái)進(jìn)行排除。此外,查看過(guò)濾掉的數(shù)據(jù)對(duì)分析也很有意義,因?yàn)槟憧赡軙?huì)“意外”地在里面找到不少“良好”數(shù)據(jù)。

比率應(yīng)該有明確的分子和分母

在數(shù)據(jù)分析中,基礎(chǔ)指標(biāo)的比率往往是最有趣的,但很多數(shù)據(jù)科學(xué)家往往會(huì)忽視這一點(diǎn),然后給出一些含糊不清的結(jié)論。例如“網(wǎng)站在搜索結(jié)果中的點(diǎn)擊率”,它到底是“網(wǎng)站點(diǎn)擊/該網(wǎng)站的點(diǎn)擊結(jié)果”,還是“搜索結(jié)果頁(yè)面點(diǎn)擊/顯示該網(wǎng)站搜索結(jié)果頁(yè)面的點(diǎn)擊結(jié)果”?

如果你要和人交流,你就必須講清楚這一點(diǎn),不然別人沒(méi)法比較以前的指標(biāo)并給出正確解釋。

解釋你的專業(yè)用語(yǔ)

因?yàn)楣ぷ魃系脑颍銜?huì)經(jīng)常需要把分析和結(jié)果呈現(xiàn)給沒(méi)有數(shù)據(jù)背景的人看,他們中的一部分也許看得懂?dāng)?shù)據(jù),但也有一部分人是看不懂的,甚至大多數(shù)人沒(méi)法理解你口中的置信區(qū)間是什么意思,也不能理解你的統(tǒng)計(jì)方法究竟有多可靠。

這時(shí)你被誤解的風(fēng)險(xiǎn)就很大,所以為了工作的順利開展,你有責(zé)任提供數(shù)據(jù)的背景和全貌,并給出盡可能易于理解的表達(dá)。

懷疑論&支持者

在處理數(shù)據(jù)時(shí),你必須既是自己分析結(jié)果的支持者,也是一個(gè)懷疑論者。每一個(gè)數(shù)據(jù)分析師都希望自己能從數(shù)據(jù)中找出一些有趣的現(xiàn)象,當(dāng)你得到這種現(xiàn)象時(shí),你不應(yīng)該沾沾自喜,而應(yīng)該問(wèn)自己“我可以用哪些數(shù)據(jù)來(lái)支持這個(gè)結(jié)論?”“我可以用哪些方法來(lái)推翻這個(gè)結(jié)論?”。特別是你覺(jué)得自己很想得到這個(gè)特定結(jié)論時(shí),你必須發(fā)揮懷疑態(tài)度以避免犯錯(cuò)誤。

和外行人分享結(jié)果

熟練的同行評(píng)審員可以提供質(zhì)量不同的反饋和完整性檢查,但外行人不行,外行人更傾向于判斷你的結(jié)果是否符合他們的明確標(biāo)準(zhǔn)。理想情況下,你也許有一位不太懂?dāng)?shù)據(jù)的同事,他可以為你提供一些非常有價(jià)值的建議。這些建議不僅能讓你對(duì)自己的結(jié)果進(jìn)行反思和檢查,還能迫使你把一切做得盡善盡美。

在早期,同行的幫助是很有用的;但越到晚期,他們就越容易產(chǎn)生一些古怪的分歧。

期待并接受無(wú)知和錯(cuò)誤

我們可以從數(shù)據(jù)中學(xué)到很多。Nate Silver在“信號(hào)與噪音”中做了一個(gè)強(qiáng)有力的例子,只有當(dāng)我們?cè)敢獬姓J(rèn)自己能力的極限,我們才能在更好地在分析工作中取得進(jìn)展。承認(rèn)無(wú)知是一種力量,它通常不會(huì)立即得到回報(bào),而且當(dāng)場(chǎng)感覺(jué)很糟糕,但最終會(huì)幫助我們贏得同行和領(lǐng)導(dǎo)的尊重。

當(dāng)你沒(méi)能及時(shí)發(fā)現(xiàn)自己的錯(cuò)誤時(shí),你會(huì)很沮喪,,但你要做的主動(dòng)接受錯(cuò)誤并把它作為自己今后信譽(yù)的保障,可信度才是數(shù)據(jù)科學(xué)家最關(guān)鍵的社會(huì)價(jià)值。

最后的話

即便我們做到了這24點(diǎn)中的任意一點(diǎn)的,在數(shù)據(jù)分析這條路上,大家所要面對(duì)的困難還有很多。當(dāng)你把這些想法應(yīng)用于實(shí)際問(wèn)題時(shí),你會(huì)自然在自己的領(lǐng)域生成最重要的習(xí)慣和技巧。請(qǐng)分享你的經(jīng)驗(yàn)和心得,幫助更多人成為更好的數(shù)據(jù)科學(xué)家!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:谷歌首席工程師:對(duì)大型復(fù)雜數(shù)據(jù)進(jìn)行分析的實(shí)用建議

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大型醫(yī)療建筑不同空調(diào)系統(tǒng)供配電分析

    的不同空調(diào)系統(tǒng)供配電分析為例展開了詳細(xì)分析,對(duì)供配電運(yùn)行的安全性、有效性等進(jìn)行了合理地分析,以保證可以滿足不同空調(diào)系統(tǒng)在用電方面的需求。 關(guān)鍵詞:大型醫(yī)療建筑;空調(diào)系統(tǒng);供配電 0引言
    的頭像 發(fā)表于 11-20 16:40 ?164次閱讀
    <b class='flag-5'>大型</b>醫(yī)療建筑不同空調(diào)系統(tǒng)供配電<b class='flag-5'>分析</b>

    學(xué)習(xí)RV32GC對(duì)比X86-32指令的優(yōu)勢(shì)思考

    處理器中并不常用且可能增加代碼的復(fù)雜性。 綜合來(lái)看,RV32GC指令在指令格式與解碼、寄存器數(shù)量與操作、整數(shù)運(yùn)算與數(shù)據(jù)訪問(wèn)、分支與跳轉(zhuǎn)以及其他特性等方面均表現(xiàn)出相對(duì)于X86-32指令
    發(fā)表于 10-31 21:47

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    以及后續(xù)的分析步驟。 確定需要分析數(shù)據(jù)類型、規(guī)模和復(fù)雜度,以便選擇合適的AI大模型。 二、高質(zhì)量數(shù)據(jù)收集與處理
    的頭像 發(fā)表于 10-23 15:14 ?959次閱讀

    淺談電動(dòng)汽車火災(zāi)現(xiàn)狀分析與應(yīng)對(duì)建議

    [摘要] 本文針對(duì)近兩年電動(dòng)汽車起火事件進(jìn)行分析,得到鋰離子電池?zé)崾Э貫殡妱?dòng)汽車火災(zāi)事故主要成因;之后對(duì)元鋰電池?zé)崾Э爻梢蚣叭紵攸c(diǎn)進(jìn)行分析;后通過(guò)對(duì)現(xiàn)行標(biāo)準(zhǔn)下電動(dòng)汽車充電設(shè)施防火安全措施進(jìn)行總結(jié)
    的頭像 發(fā)表于 10-16 15:03 ?370次閱讀
    淺談電動(dòng)汽車火災(zāi)現(xiàn)狀<b class='flag-5'>分析</b>與應(yīng)對(duì)<b class='flag-5'>建議</b>

    RISC-V和arm指令的對(duì)比分析

    執(zhí)行效率。它采用了一種基于Load/Store結(jié)構(gòu)的地址指令格式,將數(shù)據(jù)傳輸指令與算術(shù)邏輯指令分離,減少了指令的復(fù)雜度。RISC-V的指令設(shè)計(jì)簡(jiǎn)潔清晰,具有層次結(jié)構(gòu),指令數(shù)量少,指
    發(fā)表于 09-28 11:05

    復(fù)雜指令和精簡(jiǎn)指令有什么區(qū)別

    復(fù)雜指令(CISC,Complex Instruction Set Computer)和精簡(jiǎn)指令(RISC,Reduced Instruction Set Computer)是微處理器設(shè)計(jì)中
    的頭像 發(fā)表于 08-22 11:00 ?3603次閱讀

    CISC(復(fù)雜指令)與RISC(精簡(jiǎn)指令)的區(qū)別  

    Instruction Set Computers,復(fù)雜指令計(jì)算)和RISC(Reduced Instruction Set Computers)是兩大類 主流的CPU指令類型
    發(fā)表于 07-30 17:21

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí),數(shù)據(jù)是不可或缺的組成部分。然而,很多時(shí)候,我們可能需要使用自己的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 14:09 ?1889次閱讀

    大型公建能耗監(jiān)測(cè)系統(tǒng)方案

    處理技術(shù),實(shí)現(xiàn)對(duì)建筑能耗的實(shí)時(shí)監(jiān)測(cè)、數(shù)據(jù)分析和能耗管理。 一、系統(tǒng)概述 大型公建能耗監(jiān)測(cè)系統(tǒng)的建設(shè),主要實(shí)現(xiàn)建筑各類能源介質(zhì)能耗的數(shù)據(jù)的自動(dòng)化監(jiān)測(cè)和統(tǒng)計(jì)管理,對(duì)重點(diǎn)設(shè)備及重要公共區(qū)域能耗安裝計(jì)量裝置,對(duì)水、電、
    的頭像 發(fā)表于 06-03 16:52 ?466次閱讀

    請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來(lái)識(shí)別異常的聲音,但我目前沒(méi)有辦法生成模型,我感覺(jué)可能是數(shù)據(jù)的問(wèn)題,請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會(huì)有哪些原因?
    發(fā)表于 05-28 07:27

    安科瑞大型醫(yī)院電氣火災(zāi)分析與防控對(duì)策研究

    人員傷亡和財(cái)產(chǎn)損失,還會(huì)對(duì)醫(yī)院的正常運(yùn)營(yíng)和患者的生命安全造成嚴(yán)重影響。因此,對(duì)大型醫(yī)院電氣火災(zāi)的分析與防控對(duì)策研究具有重要意義。 二、大型醫(yī)院電氣火災(zāi)的原因特點(diǎn)分析 醫(yī)院電氣火災(zāi)是指醫(yī)
    的頭像 發(fā)表于 03-14 10:47 ?365次閱讀
    安科瑞<b class='flag-5'>大型</b>醫(yī)院電氣火災(zāi)<b class='flag-5'>分析</b>與防控對(duì)策研究

    大型商業(yè)建筑能耗數(shù)據(jù)分析及節(jié)能管理應(yīng)用

    大型商業(yè)建筑能耗數(shù)據(jù)分析及節(jié)能管理應(yīng)用 張穎姣 安科瑞電氣股份有限公司 上海嘉定 201801 摘要:在在國(guó)家構(gòu)建低碳社會(huì)的戰(zhàn)略背景下,建筑節(jié)能也越來(lái)越被重視。能耗數(shù)據(jù)是建筑能源管理的核心基礎(chǔ)。通過(guò)
    的頭像 發(fā)表于 03-11 15:18 ?727次閱讀
    <b class='flag-5'>大型</b>商業(yè)建筑能耗<b class='flag-5'>數(shù)據(jù)分析</b>及節(jié)能管理應(yīng)用

    Anthropic推出Claude 3大型語(yǔ)言模型,在認(rèn)知任務(wù)性能上創(chuàng)新高

    據(jù)官方披露,Claude 3 旗艦 Opus 在大學(xué)生和研究生范疇的學(xué)術(shù)知識(shí)、復(fù)雜數(shù)理任務(wù)了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。
    的頭像 發(fā)表于 03-05 11:16 ?549次閱讀

    對(duì)干如下所示復(fù)雜網(wǎng)絡(luò)的電路該如何分析

    在面對(duì)如下圖所示的復(fù)雜網(wǎng)絡(luò)的電路,該怎么分析?在如此多的器件組成的電路圖無(wú)處下手。
    發(fā)表于 01-26 22:00

    自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)匯總

    發(fā)自動(dòng)駕駛論文哪少的了數(shù)據(jù),今天筆者將為大家推薦一篇最新的綜述,總結(jié)了200多個(gè)自動(dòng)駕駛領(lǐng)域的數(shù)據(jù),大家堆工作量的時(shí)候也可以找一些小眾的數(shù)據(jù)
    的頭像 發(fā)表于 01-19 10:48 ?1029次閱讀
    自動(dòng)駕駛領(lǐng)域的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>匯總
    主站蜘蛛池模板: www你懂的| 91成人午夜性a一级毛片| 四虎影库永久在线| 天堂网在线最新版www中文网| 性欧美护士18xxxxhd| 亚洲国产欧美视频| 四虎最新网址| 七月婷婷精品视频在线观看| 免费深夜视频| 久久最新精品| 看5xxaaa免费毛片| 日本视频三区| 亚洲狠狠网站色噜噜| 三级视频网站在线观看播放| 超刺激gay腐文h文| 亚洲三级免费| 日韩精品你懂的在线播放| 网站毛片| 琪琪午夜伦埋大全影院| 黄色网址有那些| 一级视频在线免费观看| 欧美黄色免费| xyx性爽欧美视频| 一本到卡二卡三卡视频| 国产1卡2卡三卡四卡网站| 亚洲成人77777| 嫩草影院在线入口| brazzersvideosexhd欧美高清 | 久久久久久免费播放一级毛片| 伊人成伊人成综合网2222| 色性视频| 国内精品久久久久影| 天天干天天操天天射| 777精品视频| 在线免费你懂的| 女人张开腿让男人做爽爽| ww欧洲ww在线视频看| 精品久久久久久久久久| 美女视频一区二区| 日本三级s级在线播放| www.婷婷色|