在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

高效構(gòu)建基于機器學習的產(chǎn)品的經(jīng)驗

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-02 14:42 ? 次閱讀

編者按:Insight Data Science AI負責人Emmanuel Ameisen分享了高效構(gòu)建基于機器學習產(chǎn)品的經(jīng)驗。

要構(gòu)建通用AI,先掌握線性回歸

從基本開始

試圖發(fā)展對世界的科學理解的時候,大多數(shù)領域從粗略的勾勒開始,之后才探索重要的細節(jié)。拿物理來說吧,我們從簡單模型(牛頓力學)開始,漸漸深入更復雜的模型(相對論),到時我們將知道,我們最初的假定是錯誤的。通過在最簡單的有用層次推理,我們可以高效地解決問題,

所有事情都應該盡可能簡單,但不要過于簡單。

阿爾伯特·愛因斯坦

從非常簡單的模型開始這一做法,同樣可以應用于機器學習工程,通常可以證明,這是非常有價值的做法。事實上,我們在Insight看到數(shù)以百計的項目從想法到發(fā)布成品的全過程,發(fā)現(xiàn)從一個簡單的基線模型開始,一貫地導向更好的最終產(chǎn)品。

應對復雜問題時,簡單的方案,有很多缺陷:

它們有時候忽略輸入的重要方面。例如,簡單模型常常忽略句子中的詞序,或者變量之間的相關(guān)性。

它們受到限制,難以得到精細的結(jié)果。大多數(shù)簡單模型可能需要配合啟發(fā)式方法或手工指定的規(guī)則才能供客戶使用。

它們并不那么有趣,可能無法讓你在開發(fā)時獲得尖端研究的體驗。

這些方案常常產(chǎn)生受到誤導的輸出,可能在我們看來非常愚蠢,正如本文標題所言,蠢模型。然而,如同我們將在本文中描述的,它們提供了極為有用的第一步,讓我們可以更好地理解我們的問題,以找到最好的處理方法。正如George E. P. Box所說:

所有模型都是錯誤的,但有些模型有用。

換句話說:如果你想玩下有趣的玩意,從復雜的模型開始。如果你想解決問題、構(gòu)建產(chǎn)品,從愚蠢的模型開始。

什么是基線?

不同的分布需要不同的基線(來源:xkcd/1725)

基線模型不僅易于配置,同時有合理的幾率提供不錯的結(jié)果。試驗基線模型通常很快,而且代價較低,因為流行的軟件包大多包括了基線模型實現(xiàn)。

值得考慮的一些基線:

線性回歸。從一組特征預測連續(xù)值(價格、年齡等),首先嘗試下線性回歸。

邏輯回歸。試圖分類結(jié)構(gòu)數(shù)據(jù)或自然語言時,邏輯回歸通常能給出快速、牢靠的結(jié)果。

梯度提升樹。Kaggle競賽經(jīng)典模型!從時序預測到一般結(jié)構(gòu)數(shù)據(jù),梯度提升樹難以戰(zhàn)勝。盡管比其他基線要稍微難以解釋一點,它通常表現(xiàn)出色。

簡單卷積架構(gòu)。對大多數(shù)圖像分類、檢測、分割問題而言,微調(diào)VGG或再訓練某個U-net變體通常是一個良好的開始。

還有更多!

簡單基線模型的選擇取決于要處理的數(shù)據(jù)類型和任務類型。如果你打算基于多個特征預測房價,那選擇線性回歸很合理。不過,如果你想要構(gòu)建語音到文本算法,那選擇線性回歸就不怎么合理了。你需要思考你希望從基線模型中得到什么,以選擇最佳的基線。

為什么從基線開始?

部署模型需要很多工作,確保提交前充分探索(來源:Uber)

開始一個項目時,首要的是了解會阻礙項目進度的未曾預見的潛在挑戰(zhàn)。即使基線模型最終沒有成為最終版本的模型,它們?nèi)匀荒軌蜃屇惴浅?焖俚氐速M最少的時間。下面是一些原因。

基線將花去不到1/10的時間,可能提供高達90%的結(jié)果

生產(chǎn)率乘以9!

這里有一個非常常見的故事:一個團隊想要實現(xiàn)一個模型預測用戶點擊廣告的概率。他們從邏輯回歸開始,并很快(經(jīng)過一些微調(diào))達到了90%精確度。

問題在于:這個團隊應該集中精力將精確度提高到95%,還是應該以這樣90%的方式解決其他問題?

大多數(shù)最先進的模型,由于其隨機性本質(zhì),仍然會給出非零誤差率。你的用例可能不同,但大多數(shù)系統(tǒng)的效率本質(zhì)上是乘法的,這意味著你寧愿選擇90%精確度的10個連續(xù)步驟(導致34%的最終精確度),而不是一個99%的步驟,跟著九個10%的步驟(0.000000099%)。

從基線開始,讓你可以首先解決瓶頸!

基線模型為更復雜的模型提供了上下文

通常,模型表現(xiàn)有三個易于評定的層次:

微不足道的可實現(xiàn)表現(xiàn),你希望任何模型都能超過這個層次。例如,在分類任務中,每次都猜測最頻繁出現(xiàn)的分類所得到的精確度。

人類表現(xiàn),人類在這一任務上能夠達到的表現(xiàn)。在某些任務上,計算機的表現(xiàn)比人類好很多(比如下圍棋),在其他一些任務上,則比人類要差(比如寫詩)。知道人類能夠表現(xiàn)得多好,有時可以幫助你事先為算法設定期望。不過,由于人類/計算機在不同領域的任務上表現(xiàn)不一樣,這也許需要進行一些文獻檢索加以校正。

部署模型要求的表現(xiàn),從商業(yè)和可用性角度出發(fā),使你的模型適宜部署到生產(chǎn)環(huán)境的最小價值。通常而言,聰明的設計決策可以讓這一價值更容易實現(xiàn)。例如,Google的智能回復,顯示三個建議回復,明顯提升了顯示有用結(jié)果的幾率。

以上三個層次缺了一層,我會稱它為“合理的自動化表現(xiàn)”,這代表可以通過一個相對簡單的模型實現(xiàn)的表現(xiàn)。這對評估復雜模型是否表現(xiàn)良好而言,是不可或缺的,也能讓我們處理精確性和復雜性的折衷。

許多時候,我們發(fā)現(xiàn)基線模型的表現(xiàn)和復雜模型相當,甚至優(yōu)于復雜模型,特別是選擇復雜模型時沒有查看基線模型失敗之處的時候。此外,復雜模型通常更難部署,這意味著,很有必要事先衡量它們在簡單基線水平上的提升,是否值得額外的工程上的努力來部署它們。

簡單模型易于部署

根據(jù)定義,基線模型是簡單的。它們通常包含相對較少的可訓練參數(shù),無需太多工作就可以快速擬合數(shù)據(jù)。

這意味著,在工程上,簡單模型:

訓練起來更快,讓你能夠迅速得到模型表現(xiàn)的反饋。

研究充分,這意味著你碰到的大多數(shù)錯誤或者是構(gòu)建模型時的簡單bug,或者突顯了你的數(shù)據(jù)有問題。

推理起來更快,這意味著部署它們不需要很多基礎設施工程,也不會增加延遲。

構(gòu)建和部署一個基線模型之后,正是決定下一步做什么的最佳時機。

構(gòu)建基線模型之后做什么?

是時候拿一些論文出來看?

就像我們之前提到的那樣,如果你發(fā)現(xiàn)基線模型的表現(xiàn)不夠好,那么,查看簡單模型失效之處有助于你找到更好的方法。

例如,在我之前寫的NLP初步中,通過查看基線的誤差,我們可以看到它無法區(qū)分有意義的單詞和填充詞。這引導我們使用可以捕捉這一細微差別的模型。

基線幫助你理解數(shù)據(jù)

如果基線表現(xiàn)良好,你就不用為配置一個更復雜的模型操心了。如果基線表現(xiàn)不佳,它產(chǎn)生的錯誤種類對理解數(shù)據(jù)的偏離和特定問題非常有指導性。大多數(shù)機器學習的問題是通過更好地理解和準備數(shù)據(jù)解決的,而不是通過選擇更復雜的模型解決的。查看基線的表現(xiàn)有助你發(fā)現(xiàn):

哪些分類更難區(qū)分。對大多數(shù)分類問題而言,查看混淆矩陣能得到很多關(guān)于哪些分類導致模型出現(xiàn)問題的信息。當特定分類上的表現(xiàn)特別差時,值得探索數(shù)據(jù)以理解為什么。

模型捕捉到了哪些信號。大多數(shù)基線可以提取特征重要性,揭示輸入的哪些方法預測性最好。分析特征重要性對理解模型如何做出判定以及模型在哪些方面有所欠缺非常有幫助。

模型錯過了哪些信號。如果數(shù)據(jù)的特定方面從直覺上看起來很重要,但模型忽略了它。那么進行特征工程或者選用其他能夠更好地利用數(shù)據(jù)這一方面的模型會是一個好主意。

基線幫助你理解任務

基線不僅有助于你更好地理解數(shù)據(jù),還能讓你看到推理的哪一部分容易,哪一部分困難。進而允許你探索改進模型的哪個方向使困難部分表現(xiàn)更好。

例如,在嘗試預測給定團隊在守望先鋒中的勝率時,Bowen Yang從邏輯回歸開始。他很快發(fā)現(xiàn)在游戲過半之后預測精確度戲劇性地提升了。這一觀察幫助他決定下一個模型的選擇,一種允許從先驗信息學習的嵌入技術(shù),在一開始就提升了精確度。

大多數(shù)機器學習問題遵循“沒有免費午餐”定理:并不存在一個萬能的解決方案。從多種架構(gòu)、嵌入策略、模型中選定能夠提取和利用數(shù)據(jù)結(jié)構(gòu)的最佳方案是一項挑戰(zhàn)。查看簡單的基線勉力建模的內(nèi)容,對做出選擇幫助很大。

再舉一個例子。試圖分割心臟MRI影像時,Chuck-Hou Yee首先嘗試了一個原始的U-net架構(gòu)。這讓他發(fā)現(xiàn)模型產(chǎn)生的很多分割誤差是因為缺少上下文信息(小型感受野)。為了應對這一問題,他轉(zhuǎn)而使用了擴張卷積,這一選擇顯著提升了模型的表現(xiàn)。

當基線派不上用場的時候

最后,為某些任務構(gòu)建有效的基線非常困難。如果你打算從音源中分離出不同的說話人(雞尾酒會問題),你可能需要從復雜模型開始,以得到滿意的結(jié)果。在這些情形下,作為簡化模型的替代,你可以簡化數(shù)據(jù):嘗試讓你的復雜模型過擬合數(shù)據(jù)的一個非常小的子集。如果你的模型具備學習這一問題的表達能力,它會很簡單。如果發(fā)現(xiàn)這部分很困難,那么通常這意味著你需要試試其他模型。

結(jié)語

當你意識到強大的模型的存在之后,很容易忽略那些簡單方法。然而,和大多數(shù)領域一樣,在機器學習中,從基本開始總是很有價值的。

學習如何應用復雜方法固然是一項挑戰(zhàn),機器學習工程師的最大挑戰(zhàn)是為給定的任務決定建模策略。首先嘗試簡單模型可以為這一決策提供信息;如果簡單模型的表現(xiàn)平平無奇,轉(zhuǎn)而使用一個更復雜的模型,一個擅長避免基線產(chǎn)生的特定錯誤的模型。

在Insight,這一方法總共節(jié)省了數(shù)以千計小時的時間。我們希望這一方法對你同樣有用。如果遇到問題,或有什么想法,歡迎留言!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像分類
    +關(guān)注

    關(guān)注

    0

    文章

    92

    瀏覽量

    11944
  • 基線
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7987
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8434

    瀏覽量

    132872

原文標題:創(chuàng)造機器學習產(chǎn)品的秘訣:總是從蠢模型開始

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【下載】《機器學習》+《機器學習實戰(zhàn)》

    、Apriori算法、FP-Growth算法。第四部分介紹了機器學習算法的一些附屬工具。全書通過精心編排的實例,切入日常工作任務,摒棄學術(shù)化語言,利用高效的可復用Python代碼來闡釋如何處理統(tǒng)計數(shù)據(jù),進行
    發(fā)表于 06-01 15:49

    構(gòu)建機器學習產(chǎn)品必需的數(shù)學背景

    必讀我們該如何學習機器學習中的數(shù)學
    發(fā)表于 08-15 11:44

    機器學習經(jīng)驗總結(jié)

    面試經(jīng)驗機器學習
    發(fā)表于 08-16 14:20

    什么是機器學習? 機器學習基礎入門

    中,我將概述機器學習,它是如何工作的,以及為什么它對嵌入式工程師很重要。什么是機器學習機器學習
    發(fā)表于 06-21 11:06

    Airbnb機器學習和數(shù)據(jù)科學團隊經(jīng)驗分享

    Airbnb資深機器學習科學家Shijing Yao、前Airbnb數(shù)據(jù)科學負責人Qiang Zhu、Airbnb機器學習工程師Phillippe Siclait分享了在Airbnb
    的頭像 發(fā)表于 07-07 09:24 ?3893次閱讀

    ML-Bench 1.0構(gòu)建和分析機器學習基準

    本講座描述了用于構(gòu)建機器學習基準的分析方法。
    的頭像 發(fā)表于 11-13 06:32 ?2438次閱讀

    機器學習的12大經(jīng)驗總結(jié)

    本文整理了關(guān)于機器學習研究者和從業(yè)者的 12 個寶貴經(jīng)驗,包括需要避免的陷阱、需要關(guān)注的重點問題、常見問題的答案。希望這些經(jīng)驗機器
    的頭像 發(fā)表于 12-13 15:29 ?2700次閱讀

    如何才能正確的構(gòu)建機器學習的模型

    組織構(gòu)建一個可行的、可靠的、敏捷的機器學習模型來簡化操作和支持其業(yè)務計劃需要耐心、準備以及毅力。各種組織都在為各行業(yè)中的眾多應用實施人工智能項目。這些應用包括預測分析、模式識別系統(tǒng)、自主系統(tǒng)、會話
    發(fā)表于 01-11 19:25 ?14次下載

    六個構(gòu)建機器學習模型需避免的錯誤

    近年來,機器學習在學術(shù)研究領域和實際應用領域得到越來越多的關(guān)注。但構(gòu)建機器學習模型不是一件簡單的事情,它需要大量的知識和技能以及豐富的
    發(fā)表于 05-05 16:39 ?1435次閱讀

    Python機器學習應用

    機器學習的目標:機器學習是實現(xiàn)人工智能的手段,主要研究內(nèi)容是如何利用數(shù)據(jù)或經(jīng)驗進行學習,改善具體
    發(fā)表于 05-25 16:24 ?19次下載

    電力公司正在使用機器學習構(gòu)建綠色的智能電網(wǎng)

    從發(fā)電到智能電表,各種電力項目正在采用機器學習構(gòu)建綠色、有韌性的智能電網(wǎng),其中許多項目都采用了 NVIDIA 的技術(shù)。
    的頭像 發(fā)表于 05-30 15:10 ?1940次閱讀

    高效理解機器學習

    來源:DeepNoMind對于初學者來說,機器學習相當復雜,可能很容易迷失在細節(jié)的海洋里。本文通過將機器學習算法分為三個類別,梳理出一條相對清晰的路線,幫助初學者理解
    的頭像 發(fā)表于 05-08 10:24 ?577次閱讀
    <b class='flag-5'>高效</b>理解<b class='flag-5'>機器</b><b class='flag-5'>學習</b>

    機器學習構(gòu)建ML模型實踐

    實踐中的機器學習構(gòu)建 ML 模型
    的頭像 發(fā)表于 07-05 16:30 ?739次閱讀

    構(gòu)建云原生機器學習平臺流程

    構(gòu)建云原生機器學習平臺是一個復雜而系統(tǒng)的過程,涉及數(shù)據(jù)收集、處理、特征提取、模型訓練、評估、部署和監(jiān)控等多個環(huán)節(jié)。
    的頭像 發(fā)表于 12-14 10:34 ?160次閱讀

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學習
    的頭像 發(fā)表于 12-25 11:54 ?139次閱讀
    主站蜘蛛池模板: 韩国三级视频网站| 久久鬼| www.4hu影院| 黄网址免费| 国产美女动态免费视频| bt天堂在线www最新版资源网| 最近在线视频免费观看2019| 天天综合网在线| 能看的黄网| 在线观看黄色x视频| 67xxxxxx日本| 99精品热视频| 婷婷五月色综合香五月| 日韩色爱| 黄色视屏日本| 亚洲va国产日韩欧美精品色婷婷| 手机看片1024在线观看| 在线看片福利| 成人永久免费视频网站在线观看| 在线女同免费观看网站| 女人又色又爽又黄| 操熟逼| 亚洲最色网站| 欧美成人一区二区三区在线视频| 日毛片| 国产一区二区三区毛片| 天天做天天爱天天综合网 | 性午夜影院| 日韩毛片免费在线观看| 久久99精品一级毛片| 午夜视频在线观看视频| 国产精品美女一级在线观看| 34看网片午夜理| 新网球王子u17世界杯篇免费观看| 欧美色伊人| bt天堂网在线www资源| 九九国产在线| 久久久久国产成人精品亚洲午夜| 四虎4hu永久免费国产精品| 国产欧美日韩电影| 人人干国产|