資料介紹
機器學習模型的訓練,通常是通過學習某一組輸入特征與輸出目標之間的映射來進行的。一般來說,對于映射的學習是通過優化某些成本函數,來使預測的誤差最小化。在訓練出最佳模型之后,將其正式發布上線,再根據未來生成的數據生成準確的預測。這些新數據示例可能是用戶交互、應用處理或其他軟件系統的請求生成的——這取決于模型需要解決的問題。在理想情況下,我們會希望自己的模型在生產環境中進行預測時,能夠像使用訓練過程中使用的數據一樣,準確地預測未來情況。
當我們將模型部署到生產中時,往往會假設未來將使用到的數據會類似于過去模型評估期間所使用的數據。具體來說,我們可能會假設,特征和目標的分布將保持相當的恒定。但是這種假設通常不成立。趨勢會隨著時間的推移而變化,人們的興趣會隨著季節的變化而變化,股票市場會起伏不定。因此,我們的模型必須適應這些變化。
世界是持續變化的,因此模型部署應視為一個連續的過程,而不是完成第一次部署之后就扭頭去開展下一個項目。如果機器學習團隊的工程師發現數據分布與原始訓練集的數據分布有明顯出入,則需要重新訓練模型。這個現象——通常被稱為模型漂移(model drift)——可以緩解,但是會帶來額外的開銷,如監視基礎設施、監督和流程等等。
在本文中,筆者想對模型漂移下定義,并討論如何去識別和跟蹤模型漂移。然后,我將描述如何重新訓練模型,來減輕漂移對預測性能的影響,并對應多久重新訓練一次模型做出建議。最后,我將介紹啟用模型重新訓練的幾種方法。
機器學習模型的訓練,通常是通過學習某一組輸入特征與輸出目標之間的映射來進行的。一般來說,對于映射的學習是通過優化某些成本函數,來使預測的誤差最小化。在訓練出最佳模型之后,將其正式發布上線,再根據未來生成的數據生成準確的預測。這些新數據示例可能是用戶交互、應用處理或其他軟件系統的請求生成的——這取決于模型需要解決的問題。在理想情況下,我們會希望自己的模型在生產環境中進行預測時,能夠像使用訓練過程中使用的數據一樣,準確地預測未來情況。
當我們將模型部署到生產中時,往往會假設未來將使用到的數據會類似于過去模型評估期間所使用的數據。具體來說,我們可能會假設,特征和目標的分布將保持相當的恒定。但是這種假設通常不成立。趨勢會隨著時間的推移而變化,人們的興趣會隨著季節的變化而變化,股票市場會起伏不定。因此,我們的模型必須適應這些變化。
世界是持續變化的,因此模型部署應視為一個連續的過程,而不是完成第一次部署之后就扭頭去開展下一個項目。如果機器學習團隊的工程師發現數據分布與原始訓練集的數據分布有明顯出入,則需要重新訓練模型。這個現象——通常被稱為模型漂移(model drift)——可以緩解,但是會帶來額外的開銷,如監視基礎設施、監督和流程等等。
在本文中,筆者想對模型漂移下定義,并討論如何去識別和跟蹤模型漂移。然后,我將描述如何重新訓練模型,來減輕漂移對預測性能的影響,并對應多久重新訓練一次模型做出建議。最后,我將介紹啟用模型重新訓練的幾種方法。
什么是模型漂移?
模型漂移是指,由于環境的變化違反了模型假設,而導致模型的預測性能隨時間而降低。模型漂移有點用詞不當,因為變化的不是模型,而是模型運行的環境。因此,概念漂移(concept drift)一詞實際上可能是一個更好的用詞,不過兩個術語都描述了相同的現象。
請注意,筆者對模型漂移的定義實際上包括幾個可以更改的變量。預測性能將下降,它將在一段時間內以某種速率下降,并且這種下降會歸因于違反建模假設的環境變化。在確定如何診斷ai服務器模型漂移以及如何通過模型再訓練糾正模型漂移時,應考慮這些變量中的每一個。
如何跟蹤模型漂移?
目前業內已有多種識別和跟蹤模型漂移的技術。在介紹這些技術之前,值得一提的是,并沒有一種萬能的方法。不同的模型問題需要不同的解決方案,您可能有、也可能沒有相應的基礎架構或資源來利用某些技術策略。
模型性能降級
識別模型漂移的最直接方法是明確預測性能是否已下降,同時量化這種下降。測量實時數據上已部署模型的準確性是一個眾所周知的難題。之所以出現這種困難,部分原因是我們需要訪問生成的模型的預測和基本事實信號。出于以下這些原因,這可能無法實現:
·預測的數據在生成后沒有存儲——別讓這種事發生在你身上。
·預測已存儲,但是您無法訪問基本事實標簽。
·預測和標簽均可用,但不能結合在一起。
即使預測和標簽可以合并在一起,也可能需要一段時間才能使用標簽。例如一個可以預測下一季度收入的財務預測模型。在這種情況下,只有在該季度過去之后才能觀察到實際收入,所以直到那個時候你才能夠量化模型的效果。在此類預測問題中, 回填預測(即訓練模型,并根據過去的歷史數據生成預測)可以幫助您了解模型性能下降的速度。
正如Josh Wills 指出的那樣,在部署模型之前您可以做的最重要的事情之一就是試圖了解離線環境中的模型漂移。數據科學家應想辦法回答以下問題:“如果我使用六個月前的浪潮ai服務器數據對這組特征進行訓練,并將其應用于今天生成的數據,那么這個模型比我一個月前未經訓練而創建并應用到今天的模型差多少呢?”。離線執行此分析,您可以估計模型性能下降的速度以及需要重新訓練的頻率。當然,這種方法的前提是要有一臺“時光機”來訪問過去任何時候的實時數據。
- 精通機器學習之MATLAB分步實施指南 0次下載
- 基于終身機器學習的主題挖掘評分和評論推薦模型 42次下載
- 基于BERT的中文科技NLP預訓練模型 14次下載
- 機器學習的訓練樣本數據選擇方法綜述 8次下載
- 基于預訓練模型和長短期記憶網絡的深度學習模型 19次下載
- 一種可分享數據和機器學習模型的區塊鏈 15次下載
- 一種基于多任務聯合訓練的閱讀理解模型 10次下載
- 188萬中文詞庫包括了輸入法和機器學習與訓練 6次下載
- 機器學習教程之線性模型的詳細資料說明 0次下載
- 機器學習的模型評估與選擇詳細資料說明 0次下載
- 機器視覺光學系統的介紹和選型指南詳細概述 2次下載
- 深度學習網絡訓練技巧的詳細資料匯總 10次下載
- 機器學習教程之使用matlab研究機器學習的資料概述 32次下載
- 機器學習有哪十大算法?機器學習的十大算法詳細資料概述免費下載 13次下載
- TI電子醫學應用指南的詳細英文原版資料概述 0次下載
- 預訓練和遷移學習的區別和聯系 319次閱讀
- 如何理解機器學習中的訓練集、驗證集和測試集 1415次閱讀
- 預訓練模型的基本原理和應用 1336次閱讀
- 解讀PyTorch模型訓練過程 513次閱讀
- 深度學習模型訓練過程詳解 426次閱讀
- 如何基于深度學習模型訓練實現工件切割點位置預測 582次閱讀
- 如何基于深度學習模型訓練實現圓檢測與圓心位置預測 1370次閱讀
- 視覺深度學習遷移學習訓練框架Torchvision介紹 735次閱讀
- 支持 ChatGPT 的機器學習模型的概況 744次閱讀
- 什么是預訓練AI模型? 871次閱讀
- 超詳細配置教程:用Windows電腦訓練深度學習模型 1344次閱讀
- 機器學習的知識產權問題 1456次閱讀
- 針對線性回歸模型和深度學習模型,介紹了確定訓練數據集規模的方法 5995次閱讀
- 谷歌新推無程式碼機器學習模型分析工具 2425次閱讀
- 機器學習中的特征選擇的5點詳細資料概述 6893次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1491次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 95次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 4次下載 | 免費
- 8基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537793次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多