導讀
如果你想要用機器學習來做一些事情,這里列出了 4 件最重要的事情。
如何確保你的項目保持在正軌上。
如果你是產品經理,想要用機器學習來做一些事情,這里列出了 4 件最重要的事情:
1. 優先考慮工程而不是數據科學
一個機器學習項目首先是一個軟件項目。許多數據科學家在構建架構良好、可靠、易于部署的軟件方面缺乏經驗。當你構建一個生產系統時,這將成為一個問題。
根據經驗,**工程師掌握數據科學技能的速度要比數據科學家掌握工程經驗的速度快。**如果有疑問,請與擁有 5 年以上經驗、對人工智能充滿激情的 python 工程師合作,而不是首次嘗試構建商業應用的數據科學博士。
2. 保持高效
盡早降低風險很重要。用具體的里程碑來組織你的項目:
完成原型:查看你的想法是否有希望在 1-2 周內完成
離線測試系統:對模型進行調優,并在 2-4 周內對現有數據進行嚴格測試
在線測試系統:最終確定模型并在 2-4 周內進行測試
上線:自動化數據更新、模型訓練和代碼部署 2-4 周
持續改進:(可選)12 個月
總時間:1-3 個月
一個有經驗的團隊應該能夠為幾乎所有的項目遵循這些時間表。讓團隊在 1-3 個月內建立一個實時系統。上線后,再決定是否值得進一步改進。
這些誘惑會不必要地延長你的項目:
等待完美的數據
使用錯誤的工具(太復雜或太慢)
可擴展性的過度工程化
無休止地玩弄算法(見下一點)
3. 算法不重要
機器學習系統有很多有趣的按鈕可以使用。不要這么干。
這些改進值得花時間(按重要性排序):
獲取更多(相關)輸入數據
對數據進行更好的預處理
選擇正確的算法并進行正確的調優。
算法是最不重要的因素。簡單地選擇一個可行的算法。無休止地升級算法是很誘人的,但它可能不會提供你期望的結果。
4. 交流,交流,交流
分享盡可能多的業務場景
一旦工程團隊開始構建,他們必須做出許多選擇。他們越了解你的輕重緩急,就越能做出正確的決定。至少,你應該告訴他們:
戰略重點
這是一個關鍵的問題嗎?它是否需要每天處理數百萬個請求?這是不是一個未來產品的研究?
目前的問題
目前處理流程是否太長?是不是太不準確了?還是有很多數據沒有機器學習就無法計算?
輸入和輸出
輸入:你(作為一個人)將使用哪些數據來做出正確的決策?輸出:誰將使用輸出?使用的頻率?它需要是實時的嗎?
性能指標
最重要的指標是什么:點擊率?銷售?投資回報?假陽性?
預計精度
如果你想要優化轉化率,那么它可能不值得再花 2 周的時間來獲得 2%的準確率。如果你建立了醫療診斷系統,那么即使是 1%的假陰性也是不可接受的。
TL;DR
工程優先于數據科學。
通過精益來降低風險。
不要被算法分心。
與開發人員共享所有業務需求。
-
AI
+關注
關注
87文章
31490瀏覽量
269905 -
機器學習
+關注
關注
66文章
8438瀏覽量
132928
發布評論請先 登錄
相關推薦
評論