在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人工智能科普:數據質量在 ML Ops 工作流中的關鍵作用

如意 ? 來源:機器之心 ? 作者:機器之心 ? 2020-10-15 11:56 ? 次閱讀

ML Ops 是 AI 領域中一個相對較新的概念,可解釋為「機器學習操作」。如何更好地管理數據科學家和操作人員,以便有效地開發、部署和監視模型?其中數據質量至關重要。

本文將介紹 ML Ops,并強調數據質量在 ML Ops 工作流中的關鍵作用。

ML Ops 的發展彌補了機器學習與傳統軟件工程之間的差距,而數據質量是 ML Ops 工作流的關鍵,可以加速數據團隊,并維護對數據的信任。

什么是 ML Ops

ML Ops 這個術語從 DevOps 演變而來。

DevOps 是一組過程、方法與系統的統稱,用于促進開發(應用程序 / 軟件工程)、技術運營和質量保障(QA)部門之間的溝通、協作與整合。DevOps 旨在重視軟件開發人員(Dev)和 IT 運維技術人員(Ops)之間溝通合作的文化、運動或慣例。透過自動化軟件交付和架構變更的流程,來使得構建、測試、發布軟件能夠更加地快捷、頻繁和可靠。

而 MLOps 基于可提高工作流效率的 DevOps 原理和做法,例如持續集成、持續交付和持續部署。ML Ops 將這些原理應用到機器學習過程,其目標是:

更快地試驗和開發模型

更快地將模型部署到生產環境

質量保證

DevOps 的常用示例是使用多種工具對代碼進行版本控制,如 git、代碼審查、持續集成(CI,即頻繁地將代碼合并到共享主線中)、自動測試和持續部署(CD,即自動將代碼合并到生產環境)。

在應用于機器學習時,ML Ops 旨在確保模型輸出質量的同時,加快機器學習模型的開發和生產部署。但是,與軟件開發不同,ML 需要處理代碼和數據:

機器學習始于數據,而數據來源不同,需要用代碼對不同來源數據進行清洗、轉換和存儲。

然后,將處理好的數據提供給數據科學家,數據科學家進行代碼編寫,完成特征工程、開發、訓練和測試機器學習模型,最終將這些模型部署到生產環境中。

在生產中,ML 模型是以代碼的形式存在的,輸入數據同樣可以從各種來源獲取,并創建用于輸入產品和業務流程的輸出數據。

人工智能科普:數據質量在 ML Ops 工作流中的關鍵作用

雖然上文的描述對該過程進行了簡化,但是仍然可以看出代碼和數據在 ML 環境中是緊密耦合的,而 ML Ops 需要兼顧兩者。

具體來說,這意味著 ML Ops 包含以下任務:

對用于數據轉換和模型定義的代碼進行版本控制;

在投入生產之前,對所獲取的數據和模型代碼進行自動測試;

在穩定且可擴展的環境中將模型部署到生產中;

監控模型性能和輸出。

數據測試和文檔記錄如何適配 ML Ops?

ML Ops 旨在加速機器學習模型的開發和生產部署,同時確保模型輸出的質量。當然,對于數據質量人員來說,要實現 ML 工作流中各個階段的加速和質量,數據測試和文檔記錄是非常重要的:

在利益相關者方面,質量差的數據會影響他們對系統的信任,從而對基于該系統做出決策產生負面影響。甚至更糟的是,未引起注意的數據質量問題可能導致錯誤的結論,并糾正這些問題又會浪費很多時間。

在工程方面,急于修復下游消費者注意到的數據質量問題,是消耗團隊時間并緩慢侵蝕團隊生產力和士氣的頭號問題之一。

此外,數據文檔記錄對于所有利益相關者進行數據交流、建立數據合同至關重要。

下文將從非常抽象的角度介紹 ML pipeline 中的各個階段,并討論數據測試和文檔記錄如何適應每個階段。

1. 數據獲取階段

即使是在數據集處理的早期階段,從長遠來看,對數據進行質量檢查和文檔記錄可以極大地加速操作。對于工程師來說,可靠的數據測試非常重要,可以使他們安全地對數據獲取 pipeline 進行更改,而不會造成不必要的問題。同時,當從內部和外部上游來源獲取數據時,為了確保數據出現未預料的更改,在獲取階段進行數據驗證是非常重要的。

2. 模型開發

本文將特征工程、模型訓練和模型測試作為核心模型開發流程的一部分。在這個不斷迭代的過程中,圍繞數據轉換代碼和支持數據科學家的模型輸出提供支持,因此在一個地方進行更改不會破壞其他地方的內容。

在傳統的 DevOps 中,通過 CI/CD 工作流進行持續的測試,可以快速地找出因代碼修改而引入的任何問題。更進一步,大多數軟件工程團隊要求開發人員不僅要使用現有的測試來測試代碼,還要在創建新功能時添加新的測試。同樣,運行測試以及編寫新的測試應該是 ML 模型開發過程的一部分。

3. 在生產中運行模型

與所有 ML Ops 一樣,在生產環境中運行的模型依賴于代碼和輸入數據,來產生可靠的結果。與數據獲取階段類似,我們需要保護數據輸入,以避免由于代碼更改或實際數據更改而引起的不必要問題。同時,我們還應該圍繞模型輸出進行一些測試,以確保模型繼續滿足我們的期望。

尤其是在具有黑盒 ML 模型的環境中,建立和維護質量標準對于模型輸出至關重要。同樣地,在共享區域記錄模型的預期輸出可以幫助數據團隊和利益相關者定義和傳達「數據合同」,從而增加 ML pipeline 的透明度和信任度。

人工智能科普:數據質量在 ML Ops 工作流中的關鍵作用

原文鏈接:https://greatexpectations.io/blog/ml-ops-data-quality/
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7085

    瀏覽量

    89214
  • 人工智能
    +關注

    關注

    1792

    文章

    47442

    瀏覽量

    239004
  • 機器學習
    +關注

    關注

    66

    文章

    8425

    瀏覽量

    132774
收藏 人收藏

    評論

    相關推薦

    AI工作流自動化是做什么的

    AI工作流自動化是指利用人工智能技術,對工作流的重復性、規則明確的任務進行自動化處理的過程。那么,AI工作流自動化是做什么的呢?接下來,
    的頭像 發表于 01-06 17:57 ?83次閱讀

    嵌入式和人工智能究竟是什么關系?

    。 此外,嵌入式系統人工智能算法優化和部署也起到了關鍵作用。通過將人工智能算法部署到嵌入式設備,我們可以實現對算法的靈活優化和調整,以
    發表于 11-14 16:39

    soc人工智能的創新應用

    社會計算(Social Computing, SOC)是一個跨學科領域,它結合了社會科學、計算機科學和人工智能,以理解和設計社會互動的技術系統。隨著人工智能(AI)技術的發展,SOC
    的頭像 發表于 11-10 09:30 ?418次閱讀

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    了電力的實時平衡和優化,有效降低了電網的運行成本和故障率。 此外,書中還討論了人工智能在能源科學研究的挑戰和機遇。這些挑戰包括數據質量、算法優化、隱私保護等方面,而機遇則體現在技術創
    發表于 10-14 09:27

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    人工智能在科學研究的核心技術,包括機器學習、深度學習、神經網絡等。這些技術構成了AI for Science的基石,使得AI能夠處理和分析復雜的數據集,從而發現隱藏在數據
    發表于 10-14 09:16

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    。 5. 展望未來 最后,第一章讓我對人工智能驅動的科學創新未來充滿了期待。隨著技術的不斷進步和應用場景的拓展,AI將在更多領域發揮關鍵作用,從基礎科學到應用科學,從理論研究到實踐應用,都將迎來前所未有
    發表于 10-14 09:12

    risc-v人工智能圖像處理應用前景分析

    定制性。這些特點使得RISC-V多個領域,包括人工智能圖像處理領域,具有顯著的優勢。 二、RISC-V人工智能圖像處理的優勢 開源性和
    發表于 09-28 11:00

    FPGA人工智能的應用有哪些?

    FPGA(現場可編程門陣列)人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發表于 07-29 17:05

    西部數據發布AI數據周期框架,推動人工智能革新

    人工智能領域持續革新的今天,西部數據公司憑借其深厚的技術積累,正式發布了全新的人工智能數據周期(AI Data Cycle)框架。這一框架
    的頭像 發表于 06-14 17:55 ?1041次閱讀

    人工智能在影像升級關鍵作用

    GPU和深度學習的結合對于使人工智能更快、更高效地升級也至關重要。GPU可以同時處理大量數據,從而實現更快的訓練和推理。
    發表于 03-11 18:15 ?224次閱讀

    引領數字時代:華為云函數工作流人工智能的共舞

    )正成為各行業關注的焦點。AIGC 不僅在圖像生成領域有廣泛的應用,更是推動著產業發展,提升著工作效率,為人類發展帶來了積極的促進作用。 函數工作流:StableDiffusion 應用托管重要場景 隨著科技的不斷演進,
    的頭像 發表于 03-09 23:44 ?227次閱讀
    引領數字時代:華為云函數<b class='flag-5'>工作流</b>與<b class='flag-5'>人工智能</b>的共舞

    WiFi模塊引領智能制造時代:工業4.0關鍵作用

    模塊工業4.0關鍵作用。 實時數據傳輸與監控 WiFi模塊工業4.0的一個
    的頭像 發表于 02-29 15:23 ?454次閱讀

    嵌入式人工智能的就業方向有哪些?

    嵌入式人工智能的就業方向有哪些? 新一輪科技革命與產業變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛嵌入式
    發表于 02-26 10:17

    語音數據智能駕駛關鍵作用與應用

    關鍵作用、應用、挑戰以及未來的發展趨勢。 二、語音數據智能駕駛
    的頭像 發表于 01-31 16:22 ?512次閱讀

    DC電源模塊物聯網設備關鍵作用

    BOSHIDA ?DC電源模塊物聯網設備關鍵作用 DC電源模塊物聯網設備中發揮著關鍵作用。物聯網設備通常需要穩定可靠的電源供應,以保
    的頭像 發表于 01-16 14:03 ?598次閱讀
    DC電源模塊<b class='flag-5'>在</b>物聯網設備<b class='flag-5'>中</b>的<b class='flag-5'>關鍵作用</b>
    主站蜘蛛池模板: 亚洲日本精品| аⅴ资源天堂8在线| 日产精品卡二卡三卡四卡无卡乱码| 亚洲色五月| 国产主播在线观看| 日本黄色片在线观看| 婷婷色六月| 一级毛片黄色| 国产三级久久久精品三级| 69女poren18中国| 中国人69xxx大全| 日日骑夜夜操| 一级片a| 国产在线视频你懂的| 成人a在线| 国产欧美久久久精品影院| 男人天堂综合网| 日韩欧美黄色| 日韩三级中文| 麻豆色哟哟网站| 美女中出视频| 国产三级日产三级韩国三级| 免费网站毛片| 人与牲动交xxxxbbbb高清| 男人的天堂视频网站清风阁| 国产一级特黄在线播放| 在线观看黄日本高清视频| 97视频人人| 成人精品一区二区不卡视频| 午夜小视频在线| 台湾三级毛片| 欧美簧片| 美女福利在线观看| 久久观看| 狠狠干b| 波多野结衣一级毛片| 永久免费观看黄网站| 午夜.dj高清在线观看免费8| 特大一级aaaaa毛片| 亚洲天堂手机在线| 欧美黄色tv|