在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型時代,如何搭建數據的“智能化流水線”?

甲子光年 ? 來源:甲子光年 ? 2023-10-16 18:01 ? 次閱讀

技術將逐漸成為高質量數據的“第一生產力”。

人工智能會改變世界,那誰會改變人工智能?”著名計算機科學家李飛飛曾多次發問。

回看人工智能60多年的發展歷史,大部分時間里,研究者對這個問題給出的答案恐怕都是“模型”。

直到2012年,在ImageNet大規模視覺識別挑戰(ILSVRC)上,杰弗里·辛頓帶領團隊創造了深度學習的“ImageNet時刻”。“數據”第一次站在人工智能舞臺的聚光燈下。

某種程度上,大模型的智能涌現,是ImageNet在自然語言理解(NLP)領域“復制”成功的結果。

過去半年,在國內外逐漸解開“大模型謎團”的過程中,數據、算法、算力這“三駕馬車”在人工智能中扮演的角色正在被重新分配。技術驅動的高質量數據,正在成為驅動模型能力提升的最關鍵要素。與之相伴的AI數據服務行業也迎來了全新的時代。

1.大模型時代,“數據為王”?

大模型時代,整個數據服務行業都在面臨一次“翻新”。

正如汽油需要從原油中提煉才能供汽車使用一樣,AI產業鏈條中,大多數據為非結構化數據,AI公司通過數據標注獲得結構化數據,以此“喂養”算法進行AI訓練,最終生成的模型數據可用于各種場景,從而激發數據的AI價值。因此,數據標注一直是人工智能深度學習路徑下不可或缺的存在。

“大模型時代,數據為王。”這是部分行業觀察者給出的一則判斷。當前的AI大模型訓練過程中,算法端逐漸向Transformer神經網絡“收斂”,算力端依賴于具備大規模并行計算能力的AI服務器集群,數據端則需要涵蓋巨量數據的大規模數據集持續投喂。

必須承認,大模型的智能涌現是三大要素彼此交織的工程學勝利。但某種程度上,算力決定了模型能力的“下限”,而在實際應用場景中,數據質量決定了模型能力的“上限”。

數據是直接影響AI大模型落地效果的關鍵因素。相比于模型算法和底層算力,高質量數據更為稀缺。

大模型時代,所謂“高質量”數據,也有了更豐富的含義。

Mckinsey Global Institute研究報告表明:深度學習模型對訓練數據的數據量、多樣性和更新速度方面提出較高要求。具體而言,約1/3的算法模型每月至少更新一次,約1/4的算法模型每日至少更新一次。算法模型的持續更新,將進一步拓展各領域訓練數據的需求空間。

大模型的研發和應用鏈路更長。簡單來看,大模型訓練包含“模型方案設計-數據采集-數據清洗-數據標注-數據質檢-模型訓練-模型測試-模型評估”八大環節。

其中,“數據采集-數據清洗-數據標注-數據質檢”四步是AI基礎數據服務的關鍵技術流程;在模型訓練環節,大模型也對預訓練數據、微調數據(SFT/RLHF)需求量更大且對質量要求更高;在模型評估和應用環節,模型評估標準、測試數據集,以及應用階段的Prompt工程成為基礎數據服務企業面臨的新挑戰。

需求端的變化重構了數據服務領域原有的游戲規則,傳統數據標注行業“作坊式”的工作模式和工作效率越來越無法滿足激增的“工業化”數據需求。

基礎數據服務企業一方面要夯實交付能力,提升數據質量和作業效率;同時還要開拓各類算法、AI輔助等技術,以彌補重人力投入帶來的高成本、低效率等問題。

長久來看,基礎數據服務需要一條更完善、更高效的“智能流水線”,來匹配大模型時代的新需求。

2.給數據建一套“智能流水線”

國外一家初創企業已經走在前列。

ChatGPT爆火后,AI數據服務商Scale AI被當作“站在OpenAI背后的公司”而備受關注。

自2016年成立以來,Scale AI在最初四年專注為人工智能/機器學習模型所需要的數據做標注。在之后的時間,Scale AI逐漸向下游擴展,開發自有模型,并逐步進入人工智能產業鏈的更多環節。

2020年,成立5年的Scale AI突破了1億美元的ARR,成為有史以來最快達到這一里程碑的公司之一。

ScaleAI爆發性成長的根源在于,它顛覆了數據標注行業作為“勞動密集產業”的歷史,并以一己之力將行業推向“技術密集型”產業。

商業世界中,時代更替、優勝劣汰的故事屢見不鮮,國內也開始浮現一個聲音——誰是“中國的Scale AI”?

中國基礎數據服務市場大致有互聯網企業、初創企業及傳統數據服務商三類玩家。

其中,傳統數據服務商大多“重人力,輕技術”,多依賴眾包或外包模式起家,延續一直以來的“人海戰術”,能夠滿足部分低端需求,具備部分AI輔助標注能力,但整體欠缺算法能力。

創業公司則“重技術,輕人力”,從智能化標注工具的小賽道切入,較成熟的創業公司建有自己的數據標注基地,逐漸形成全棧式交付能力。

相比之下,互聯網企業雖然不算入局最早的,卻是起點最高的。互聯網企業有充足的資金、人才和技術儲備,能夠強勢整合平臺資源,加注技術研發,是近年來AI數據服務領域發展勢頭最猛的力量。

三大玩家均在不同程度“對標”ScaleAI,向人工智能產業鏈下游延伸,并拉開數據采標的智能化變革。然而,真正擁有一套完整智能化流水線的玩家卻不多。

火山引擎,已經率先展開探索。

據火山引擎AI數據中心負責人金亮介紹,火山引擎AI數據服務已經給數據搭建了一套“智能化流水線”,即智能化標注平臺。該平臺包含兩大能力套件——智能作業套件及智能管理套件。

智能作業套件基于標注領域的模型,建設了機標、預標、輔標的智能作業能力矩陣,以模型能力部分替代和全部替代人工標注作業;輔以模型持續優化流程及智能評估、調度能力,保障整體模型覆蓋度和提效表現。

作業套件沉淀了多種標注模板,包含ASR,NLP,CV等全品類的模板覆蓋。如ASR的短語音標注、長語音標注、圖像的關鍵點、矩形框,點云、2/3D融合標注、連續幀、離散幀等標準模板,能夠保障數據安全、平臺操作便捷且可定制化。項目經理只需要簡單配置一下,便可以執行任何類型的任務。

平臺集成了預標注與邊標邊訓和主動學習式的模型,用各類模型輔助甚至代替部分人工操作。同時根據不同的項目階段,選擇適合的模型能力接入相應的項目階段。

例如,在數據標注初期,火山引擎AI數據服務利用模型過濾大量數據,即進行模型預標,減少人工作業的數據量。模型預標后,只需抽取置信度不高的少量數據,由標注員進行確認或修改即可。既完成交付,也能夠給模型提供反饋,持續提升模型性能。

此外,火山引擎AI數據服務還會利用模型進行糾錯,即標注員提交的結果會過一遍模型,兩者相差過大模型會進行糾錯,避免標注員提交質量顯著偏低的結果。在質檢作業時,模型可以輔助篩選需重點質檢任務或直接完成數據的驗收,最終可實現約20%-40%的效率提升。

智能管理套件則基于NLP和對話模型的交付助理GPT、作業助理GPT等助理能力,通過模型的場景優化和策略引擎,實現管理過程中的智能預警和干預,以及業務知識的個性化查詢,提升整體管理效率,降低培訓成本。

此外,金亮表示,基于智能化標注平臺,火山引擎AI數據服務團隊也摸索了一套“人機結合”的作業模式。“我們把復雜的業務通過技術拆解成最小單元,把每一個小業務變成簡單的業務,做機器標注解決,若干個簡單的任務,最后通過技術進行合并,讓使用者都能低門檻使用火山引擎的標注平臺。”金亮說。

在無數次實戰中,火山引擎AI數據服務已經形成完整的一站式服務能力體系。

AI鏈路上,火山引擎AI數據服務可支持數據采集、清洗、標注、格式處理、數據管理、模型訓練與運維、模型評測等AI基建能力;

算法技術上,其可支持CV、智能語音、NLP等機器學習/深度學習算法,及LLM、SD等類別的大模型訓練數據;

服務類型上,可提供高質量的定制化采標服務、模型優化和迭代、預標模型定制化、智能化數據服務平臺等產品服務;

應用場景上,可覆蓋行業95%以上的業務場景,應用于泛互、社交娛樂、媒體咨詢、自動駕駛、智能金融、智能家居推薦理解、智慧醫療等垂類場景。

2021年火山引擎AI數據服務迎來了第一家客戶——國內某top級別的自動駕駛解決方案商。 客戶要求的項目類型是圖像BEV算法標注(即“鳥瞰圖的標注”,基于圖像/Lidar/多模態數據的3D檢測與分割任務),并要求交付圖片準確率要達到98%以上。 為實現超預期交付,項目經理直接帶著團隊到客戶現場駐場,參與客戶車輛測試路跑數十公里,想盡各種辦法,最大程度貼合客戶真實的業務場景,為客戶量身定制質量管理方案。最終,該項目達到了99.6%的交付準確率。 超客戶預期的高質量交付結果幫助客戶將自動泊車指數提升了304%。也正因如此,首家客戶和火山引擎在AI數據服務上的合作一直持續到了今天。 接下來的兩年中,火山引擎AI數據服務成長迅速。 目前,火山引擎AI數據服務也面向火山方舟提供多項服務。 火山方舟是火山引擎發布的大模型服務平臺,面向企業提供模型精調、評測、推理等全方位的平臺服務(MaaS,即Model-as-a-Service)。目前,“火山方舟”集成了百川智能、出門問問、復旦大學MOSS、IDEA研究院、瀾舟科技、MiniMax、智譜AI(以拼音首字母排序)等多家AI科技公司及科研院所的大模型。 “企業使用大模型,首先要解決安全與信任問題”,火山引擎總裁譚待表示,“火山方舟”實現了大模型安全互信計算,為企業客戶確保數據資產安全。基于“火山方舟”獨特的多模型架構,企業可同步試用多個大模型,選用更適合自身業務需要的模型組合。 火山引擎AI數據服務已經向火山方舟提供包括RLHF多輪對話訓練、SFT階段數據精調標注、RM排序數據精調訓練、問答改寫精調標注、文本大模型綜合標注模板及Prompt工程指令庫等服務。 火山引擎AI數據服務正在探索一條以技術為主引擎的高質量數據道路。

3.技術,高質量數據的“第一生產力”

三年前,整個“數據”行業迎來一次歷史性轉折。 2020年4月,中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》,將數據作為與土地、勞動力、資本、技術并列的生產要素,要求“加快培育數據要素市場”。 一時間,各種聲音開始解讀——這一變化究竟意味著什么? 相關政策指出,數據要素涉及數據生產、采集、存儲、加工、分析、服務等多個環節,是驅動數字經濟發展的“助燃劑”。換言之,數據要真正成為生產要素,意味著數據不能是“一盤散沙”,而需要以“數據”為中心,生長出一條完整的產業鏈。 如今,數字經濟已然行至水深處,不少領域甚至開始走入“無人區”。此時此刻,人工智能,則是讓數字經濟走出無人區,通往開闊地帶的一把鎖;高質量的數據養料,則是打開這把鎖的一把密鑰。 在數據的“智能流水線”背后,是一整套體系的系統性升級。 基礎設施層,基于云服務的AI訓練全棧式服務,可以充分銜接AI基礎數據服務及模型訓練過程;平臺層,工具鏈及AI標注平臺為模型訓練整體提效;工具層,各類AI輔助標注工具提高各環節服務質量,最終實現模型訓練過程中的快速迭代。 火山引擎AI數據中心負責人金亮告訴「甲子光年」,目前AI標注工具正處于半自動化狀態,能夠實現簡單的數據標注。但未來,隨著生成式AI技術的發展,AI對語音、語義、圖像分割等理解能力實現重要突破,AI標注工具則能實現AI全自動化/半自動化高交互的終極狀態。 回看AI數據服務的發展歷程,整個行業都正在經歷從無序到有序,從勞動密集型產業到技術密集型產業的華麗蛻變。如今,率先布局智能化數據生產線的火山引擎AI數據服務,則已經取得先發優勢,技術將逐漸成為高質量數據的“第一生產力”。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據采集
    +關注

    關注

    39

    文章

    6138

    瀏覽量

    113740
  • 智能化
    +關注

    關注

    15

    文章

    4898

    瀏覽量

    55474
  • 人工智能
    +關注

    關注

    1792

    文章

    47373

    瀏覽量

    238875
  • 大模型
    +關注

    關注

    2

    文章

    2477

    瀏覽量

    2834

原文標題:大模型時代,如何搭建數據的“智能化流水線” ?|甲子光年

文章出處:【微信號:jazzyear,微信公眾號:甲子光年】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    工業讀碼器解決方案在自動流水線上掃描條碼的應用

    工業讀碼器解決方案在自動流水線上的應用主要包括以下幾個方面:1、提高生產效率和準確性工業讀碼器嵌入在工業流水線中,無需人工掃描,大大提高了效率,節約了人力成本。讀碼效果穩定,準確率非常高,可以通過
    的頭像 發表于 11-20 16:28 ?217次閱讀
    工業讀碼器解決方案在自動<b class='flag-5'>化</b><b class='flag-5'>流水線</b>上掃描條碼的應用

    SMT流水線布局優化技巧

    在電子制造領域,SMT(表面貼裝技術)流水線的布局優化對于提高生產效率、降低成本和提升產品質量至關重要。一個合理的流水線布局可以減少物料搬運時間,提高設備利用率,減少人為錯誤,并且提高整體的生產
    的頭像 發表于 11-14 09:11 ?380次閱讀

    工業流水線智能助手——智能計數,效率倍增

    在工業流水線中,每一個產品的計數都至關重要。迪卡爾ITMC-DSeries-x02系列物聯網測控終端,您的智能生產伙伴。
    的頭像 發表于 11-06 17:11 ?316次閱讀
    工業<b class='flag-5'>流水線</b>的<b class='flag-5'>智能</b>助手——<b class='flag-5'>智能</b>計數,效率倍增

    行云流水線 滿足你對工作流編排的一切幻想~skr

    流水線模型 眾所周知,DevOps流水線(DevOps pipeline)的本質是實現自動化工作流程,用于支持軟件開發、測試和部署的連續集成、交付和部署(CI/CD)實踐。它是DevOps方法論
    的頭像 發表于 08-05 13:42 ?293次閱讀

    ADS900高速流水線模數轉換器(ADC)數據

    電子發燒友網站提供《ADS900高速流水線模數轉換器(ADC)數據表.pdf》資料免費下載
    發表于 07-30 14:11 ?0次下載
    ADS900高速<b class='flag-5'>流水線</b>模數轉換器(ADC)<b class='flag-5'>數據</b>表

    ADS930高速流水線模數轉換器(ADC)數據

    電子發燒友網站提供《ADS930高速流水線模數轉換器(ADC)數據表.pdf》資料免費下載
    發表于 07-30 14:10 ?0次下載
    ADS930高速<b class='flag-5'>流水線</b>模數轉換器(ADC)<b class='flag-5'>數據</b>表

    ADS901高速流水線模數轉換器數據

    電子發燒友網站提供《ADS901高速流水線模數轉換器數據表.pdf》資料免費下載
    發表于 07-30 11:43 ?1次下載
    ADS901高速<b class='flag-5'>流水線</b>模數轉換器<b class='flag-5'>數據</b>表

    ADS5421流水線式模數轉換器(ADC)數據

    電子發燒友網站提供《ADS5421流水線式模數轉換器(ADC)數據表.pdf》資料免費下載
    發表于 07-30 11:16 ?0次下載
    ADS5421<b class='flag-5'>流水線</b>式模數轉換器(ADC)<b class='flag-5'>數據</b>表

    ADS5413 CMOS流水線模數轉換器(ADC)數據

    電子發燒友網站提供《ADS5413 CMOS流水線模數轉換器(ADC)數據表.pdf》資料免費下載
    發表于 07-29 13:21 ?0次下載
    ADS5413 CMOS<b class='flag-5'>流水線</b>模數轉換器(ADC)<b class='flag-5'>數據</b>表

    ADS5237流水線式模數轉換器(ADC)數據

    電子發燒友網站提供《ADS5237流水線式模數轉換器(ADC)數據表.pdf》資料免費下載
    發表于 07-29 11:46 ?0次下載
    ADS5237<b class='flag-5'>流水線</b>式模數轉換器(ADC)<b class='flag-5'>數據</b>表

    ADS828流水線式CMOS模數轉換器數據

    電子發燒友網站提供《ADS828流水線式CMOS模數轉換器數據表.pdf》資料免費下載
    發表于 07-23 09:17 ?0次下載
    ADS828<b class='flag-5'>流水線</b>式CMOS模數轉換器<b class='flag-5'>數據</b>表

    MT6701磁編碼IC在自動插件流水線中的應用

    本文將從MT6701磁編碼IC的特性、工作原理、在自動插件流水線中的具體應用、以及未來的發展趨 MT6701磁編碼IC作為現代工業自動領域的重要組成部分,其在自動插件
    的頭像 發表于 07-22 17:59 ?1325次閱讀
    MT6701磁編碼IC在自動<b class='flag-5'>化</b>插件<b class='flag-5'>流水線</b>中的應用

    ADS805流水線模數轉換器ADC數據

    電子發燒友網站提供《ADS805流水線模數轉換器ADC數據表.pdf》資料免費下載
    發表于 07-16 11:28 ?0次下載
    ADS805<b class='flag-5'>流水線</b>模數轉換器ADC<b class='flag-5'>數據</b>表

    ADS5422流水線式模數轉換器(ADC)數據

    電子發燒友網站提供《ADS5422流水線式模數轉換器(ADC)數據表.pdf》資料免費下載
    發表于 07-16 11:17 ?0次下載
    ADS5422<b class='flag-5'>流水線</b>式模數轉換器(ADC)<b class='flag-5'>數據</b>表

    具有3態輸出的多級流水線寄存器數據

    電子發燒友網站提供《具有3態輸出的多級流水線寄存器數據表.pdf》資料免費下載
    發表于 05-16 09:39 ?0次下載
    具有3態輸出的多級<b class='flag-5'>流水線</b>寄存器<b class='flag-5'>數據</b>表
    主站蜘蛛池模板: 免费播放一区二区三区| 免费观看a毛片一区二区不卡| mmmxxx69日本| 2345成人高清毛片| 日本一区二区视频| av手机在线播放| 亚洲男同tv| 午夜婷婷网| 女a男0攻巨肉高h| 性做久久久久| xxxx性bbbb| 午夜理伦| 欧美色乱| 国产婷婷色一区二区三区| bt天堂在线www最新版资源网| 美女淫| 色综合天天综合网国产人| 很黄很污的视频网站| 亚洲天堂免费| 三级精品视频在线播放| 久久亚洲精品玖玖玖玖| 大尺度视频在线观看| 天天看天天碰| 99精品视频在线播放2| 拍拍拍无挡视频免费全程1000| 色多多网址| 精品欧美一区二区三区| 91久久夜色精品国产网站| 欧美一级特黄aaaaaa在线看片| 在线h网站| 色网站观看| 免费观看一区二区| 香蕉蕉亚亚洲aav综合| 欧美色图亚洲综合| 操农村妇女| 激情五月网站| 性做久久久久久| 四虎国产在线| 黄色w站| 全免费午夜一级毛片真人| h视频在线播放|