唐家三少,耳根,穿越小说完本

技術將逐漸成為高質量數據的“第一生產力”。

“人工智能會改變世界，那誰會改變人工智能？”著名計算機科學家李飛飛曾多次發問。

回看人工智能60多年的發展歷史，大部分時間里，研究者對這個問題給出的答案恐怕都是“模型”。

直到2012年，在ImageNet大規模視覺識別挑戰（ILSVRC）上，杰弗里·辛頓帶領團隊創造了深度學習的“ImageNet時刻”。“數據”第一次站在人工智能舞臺的聚光燈下。

某種程度上，大模型的智能涌現，是ImageNet在自然語言理解（NLP）領域“復制”成功的結果。

過去半年，在國內外逐漸解開“大模型謎團”的過程中，數據、算法、算力這“三駕馬車”在人工智能中扮演的角色正在被重新分配。技術驅動的高質量數據，正在成為驅動模型能力提升的最關鍵要素。與之相伴的AI數據服務行業也迎來了全新的時代。

1.大模型時代，“數據為王”？

大模型時代，整個數據服務行業都在面臨一次“翻新”。

正如汽油需要從原油中提煉才能供汽車使用一樣，AI產業鏈條中，大多數據為非結構化數據，AI公司通過數據標注獲得結構化數據，以此“喂養”算法進行AI訓練，最終生成的模型數據可用于各種場景，從而激發數據的AI價值。因此，數據標注一直是人工智能深度學習路徑下不可或缺的存在。

“大模型時代，數據為王。”這是部分行業觀察者給出的一則判斷。當前的AI大模型訓練過程中，算法端逐漸向Transformer神經網絡“收斂”，算力端依賴于具備大規模并行計算能力的AI服務器集群，數據端則需要涵蓋巨量數據的大規模數據集持續投喂。

必須承認，大模型的智能涌現是三大要素彼此交織的工程學勝利。但某種程度上，算力決定了模型能力的“下限”，而在實際應用場景中，數據質量決定了模型能力的“上限”。

數據是直接影響AI大模型落地效果的關鍵因素。相比于模型算法和底層算力，高質量數據更為稀缺。

大模型時代，所謂“高質量”數據，也有了更豐富的含義。

Mckinsey Global Institute研究報告表明：深度學習模型對訓練數據的數據量、多樣性和更新速度方面提出較高要求。具體而言，約1/3的算法模型每月至少更新一次，約1/4的算法模型每日至少更新一次。算法模型的持續更新，將進一步拓展各領域訓練數據的需求空間。

大模型的研發和應用鏈路更長。簡單來看，大模型訓練包含“模型方案設計-數據采集-數據清洗-數據標注-數據質檢-模型訓練-模型測試-模型評估”八大環節。

其中，“數據采集-數據清洗-數據標注-數據質檢”四步是AI基礎數據服務的關鍵技術流程；在模型訓練環節，大模型也對預訓練數據、微調數據（SFT/RLHF）需求量更大且對質量要求更高；在模型評估和應用環節，模型評估標準、測試數據集，以及應用階段的Prompt工程成為基礎數據服務企業面臨的新挑戰。

需求端的變化重構了數據服務領域原有的游戲規則，傳統數據標注行業“作坊式”的工作模式和工作效率越來越無法滿足激增的“工業化”數據需求。

基礎數據服務企業一方面要夯實交付能力，提升數據質量和作業效率；同時還要開拓各類算法、AI輔助等技術，以彌補重人力投入帶來的高成本、低效率等問題。

長久來看，基礎數據服務需要一條更完善、更高效的“智能流水線”，來匹配大模型時代的新需求。

2.給數據建一套“智能流水線”

國外一家初創企業已經走在前列。

ChatGPT爆火后，AI數據服務商Scale AI被當作“站在OpenAI背后的公司”而備受關注。

自2016年成立以來，Scale AI在最初四年專注為人工智能/機器學習模型所需要的數據做標注。在之后的時間，Scale AI逐漸向下游擴展，開發自有模型，并逐步進入人工智能產業鏈的更多環節。

2020年，成立5年的Scale AI突破了1億美元的ARR，成為有史以來最快達到這一里程碑的公司之一。

ScaleAI爆發性成長的根源在于，它顛覆了數據標注行業作為“勞動密集產業”的歷史，并以一己之力將行業推向“技術密集型”產業。

商業世界中，時代更替、優勝劣汰的故事屢見不鮮，國內也開始浮現一個聲音——誰是“中國的Scale AI”？

中國基礎數據服務市場大致有互聯網企業、初創企業及傳統數據服務商三類玩家。

其中，傳統數據服務商大多“重人力，輕技術”，多依賴眾包或外包模式起家，延續一直以來的“人海戰術”，能夠滿足部分低端需求，具備部分AI輔助標注能力，但整體欠缺算法能力。

創業公司則“重技術，輕人力”，從智能化標注工具的小賽道切入，較成熟的創業公司建有自己的數據標注基地，逐漸形成全棧式交付能力。

相比之下，互聯網企業雖然不算入局最早的，卻是起點最高的。互聯網企業有充足的資金、人才和技術儲備，能夠強勢整合平臺資源，加注技術研發，是近年來AI數據服務領域發展勢頭最猛的力量。

三大玩家均在不同程度“對標”ScaleAI，向人工智能產業鏈下游延伸，并拉開數據采標的智能化變革。然而，真正擁有一套完整智能化流水線的玩家卻不多。

火山引擎，已經率先展開探索。

據火山引擎AI數據中心負責人金亮介紹，火山引擎AI數據服務已經給數據搭建了一套“智能化流水線”，即智能化標注平臺。該平臺包含兩大能力套件——智能作業套件及智能管理套件。

智能作業套件基于標注領域的模型，建設了機標、預標、輔標的智能作業能力矩陣，以模型能力部分替代和全部替代人工標注作業；輔以模型持續優化流程及智能評估、調度能力，保障整體模型覆蓋度和提效表現。

作業套件沉淀了多種標注模板，包含ASR，NLP，CV等全品類的模板覆蓋。如ASR的短語音標注、長語音標注、圖像的關鍵點、矩形框，點云、2/3D融合標注、連續幀、離散幀等標準模板，能夠保障數據安全、平臺操作便捷且可定制化。項目經理只需要簡單配置一下，便可以執行任何類型的任務。

平臺集成了預標注與邊標邊訓和主動學習式的模型，用各類模型輔助甚至代替部分人工操作。同時根據不同的項目階段，選擇適合的模型能力接入相應的項目階段。

例如，在數據標注初期，火山引擎AI數據服務利用模型過濾大量數據，即進行模型預標，減少人工作業的數據量。模型預標后，只需抽取置信度不高的少量數據，由標注員進行確認或修改即可。既完成交付，也能夠給模型提供反饋，持續提升模型性能。

此外，火山引擎AI數據服務還會利用模型進行糾錯，即標注員提交的結果會過一遍模型，兩者相差過大模型會進行糾錯，避免標注員提交質量顯著偏低的結果。在質檢作業時，模型可以輔助篩選需重點質檢任務或直接完成數據的驗收，最終可實現約20%-40%的效率提升。

智能管理套件則基于NLP和對話模型的交付助理GPT、作業助理GPT等助理能力，通過模型的場景優化和策略引擎，實現管理過程中的智能預警和干預，以及業務知識的個性化查詢，提升整體管理效率，降低培訓成本。

此外，金亮表示，基于智能化標注平臺，火山引擎AI數據服務團隊也摸索了一套“人機結合”的作業模式。“我們把復雜的業務通過技術拆解成最小單元，把每一個小業務變成簡單的業務，做機器標注解決，若干個簡單的任務，最后通過技術進行合并，讓使用者都能低門檻使用火山引擎的標注平臺。”金亮說。

在無數次實戰中，火山引擎AI數據服務已經形成完整的一站式服務能力體系。

AI鏈路上，火山引擎AI數據服務可支持數據采集、清洗、標注、格式處理、數據管理、模型訓練與運維、模型評測等AI基建能力；

算法技術上，其可支持CV、智能語音、NLP等機器學習/深度學習算法，及LLM、SD等類別的大模型訓練數據；

服務類型上，可提供高質量的定制化采標服務、模型優化和迭代、預標模型定制化、智能化數據服務平臺等產品服務；

應用場景上，可覆蓋行業95%以上的業務場景，應用于泛互、社交娛樂、媒體咨詢、自動駕駛、智能金融、智能家居、推薦理解、智慧醫療等垂類場景。

2021年火山引擎AI數據服務迎來了第一家客戶——國內某top級別的自動駕駛解決方案商。客戶要求的項目類型是圖像BEV算法標注（即“鳥瞰圖的標注”，基于圖像/Lidar/多模態數據的3D檢測與分割任務），并要求交付圖片準確率要達到98%以上。為實現超預期交付，項目經理直接帶著團隊到客戶現場駐場，參與客戶車輛測試路跑數十公里，想盡各種辦法，最大程度貼合客戶真實的業務場景，為客戶量身定制質量管理方案。最終，該項目達到了99.6%的交付準確率。超客戶預期的高質量交付結果幫助客戶將自動泊車指數提升了304%。也正因如此，首家客戶和火山引擎在AI數據服務上的合作一直持續到了今天。接下來的兩年中，火山引擎AI數據服務成長迅速。目前，火山引擎AI數據服務也面向火山方舟提供多項服務。火山方舟是火山引擎發布的大模型服務平臺，面向企業提供模型精調、評測、推理等全方位的平臺服務（MaaS，即Model-as-a-Service）。目前，“火山方舟”集成了百川智能、出門問問、復旦大學MOSS、IDEA研究院、瀾舟科技、MiniMax、智譜AI（以拼音首字母排序）等多家AI科技公司及科研院所的大模型。 “企業使用大模型，首先要解決安全與信任問題”，火山引擎總裁譚待表示，“火山方舟”實現了大模型安全互信計算，為企業客戶確保數據資產安全。基于“火山方舟”獨特的多模型架構，企業可同步試用多個大模型，選用更適合自身業務需要的模型組合。火山引擎AI數據服務已經向火山方舟提供包括RLHF多輪對話訓練、SFT階段數據精調標注、RM排序數據精調訓練、問答改寫精調標注、文本大模型綜合標注模板及Prompt工程指令庫等服務。火山引擎AI數據服務正在探索一條以技術為主引擎的高質量數據道路。

3.技術，高質量數據的“第一生產力”

三年前，整個“數據”行業迎來一次歷史性轉折。 2020年4月，中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》，將數據作為與土地、勞動力、資本、技術并列的生產要素，要求“加快培育數據要素市場”。一時間，各種聲音開始解讀——這一變化究竟意味著什么？相關政策指出，數據要素涉及數據生產、采集、存儲、加工、分析、服務等多個環節，是驅動數字經濟發展的“助燃劑”。換言之，數據要真正成為生產要素，意味著數據不能是“一盤散沙”，而需要以“數據”為中心，生長出一條完整的產業鏈。如今，數字經濟已然行至水深處，不少領域甚至開始走入“無人區”。此時此刻，人工智能，則是讓數字經濟走出無人區，通往開闊地帶的一把鎖；高質量的數據養料，則是打開這把鎖的一把密鑰。在數據的“智能流水線”背后，是一整套體系的系統性升級。基礎設施層，基于云服務的AI訓練全棧式服務，可以充分銜接AI基礎數據服務及模型訓練過程；平臺層，工具鏈及AI標注平臺為模型訓練整體提效；工具層，各類AI輔助標注工具提高各環節服務質量，最終實現模型訓練過程中的快速迭代。火山引擎AI數據中心負責人金亮告訴「甲子光年」，目前AI標注工具正處于半自動化狀態，能夠實現簡單的數據標注。但未來，隨著生成式AI技術的發展，AI對語音、語義、圖像分割等理解能力實現重要突破，AI標注工具則能實現AI全自動化/半自動化高交互的終極狀態。回看AI數據服務的發展歷程，整個行業都正在經歷從無序到有序，從勞動密集型產業到技術密集型產業的華麗蛻變。如今，率先布局智能化數據生產線的火山引擎AI數據服務，則已經取得先發優勢，技術將逐漸成為高質量數據的“第一生產力”。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴