技術將逐漸成為高質量數據的“第一生產力”。
“人工智能會改變世界,那誰會改變人工智能?”著名計算機科學家李飛飛曾多次發問。
回看人工智能60多年的發展歷史,大部分時間里,研究者對這個問題給出的答案恐怕都是“模型”。
直到2012年,在ImageNet大規模視覺識別挑戰(ILSVRC)上,杰弗里·辛頓帶領團隊創造了深度學習的“ImageNet時刻”。“數據”第一次站在人工智能舞臺的聚光燈下。
某種程度上,大模型的智能涌現,是ImageNet在自然語言理解(NLP)領域“復制”成功的結果。
過去半年,在國內外逐漸解開“大模型謎團”的過程中,數據、算法、算力這“三駕馬車”在人工智能中扮演的角色正在被重新分配。技術驅動的高質量數據,正在成為驅動模型能力提升的最關鍵要素。與之相伴的AI數據服務行業也迎來了全新的時代。
1.大模型時代,“數據為王”?
大模型時代,整個數據服務行業都在面臨一次“翻新”。
正如汽油需要從原油中提煉才能供汽車使用一樣,AI產業鏈條中,大多數據為非結構化數據,AI公司通過數據標注獲得結構化數據,以此“喂養”算法進行AI訓練,最終生成的模型數據可用于各種場景,從而激發數據的AI價值。因此,數據標注一直是人工智能深度學習路徑下不可或缺的存在。
“大模型時代,數據為王。”這是部分行業觀察者給出的一則判斷。當前的AI大模型訓練過程中,算法端逐漸向Transformer神經網絡“收斂”,算力端依賴于具備大規模并行計算能力的AI服務器集群,數據端則需要涵蓋巨量數據的大規模數據集持續投喂。
必須承認,大模型的智能涌現是三大要素彼此交織的工程學勝利。但某種程度上,算力決定了模型能力的“下限”,而在實際應用場景中,數據質量決定了模型能力的“上限”。
數據是直接影響AI大模型落地效果的關鍵因素。相比于模型算法和底層算力,高質量數據更為稀缺。
大模型時代,所謂“高質量”數據,也有了更豐富的含義。
Mckinsey Global Institute研究報告表明:深度學習模型對訓練數據的數據量、多樣性和更新速度方面提出較高要求。具體而言,約1/3的算法模型每月至少更新一次,約1/4的算法模型每日至少更新一次。算法模型的持續更新,將進一步拓展各領域訓練數據的需求空間。
大模型的研發和應用鏈路更長。簡單來看,大模型訓練包含“模型方案設計-數據采集-數據清洗-數據標注-數據質檢-模型訓練-模型測試-模型評估”八大環節。
其中,“數據采集-數據清洗-數據標注-數據質檢”四步是AI基礎數據服務的關鍵技術流程;在模型訓練環節,大模型也對預訓練數據、微調數據(SFT/RLHF)需求量更大且對質量要求更高;在模型評估和應用環節,模型評估標準、測試數據集,以及應用階段的Prompt工程成為基礎數據服務企業面臨的新挑戰。
需求端的變化重構了數據服務領域原有的游戲規則,傳統數據標注行業“作坊式”的工作模式和工作效率越來越無法滿足激增的“工業化”數據需求。
基礎數據服務企業一方面要夯實交付能力,提升數據質量和作業效率;同時還要開拓各類算法、AI輔助等技術,以彌補重人力投入帶來的高成本、低效率等問題。
長久來看,基礎數據服務需要一條更完善、更高效的“智能流水線”,來匹配大模型時代的新需求。
2.給數據建一套“智能流水線”
國外一家初創企業已經走在前列。
ChatGPT爆火后,AI數據服務商Scale AI被當作“站在OpenAI背后的公司”而備受關注。
自2016年成立以來,Scale AI在最初四年專注為人工智能/機器學習模型所需要的數據做標注。在之后的時間,Scale AI逐漸向下游擴展,開發自有模型,并逐步進入人工智能產業鏈的更多環節。
2020年,成立5年的Scale AI突破了1億美元的ARR,成為有史以來最快達到這一里程碑的公司之一。
ScaleAI爆發性成長的根源在于,它顛覆了數據標注行業作為“勞動密集產業”的歷史,并以一己之力將行業推向“技術密集型”產業。
商業世界中,時代更替、優勝劣汰的故事屢見不鮮,國內也開始浮現一個聲音——誰是“中國的Scale AI”?
中國基礎數據服務市場大致有互聯網企業、初創企業及傳統數據服務商三類玩家。
其中,傳統數據服務商大多“重人力,輕技術”,多依賴眾包或外包模式起家,延續一直以來的“人海戰術”,能夠滿足部分低端需求,具備部分AI輔助標注能力,但整體欠缺算法能力。
創業公司則“重技術,輕人力”,從智能化標注工具的小賽道切入,較成熟的創業公司建有自己的數據標注基地,逐漸形成全棧式交付能力。
相比之下,互聯網企業雖然不算入局最早的,卻是起點最高的。互聯網企業有充足的資金、人才和技術儲備,能夠強勢整合平臺資源,加注技術研發,是近年來AI數據服務領域發展勢頭最猛的力量。
三大玩家均在不同程度“對標”ScaleAI,向人工智能產業鏈下游延伸,并拉開數據采標的智能化變革。然而,真正擁有一套完整智能化流水線的玩家卻不多。
火山引擎,已經率先展開探索。
據火山引擎AI數據中心負責人金亮介紹,火山引擎AI數據服務已經給數據搭建了一套“智能化流水線”,即智能化標注平臺。該平臺包含兩大能力套件——智能作業套件及智能管理套件。
智能作業套件基于標注領域的模型,建設了機標、預標、輔標的智能作業能力矩陣,以模型能力部分替代和全部替代人工標注作業;輔以模型持續優化流程及智能評估、調度能力,保障整體模型覆蓋度和提效表現。
作業套件沉淀了多種標注模板,包含ASR,NLP,CV等全品類的模板覆蓋。如ASR的短語音標注、長語音標注、圖像的關鍵點、矩形框,點云、2/3D融合標注、連續幀、離散幀等標準模板,能夠保障數據安全、平臺操作便捷且可定制化。項目經理只需要簡單配置一下,便可以執行任何類型的任務。
平臺集成了預標注與邊標邊訓和主動學習式的模型,用各類模型輔助甚至代替部分人工操作。同時根據不同的項目階段,選擇適合的模型能力接入相應的項目階段。
例如,在數據標注初期,火山引擎AI數據服務利用模型過濾大量數據,即進行模型預標,減少人工作業的數據量。模型預標后,只需抽取置信度不高的少量數據,由標注員進行確認或修改即可。既完成交付,也能夠給模型提供反饋,持續提升模型性能。
此外,火山引擎AI數據服務還會利用模型進行糾錯,即標注員提交的結果會過一遍模型,兩者相差過大模型會進行糾錯,避免標注員提交質量顯著偏低的結果。在質檢作業時,模型可以輔助篩選需重點質檢任務或直接完成數據的驗收,最終可實現約20%-40%的效率提升。
智能管理套件則基于NLP和對話模型的交付助理GPT、作業助理GPT等助理能力,通過模型的場景優化和策略引擎,實現管理過程中的智能預警和干預,以及業務知識的個性化查詢,提升整體管理效率,降低培訓成本。
此外,金亮表示,基于智能化標注平臺,火山引擎AI數據服務團隊也摸索了一套“人機結合”的作業模式。“我們把復雜的業務通過技術拆解成最小單元,把每一個小業務變成簡單的業務,做機器標注解決,若干個簡單的任務,最后通過技術進行合并,讓使用者都能低門檻使用火山引擎的標注平臺。”金亮說。
在無數次實戰中,火山引擎AI數據服務已經形成完整的一站式服務能力體系。
AI鏈路上,火山引擎AI數據服務可支持數據采集、清洗、標注、格式處理、數據管理、模型訓練與運維、模型評測等AI基建能力;
算法技術上,其可支持CV、智能語音、NLP等機器學習/深度學習算法,及LLM、SD等類別的大模型訓練數據;
服務類型上,可提供高質量的定制化采標服務、模型優化和迭代、預標模型定制化、智能化數據服務平臺等產品服務;
應用場景上,可覆蓋行業95%以上的業務場景,應用于泛互、社交娛樂、媒體咨詢、自動駕駛、智能金融、智能家居、推薦理解、智慧醫療等垂類場景。
2021年火山引擎AI數據服務迎來了第一家客戶——國內某top級別的自動駕駛解決方案商。 客戶要求的項目類型是圖像BEV算法標注(即“鳥瞰圖的標注”,基于圖像/Lidar/多模態數據的3D檢測與分割任務),并要求交付圖片準確率要達到98%以上。 為實現超預期交付,項目經理直接帶著團隊到客戶現場駐場,參與客戶車輛測試路跑數十公里,想盡各種辦法,最大程度貼合客戶真實的業務場景,為客戶量身定制質量管理方案。最終,該項目達到了99.6%的交付準確率。 超客戶預期的高質量交付結果幫助客戶將自動泊車指數提升了304%。也正因如此,首家客戶和火山引擎在AI數據服務上的合作一直持續到了今天。 接下來的兩年中,火山引擎AI數據服務成長迅速。 目前,火山引擎AI數據服務也面向火山方舟提供多項服務。 火山方舟是火山引擎發布的大模型服務平臺,面向企業提供模型精調、評測、推理等全方位的平臺服務(MaaS,即Model-as-a-Service)。目前,“火山方舟”集成了百川智能、出門問問、復旦大學MOSS、IDEA研究院、瀾舟科技、MiniMax、智譜AI(以拼音首字母排序)等多家AI科技公司及科研院所的大模型。 “企業使用大模型,首先要解決安全與信任問題”,火山引擎總裁譚待表示,“火山方舟”實現了大模型安全互信計算,為企業客戶確保數據資產安全。基于“火山方舟”獨特的多模型架構,企業可同步試用多個大模型,選用更適合自身業務需要的模型組合。 火山引擎AI數據服務已經向火山方舟提供包括RLHF多輪對話訓練、SFT階段數據精調標注、RM排序數據精調訓練、問答改寫精調標注、文本大模型綜合標注模板及Prompt工程指令庫等服務。 火山引擎AI數據服務正在探索一條以技術為主引擎的高質量數據道路。
3.技術,高質量數據的“第一生產力”
三年前,整個“數據”行業迎來一次歷史性轉折。 2020年4月,中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》,將數據作為與土地、勞動力、資本、技術并列的生產要素,要求“加快培育數據要素市場”。 一時間,各種聲音開始解讀——這一變化究竟意味著什么? 相關政策指出,數據要素涉及數據生產、采集、存儲、加工、分析、服務等多個環節,是驅動數字經濟發展的“助燃劑”。換言之,數據要真正成為生產要素,意味著數據不能是“一盤散沙”,而需要以“數據”為中心,生長出一條完整的產業鏈。 如今,數字經濟已然行至水深處,不少領域甚至開始走入“無人區”。此時此刻,人工智能,則是讓數字經濟走出無人區,通往開闊地帶的一把鎖;高質量的數據養料,則是打開這把鎖的一把密鑰。 在數據的“智能流水線”背后,是一整套體系的系統性升級。 基礎設施層,基于云服務的AI訓練全棧式服務,可以充分銜接AI基礎數據服務及模型訓練過程;平臺層,工具鏈及AI標注平臺為模型訓練整體提效;工具層,各類AI輔助標注工具提高各環節服務質量,最終實現模型訓練過程中的快速迭代。 火山引擎AI數據中心負責人金亮告訴「甲子光年」,目前AI標注工具正處于半自動化狀態,能夠實現簡單的數據標注。但未來,隨著生成式AI技術的發展,AI對語音、語義、圖像分割等理解能力實現重要突破,AI標注工具則能實現AI全自動化/半自動化高交互的終極狀態。 回看AI數據服務的發展歷程,整個行業都正在經歷從無序到有序,從勞動密集型產業到技術密集型產業的華麗蛻變。如今,率先布局智能化數據生產線的火山引擎AI數據服務,則已經取得先發優勢,技術將逐漸成為高質量數據的“第一生產力”。
-
數據采集
+關注
關注
39文章
6138瀏覽量
113740 -
智能化
+關注
關注
15文章
4898瀏覽量
55474 -
人工智能
+關注
關注
1792文章
47373瀏覽量
238875 -
大模型
+關注
關注
2文章
2477瀏覽量
2834
原文標題:大模型時代,如何搭建數據的“智能化流水線” ?|甲子光年
文章出處:【微信號:jazzyear,微信公眾號:甲子光年】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論