AIGC(人工智能內容自動生成技術)代表著AI技術從感知、理解世界到生成、創造世界的躍遷,正推動人工智能迎來下一個時代。經過了2022年的預熱,2023年AIGC領域將迎來更大發展。AIGC生成內容的類型不斷豐富、質量不斷提升,也將有更多的企業積極擁抱AIGC。在這個背景下,騰訊研究院正式發布《AIGC發展趨勢報告2023:迎接人工智能的下一個時代》。報告從技術發展和產業生態、應用趨勢、治理挑戰等維度,對AIGC的發展趨勢進行了深入思考。報告指出,AIGC將作為生產力工具,不斷推動聊天機器人、數字人、元宇宙等領域發展。AIGC技術讓聊天機器人接近人類水平日益成為現實,AIGC也在大大提升數字人的制作效能,并且使其更神似人。在元宇宙領域,AIGC在構建沉浸式空間環境、提供個性化內容體驗、打造智能用戶交互等方面發揮重要作用。
AIGC發展趨勢報告(2023)簡介
2022年是 AIGC(AI-Generated Content,人工智能生成內容)爆火出圈的一年,不僅被消費者追捧,而且備受投資界關注,更是被技術和產業界競相追逐。
2022年9月23日,紅杉中國發表文章《生成式AI:一個創造性的新世界》,認為AIGC會代表新一輪范式轉移的開始。2022年10月,Stability AI 獲得約1個億美元融資,估值高達10億美元,躋身獨角獸行列。Stability AI發布的開源模式 Stability Diffusion ,可以根據用戶輸入的文字描述(稱為提示詞,prompts)自動生成圖像,即文生圖(Text-to-Image,T2I)。Stability Diffusion、DALL-E 2、Midjourney 等可以生成圖片的 AIGC 模型引爆了 AI 作畫領域,AI 作畫風行一時,標志人工智能向藝術領域滲透。
2022年12月,Open AI 的大型語言生成模型 ChatGPT 刷爆網絡,它能勝任刷高情商對話、生成代碼、構思劇本和小說等多個場景,將人機對話推向新的高度,讓網友不禁懷疑 ChatGPT 是否已經具備人類智能。全球各大科技企業都在積極擁抱 AIGC,不斷推出相關技術、平臺和應用。
01 AIGC技術和產業生態迎來發展快車道
1、生成算法、預訓練模式、多模態等AI技術累計融合,催生了AIGC的大爆發
一是基礎的生成算法模型不斷突破創新;二是預訓練模型引發了AIGC技術能力的質變;三是多模態技術推動了AIGC的內容多邊形,讓AIGC具有了更通用的能力。
總的來看,AIGC在2022年的爆發,主要是得益于深度學習模型方面的技術創新。不斷創新的生成算法、預訓練模型、多模態等技術融合帶來了AIGC技術變革,擁有通用性、基礎性、多模態、參數多、預練數據量大、生成內容高質穩定等特征的AIGC模型成為了自動化內容生產的“工廠”和“流水線”。
2、AIGC產業生態加速形成和發展,走向模型及服務(MaaS)的未來
目前,AIGC產業生態體系的雛形已現,呈現為上中下三層架構:
第一層為上游基礎層,也就是由預訓練模型為基礎搭建的AIGC技術基礎設施層。由于預訓練模型的高成本和技術投入,因此具有較高的進入門檻。
第二層為中間層,即垂直化、場景化、個性化的模型和應用工具。預訓練的大模型是基礎設施,在此基礎上可以快速抽取生成場景化、定制化、個性化的小模型,實現在不同行業、垂直領域、功能場景的工業流水線式部署,同時兼具按需使用、高效經濟的優勢。
第三層為應用層,即面向C端用戶的文字、圖片、音視頻等內容生成服務。在應用側,側重滿足用戶的需求,將AIGC模型和用戶的需求無縫銜接起來實現產業落地。
隨著數字技術與實體經濟融合程度不斷加深,以及互聯網平臺的數字化場景向元宇宙轉型,人類對數字內容總量和豐富程度的整體需求不斷提高。AIGC作為當前新型的內容生產方式,已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,市場潛力逐漸顯現。與此同時,在推進數實融合、加快產業升級的進程中,金融、醫療、工業等各行各業的AIGC應用也都在快速發展。
02 消費端:AIGC牽引數字內容領域全新變革
1、AIGC有望塑造數字內容生產與交互新范式,成為互聯網的內容生產基礎設施
數字內容邁入強需求、視頻化、拼創意的螺旋式升級周期,AIGC在這階段的發展迎合了這一需要。AIGC正在成為越來越多地參與數字內容的創意性生成工作,以人機協同的方式釋放價值,成為未來互聯網的內容生產基礎設施。
2、AIGC的應用生態和內容消費市場逐漸繁榮
而今在內容消費領域,AIGC已經重構了整個應用生態。作為當前新型的內容生產方式,AIGC已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,市場潛力逐漸顯現。2022年,AIGC發展速度驚人,迭代速度呈現指數級爆發,谷歌、Meta、百度等平臺型巨頭持續布局,也有Stability AI、Jasper AI等獨角獸創業公司問世。根據6pen預測,未來五年10%-30%的圖片內容由AI參與生成,有望創造超過600億以上市場空間,若考慮到下一代互聯網對內容需求的迅速提升,國外商業咨詢機構Acumen Research and Consulting預測,2030年AIGC市場規模將達到1100億美元。
3、AIGC將日益成為未來3D互聯網的基礎支撐
互聯網向下一代技術升級和演進的重要方向是從“在線”走向“在場”,邁向3D互聯網時代,AIGC將成為打造虛實集成世界的基石。AIGC為3D互聯網帶來的價值,既包括3D模型、場景、角色制作能效的提升,也能像AI作畫那樣,為創作者激發新的靈感。
4、聊天機器人和數字人成為新的、更包容性的用戶交互界面,不斷拓展應用領域
(1)聊天機器人:2022年12月1日,美國人工智能研究公司Open AI研發的聊天機器人產品ChatGPT正式對外開放,一經推出便火遍全網,截止12月12日已擁有超過100萬名用戶,而ChatGPT正是典型的文本生成式AIGC。
(2)數字人:首先AIGC大大提升了數字人的制作效能。用戶可以上傳圖片/視頻,通過AIGC生成寫實類型的數字人,具有生成過程較短、成本低、可定制等特點。其次,AIGC支撐了AI驅動數字人多模態交互中的識別感知和分析決策功能,使其更神似人。
5、AIGC將作為生產力工具來推動元宇宙發展
近期,Linkedln做了一個調查,向Linkedln用戶征集他們最希望了解哪個元宇宙相關的技術主題,76%的受訪者選擇了AIGC。只有通過AIGC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。首先,AIGC為構建沉浸式的元宇宙空間環境提供了核心基礎設施技術,將成為元宇宙的生產力工具。其次,AIGC將作為生產力工具為元宇宙用戶提供個性化內容體驗。同時,AIGC將賦予用戶更多的創作權力和自由,促進創新并提升元宇宙的用戶體驗。最后,AIGC也將作為用戶交互界面的一部分在元宇宙中發揮作用。
03 產業端:合成數據牽引人工智能的未來
1、合成數據為AI模型訓練開發提供強大助推器,推動實現AI2.0
人工智能的發展應用離不開數據,但真實世界數據面臨著難以獲取、質量差、標準不統一等諸多問題。為此,計算機模型技術或算法生成的合成數據,作為真實數據的廉價替代品,日益被用于創造精準的AI模型。
2、合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間
合成數據背后的生成式AI被Gartner評為2022年銀行和投資服務領域越來越受歡迎的三項技術之一。原因是能夠通過合成數據以成本更低、易規模化、隱私保護合規的方式提供接近真實世界的數據。
3、合成數據產業加快成為數據要素市場新賽道,科技大廠和創新企業搶先布局
合成數據對人工智能未來發展的巨大價值使其加速成為AI領域的一個新產業賽道。一方面,國外的主流科技公司紛紛瞄準合成數據領域加大投入與布局。
另一方面,合成數據作為AI領域的新型產業,相關創新創業方興未艾,合成數據創業公司不斷涌現,合成數據領域的投資并購持續升溫,開始涌現了合成數據即服務(synthetic data as serve,SDaaS )這一發展前景十分廣闊的全新商業模式。
4、合成數據加速構建AI賦能、數實融合的大型虛擬世界
展望未來,可以從三個方面來理解大型虛擬世界為什么成為AI數實融合的關鍵場景。
第一,大型虛擬世界可以提供人工智能開發所需的數據和場景,為AI應用開發提供“加速度”。第二,大型虛擬世界為各行各業訓練開發AI提供了試驗田。第三,在大型虛擬世界中通過AI連通虛擬與現實,實現AI數實融合。
ChatGPT商業化意義
(報告出品方:中信證券)
1. ChatGPT通過大模型突破AI瓶頸,GPT-4多模態應用帶動商業化加速
概述:ChatGPT為NLP下的AI大模型,性能和使用體驗超預期
ChatGPT是自然語言處理(NLP)下的AI大模型,通過大算力、大規模訓練數據突破AI瓶頸。2022年11月,OpenAI推 出ChatGPT,ChatGPT基于GPT-3.5,使用人類反饋強化學習技術,將人類偏好作為獎勵信號并微調模型,實現有邏輯 的對話能力。
ChatGPT本質上是通過超大的統計語言模型,對詞語序列的概率分布進行建模,利用上下文信息預測后續詞語出現的概 率分布,其表現的超預期反映了在算力水平提升的情況下大語言模型技術路線的成功,通過對大規模的未標注的文本數據 進行訓練,突破了AI發展的技術瓶頸。根據《瞭望》新聞周刊報道,OpenAI為了讓ChatGPT的語言合成結果更自然流 暢,使用了45TB的數據、近1萬億個單詞來訓練模型,訓練一次的成本高達千萬美元,一個月的運營成本需要數百萬美元。
概述:OpenAI傾力打造ChatGPT,獲得微軟有力加持
ChatGPT出自美國AI創業公司OpenAI,是AI大模型領域的領軍者。OpenAI在2015年由Sam Altman、Peter Thiel、Reid Hoffman、Elon Musk等人創辦。公司成立之初,即確定了包括制造“通用”機器人和使用自然語言的聊天機器人的發展 目標。2019年,OpenAI獲得來自微軟的10億美元投資,為Azure云端平臺服務開發AI技術。2018年起,OpenAI開始發布 GPT(Generative Pre-trained Transformer)模型,2020年發布GPT-3,可以完成答題、寫論文、代碼生成等任務,被視 為人工智能競賽的里程碑事件,并直至ChatGPT的推出引起AI的熱潮。
除了NLP領域,OpenAI還在多模態領域取得成就,包括發布了AI圖像生成器DALL-E2,對音頻轉錄編輯器Descript、AI筆 記應用Mem等進行投資。
演變:GPT-1—無監督預訓練+有監督微調
GPT-1發布于2018年6月,參數量達1.17億,預訓練數據量約5GB。GPT-1包含預訓練和微調兩個階段,考慮到自然語言 處理任務中有標簽的語料少,GPT-1先在大量的無標簽數據上訓練語言模型,然后在下游具體任務(如分類、常識推理、 自然語言推理等)的有標簽數據集上進行微調。1)在無監督訓練中,GPT-1采用Transformer的架構,即標準的語言模型 的目標函數,通過前面的詞預測后面的詞;2)在有監督訓練中,采用標準的分類目標函數,僅需對第一階段預訓練的語 言模型做出很小的結構改變,即可應用于各種下游任務。
GPT-1使用了BooksCorpus數據集來訓練語言模型,其中有7000余本未出版的書籍。具體表現上,在有監督學習的12項 任務中,GPT-1在其中9項上的表現優于專門訓練的受監督模型。
演變:GPT-2—無監督預訓練+多任務學習
GPT-2發布于2019年2月,參數量達15億,預訓練數據量約40GB。GPT-1使用的概率條件模型為p(output|input),GPT-2 使用相同的無監督模型學習多個任務,將概率條件模型修改為p(output|input, task) ,期望模型對不同任務的相同輸入產 生不同的輸出。此外,GPT-2采取Zero-shot設定,不需要下游任務的標注信息,而是根據給定的指令理解任務。因此 GPT-2的核心思想在于多任務學習。
GPT-2訓練的數據集來自社交新聞平臺Reddit,共有約800萬篇文章,體積超40GB。具體表現上,在8個語言模型任務 中,僅通過Zero-Shot學習,GPT-2在其中7個上領先。GPT-2表明,隨著模型容量和數據量增大,GPT模型的潛力仍有望 進一步顯現。
展望:GPT-4—此前外界預期參數量變化不大、使用門檻有望降低
GPT-4備受業界期待,訓練成本控制有望帶動商業潛力的極大增強。ChatGPT的突出表現使得外界對GPT-4十分期待, 自2021年以來便有報道稱GPT-4“即將推出” ,OpenAI公司CEO Sam Altman今年受StrictlyVC采訪時表示GPT-4將在 “有信心可以安全且負責任地運行時”推出。外界此前也曾預期,GPT-4的推出或分階段進行,例如GPT-3也是先開放給 合作伙伴、付費用戶和學術機構,才在2022年底開放給公眾。
在參數量上,針對有傳言稱GPT-4參數量將達到百萬億,OpenAI公司CEO Sam Altman予以否定。此外,AI專家Alberto Romero預測,GPT-4的重點在數據處理優化上,因此其使用門檻有望降低,我們預計訓練成本的控制將帶動其商業潛力 的增強。
展望:GPT-4—最新消息稱推出在即、支持多模態
最新消息稱GPT-4將于下周推出,支持多模態應用,開啟通往人工通用智能之路。根據德國科技媒體“heise在線”報 道,當地時間3月9日,微軟德國公司首席技術官Andreas Braun在名為“AI in Focus - Digital Kickoff”的活動中透露稱 “將在下周推出GPT-4,它將是一個多模態模型,會提供完全不同的可能性——例如視頻”。這意味著GPT-4可以管理不 同語言數據的輸入和輸出,也能夠做到輸出圖像甚至視頻。在活動上,微軟AI技術專家對多模態AI的應用案例進行了介 紹,例如能夠將電話呼叫的語音直接記錄成文本,這為微軟位于荷蘭的一家大型客戶節省500個工作小時/天。
GPT-4對多模態的支持使得外界對模型潛力的預期進一步強化,原因在于多模態感知是建立人工通用智能(AGI)的重要 一步,基于此能夠執行人類水平的一般任務。
ChatGPT迅速走紅,以訂閱制服務B端、C端客戶,成本控制下將有效加速商業化落地。ChatGPT自年初以來,持續出 圈,截至2023年1月末月活突破1億,成為史上增長最快的消費者應用。考慮到計算資源所牽涉的龐大訓練成本、運行成 本,ChatGPT的商業化路徑已正在探索、明確中。
商業模式—1)C端:OpenAI發布ChatGPT Plus訂閱計劃,每月收費20美元,相較于免費版本,即便在高峰時段用戶也 能正常訪問ChatGPT,響應時間更快,可以優先使用新功能,有望引領AI技術變現新模式;2)B端:OpenAI發布 ChatGPT API,開發者可以將ChatGPT集成到產品中,價格為$0.002/1k token,相較于GPT-3.5降低90%,我們預計成 本控制后有望快速帶動GPT相關應用爆發。根據微信公眾號“智東西” ,生鮮電商Instacart、跨境電商Shopify、照片分 享應用Snap、單詞背誦應用Quizlet等已率先接入ChatGPT API。
2.Transformer架構支撐GPT走向多模態,構筑AIGC領域核心基石
GPT采用的Transformer架構在NLP領域已躋身主流
GPT沿用主流Transformer模型,該模型采用自注意力機制,在NLP上表現優于RNN(循環神經網絡)。2017年,谷歌 在《Attention is All You Need》中提出Transformer模型,可用于文本摘要、機器翻譯等NLP任務。在NLP方面, Transformer模型的自注意力(self-attention)機制可以為輸入序列中的任意位置提供上下文,進而模型能夠一次性處理 所有輸入數據,而非RNN一次只處理一個單詞的情況,由此模型可以減少訓練時間,能夠在更大的數據集上進行訓練。目前,基于Transformer的預訓練語言模型已成為NLP領域的主流。
Transformer也可用于CV領域,相較于CNN實現性能巨大提升
Transformer也可用于CV(計算機視覺)領域,表現出巨大的性能提升。CV領域此前更多由CNN(卷積神經網絡)主 導,而Transformer憑借著自注意力機制,表現出了巨大的性能提升。根據微軟亞洲研究院,Transformer在圖像分類、物 體檢測等任務中刷新了測評記錄,例如2020年Transformer被首次應用于圖像分類任務,結合海量的預訓練數據,ViT在 ImageNet-1K的validation評測集上取得88.55%的準確率。Transformer也在視頻動作識別、視覺自監督學習、圖像復原、 圖像分割等視覺任務中取得優異成績。谷歌提出的ViT-MoE模型目前在參數量上領先,達到了150億。
Transformer支撐下GPT有望走向多模態,構筑AIGC領域核心基石
GPT有望基于Transformer延伸至多模態,構筑AIGC核心基石,GPT-4或實現領跑。當前,基于Transformer的多模態學 習成為AI領域的研究熱點,研究者們提出了大量的Transformer變體。鑒于Transformer具有較少的特定于模態的架構假 設,以及生成式預訓練、大模型&大數據路線的成功,Transformer能夠聯動CV與NLP,通過聯合建模完成,打破CV與 NLP領域之間的壁壘。微軟亞洲研究院2022年推出BEiT-3預訓練模型,在目標檢測、實例分割、語義分割、視覺推理、 圖片描述生成等任務上取得了SOTA的遷移性能。我們認為,基于Transformer架構,GPT未來有望延伸至多模態,助力 內容創作由UGC、PGC全面走向AIGC,賦能通用領域以及金融、教育、醫療、傳媒等垂直行業。
3.通用與垂直場景多點開花,GPT變革內容生成與交互方式
通用場景:搜索引擎—GPT+文本&圖像&視頻重塑搜索結果呈現方式
搜索引擎接入GPT后結果呈現方式大為變化,或影響行業盈利模式與競爭格局。用戶使用傳統的搜索引擎時,需要手動 翻閱搜索結果,判斷是否為所需要的信息;而當搜索引擎接入GPT后,用戶可直接獲得答案集合。盡管受制于訓練語料、 成本等因素,答案準確性有待商榷,但在結果呈現方式上實現了變革,未來或與傳統的搜索引擎相結合。如進一步實現多 模態,搜索結果將更加豐富。微軟在Bing中上線ChatGPT能力并開啟測試,以聊天方式展示搜索結果,并可在對話中推 薦廣告。微軟必應官方博客宣布,目前Bing日活突破1億,集成搜索+聊天功能的Bing預覽版自推出以來總聊天次數已超 過4500萬次。鑒于微軟可能掀起搜索行業的第二次變革并顛覆此前的盈利模式,谷歌在2月初展示由大型語言模型LaMDA 驅動的類ChatGPT應用——Bard,并計劃大范圍推廣。
通用場景:辦公軟件—GPT+文本&圖像打造效率型生產力工具
GPT有望融入辦公流程,率先推動辦公軟件轉型為智能辦公平臺。微軟將于3月16日召開名為“Future of Work with AI” 的發布會,預計將展示ChatGPT類技術在Teams、Word、Outlook等生產力套件中的應用。我們認為,在GPT的賦能之 下,辦公軟件作為效率型生產力工具的屬性將更加突出,功能上將更加智能化,用戶有望享受到智能辦公平臺所帶來的便 利性與效率大幅提升。例如,在Word中,GPT將能夠幫助用戶生成文本,或將文檔集匯總為關鍵點,使得用戶快速理解 和分析信息;在Outlook中,GPT可以處理收件箱文本,幫助用戶更快捷地撰寫或回復電子郵件;在Excel中,能夠根據提 示提取數據,如要求“按照利潤列出世界前五大公司”后,生成Excel公式或制作可視化圖表。
垂直場景:教育—GPT+文本&對話&翻譯催化啟發式、個性化教學
GPT有望催化“啟發式”教學模式,加快教育領域的個性化、多樣化變革探索。ChatGPT可以理解為一名“全能教 師” ,即便是小眾、冷門的領域,也能夠給出相對有邏輯的回答。我們認為,GPT技術將催化“啟發式”教學模式,引導 學生更加積極主動地進行思考、發問,并與“全能教師”進行對話探討,這有別于傳統的應試教學模式。
垂直場景:金融—GPT+文本&對話賦能客戶服務、投研支持
GPT有望對金融行業的經營、管理、產品營銷及客戶服務等方面產生巨大影響。近年來,金融機構在合規趨嚴、人力成 本上升等因素的影響下,對于數字化建設的意愿強烈。考慮到ChatGPT在內容生成等方面的突出表現,我們認為,GPT 有望率先落地對外的客戶服務與對內的投研支持。以銀行業為例,電子客服仍處于AB判斷階段,引入GPT將更好地服務 于客戶需求;在證券、基金業,個人投資者存在的大量疑惑將可通過GPT解決,機構投資者在投研中也將獲得來自GPT 的協作。GPT有望重構金融行業客戶服務端,也有望進一步增強機構內部的投研能力,助力經營效率提升與成本優化。
垂直場景:醫療—醫療信息化廠商卡位核心系統,助力構建GPT能力
醫療信息化公司作為醫療機構信息化底座提供者,有望助力構建GPT能力。根據復旦大學附屬華山醫院信息中心主任黃 虹在接受第一財經采訪時透露的情況,醫院內部落地GPT的場景包括:就醫導診,以提升醫療效率;構建內部知識庫,以 提升臨床研究效率;匯集歷史病歷,輔助醫生提升電子病歷書寫效率。考慮到醫院本身在信息化能力上的相對薄弱,我們 認為以創業慧康、衛寧健康、醫渡等為代表的醫療信息化公司作為醫院內部系統的供應商,有望幫助醫院構建GPT能力。
互聯網醫療平臺卡位線上問診,GPT有望助力問診效率大幅提升。2020年疫情爆發以來,互聯網醫院憑借著突破時空限 制、免接觸等優勢,迎來快速發展。平安好醫生、阿里健康、京東健康等平臺搭建了輕問診模式,主要通過自有醫生、外 部簽約醫生提供問診服務。我們認為,GPT可以用于在線問診支持,為用戶提供基本的、常規化的問診服務。這將助力互 聯網醫療平臺實現問診效率的大幅提升,問診服務的供給能力將不再受制于鏈接的醫生數量。
垂直場景:圖像視頻—GPT+圖像&視頻強化內容智能化生產與處理
GPT有望改變圖像視頻領域內容生產模式,多模態提高信息輸出豐富度。圖像視頻行業新老業態交織,構成相對多元, 以生產和傳播文字、圖像、藝術、影像、聲音等形式存在,包括報紙、圖書、廣播、電影、電視、動漫等諸多細分領域。從產業鏈條來看,圖像視頻行業主要涉及信息采集、制作、分發、傳播等,我們認為GPT將主要影響產業鏈前端的采集、 制作。結合中國信通院《AIGC白皮書》,我們預計在GPT賦能之下,特別是對多模態的延伸,圖像視頻行業有望進一步 提高寫稿機器人、采訪助手、視頻智能剪輯、合成主播等新興應用的供給能力,既改變內容生產模式,也滿足信息接收者 對豐富內容的需求。
ChatGPT在傳媒行業的應用場景示例
(報告出品方/作者:浙商證券,姚天航)
ChatGPT火爆的背后 算法革新+算力支持+數據共振
ChatGPT火爆全球,成為現象級互聯網產品
ChatGPT是一個由OpenAI開發的大型語言模型,它使用自然語言處理和深度學習技術,可以理解語言內容和語境,能夠承認錯 誤、挑戰不正確的前提、拒絕不適當的請求,通過生成自然語言文本的形式與用戶交互,從而能夠應用于各種語言任務和應用。
從AlphaGo到ChatGPT,AI技術發展叩響AGI之門
AlphaGo喚起AGI暢想。AlphaGo的成功使市場對AI 技術產生空前期待,預想AI將由專用人工智能(ANI)走 向通用人工智能(AGI),實現人類同等能力的任務執行。AGI遇技術難關,發展相對停滯。隨后幾年間面向AGI 的應用和底層技術的發展不盡如人意,遇數據、能耗、 語義理解、可解釋性等瓶頸,技術未出現明顯突破。
ChatGPT文本交互能力更上一個臺階。ChatGPT在文字 創作與語言交互等方面的能力令人驚喜,一定程度上實 現了人類同等能力,提升讀寫效率,逐漸向AIGC靠近。或為AGI實現帶來曙光。雖然在大量用戶體驗下 ChatGPT仍暴露出部分反饋偏差問題,但驗證了基于大 型語言模型(LLM)實現AGI具有可能性,重塑AI發展前景。
OpenAI商業化探索,B端流量收費與C端訂閱收費并行
B端:提供API接口實施流量收費。OpenAI向用戶提供語言、圖像、音頻等不同類型模型的API 接口,通過用戶使用模型的流量收費。其中ChatGPT對應API 由其背后的AI模型gpt-3.5-turbo提供支持。此外,OpenAI還向用戶提供嵌入模型和微調模型,支持用戶 根據自定義需求進行模型定制。
C端:提供產品訂閱服務收取費用。OpenAI于2023年2月新推出ChatGPT Plus版本,對該版本的 使用者收取20美元/月的訂閱費用。ChatGPT Plus版本較免費 公開使用的ChatGPT模型具有更快的響應速度,在應用高峰期 能更順暢的使用模型,且訂閱者能夠優先使用新功能,以向 ChatGPT模型的深度用戶提供更快捷的服務。
數字內容生產新方式 AIGC
AIGC:產業鏈逐步形成,玩家百花齊放,商業模式持續探索
以ChatGPT為代表的AIGC行業,上游主要包括數據供給方、算法/模型機構、創作者生態以及底層配合工具等, 中游主要包括文字、圖像、音頻、視頻等數字內容的處理加工方,下游主要是各類數字內容分發平臺、消費方及相關服務機構等。
文本生成:NLP重要任務標之一,神經網絡生成法為主流趨勢
文本生成(Text Generation)是自然語言處理(NLP)的重要任務之一,從非語言的表示生成人類可以理解的文本,文本→文本、 數據→文本都是文本生成任務關注的。
文本生成:Transformer架構實現并行處理,提升模型訓練效率
RNN架構局限在于無法并行運算。RNN計算是有時序依賴的,需要用到前一個時間步或者后一個時間步的信息,這導致它難 以并行計算,只能串行計算。GPU的并行化能夠大大加速計算過程,如果模型不能夠并行計算,會導致運算速度很低。
Transformer架構引入Self-attention自注意力機制可取代RNN。2017年,Google發布《Attention is All You Need》Transformer模型通過采用Self-Attention 自注意力機制,完全拋棄了傳統RNN在水平方向的傳播,只在垂直方向上傳播,只需要不斷 疊加Self-Attention層即可。這樣,每一層的計算都可以并行進行,可以使用GPU進行加速。
音頻生成:TTS應用發展成熟,AI樂曲創作未來可期
音頻生成主要應用于流行歌曲、樂曲、有聲書的內容創作,以及視頻、游戲、影視等領域的配樂創作,目前在眾多場景已獲 初步發展,在部分場景已廣泛應用、趨于成熟。常見音頻生成中,TTS文字轉語音是最普遍使用的落地應用,而創意性音頻 生成有助于激發創作者靈感,促進樂曲二創、輔助編曲。
圖像生成:從GAN到Diffusion,技術持續迭代,能力更進一竿
生成式對抗網絡(GAN)的提出標志著AIGC圖像生成可實現,進入快速發展階段。GAN由生成器和判別器兩部分組成,生成器 將抓取數據、產生新的生成數據,并將其混入原始數據中送交判別器區分。這一過程將反復進行,直到判別器無法以超50%的 準確度分辨出真實樣本。
擴散模型(Diffusion Model)成為圖像生成領域的重要發現,有望超越GAN,成為新一代圖像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名聲大噪,目前Google的Imagine與OpenAI的 DALL·E 2等熱門圖像生成軟件都基于此模型。
Diffusion Model簡化模型訓練過程中數據處理的難度,解決了GAN穩定性問題,提高生成圖片的質量。Diffusion模型的工作 原理是通過逐漸添加高斯噪聲來破壞訓練數據。通過一張神經網絡“生成器”來進行逆轉破壞過程(去噪),從純噪聲中合成數據, 直到產生干凈的樣本。GAN模型在訓練過程中需要兩張神經網絡“生成器”與“判別器”,穩定性很難平衡,而Diffusion Model只有 一張神經網絡,解決了穩定性問題,同時簡化了數據處理過程,且更加靈活。
圖像生成:圖像屬性編輯普遍應用,創意圖像生成應用落地較少
圖像生成可簡要劃分為圖像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。其中,前兩者的落地場景為圖像編輯工 具,而端到端的圖像生成則對應創意圖像及功能性圖像生成兩大落地場景。圖像屬性編輯大量應用落地,圖像局部生成及更高 目前有部分應用落地,端到端圖像生成底層原理明確,未來有望規模化應用。
由于圖像的生成復雜度遠高于文字,在整體生成上,目前仍然難以達到穩定可靠的生成高質量圖像。但隨著GAN、Diffusion Model等模型的不斷迭代,圖像生成發展將非常快速。
視頻生成:分幀生成圖像連接成視頻,視頻屬性編輯已普遍應用
視頻生成強調將視頻切割成幀,再對每一幀的圖像進行處理,與圖像生成原理類似。視頻生成難度遠高于圖像生成,生成視頻 的質量與流暢度取決于很多因素,包括數據集規模、訓練模型復雜度、特征提取準確性以及合成視頻算法有效性;由于模型訓 練量要求過大,目前模型只能實現幾秒鐘的短視頻生成,未來有望隨著模型的迭代實現中視頻和長視頻的生成。視頻生成應用場景主要包括視頻屬性編輯、視頻自動剪輯、視頻部分編輯,前者已大量應用,后兩者還處于技術嘗試階段。
跨模態生成:目前未大規模落地,文字生成圖像取得突破
跨模態生成是指將一種模態轉換成另一種模態,同時保持模態間語義一致性。主要集中在文字生成圖片、文字生成視頻及圖片 /視頻生成文字。文字生成圖片:2022年被稱為“AI繪畫“之年,多款模型軟件證明基于文字提示得到效果良好的圖畫的可行性,Diffusion Model受到廣泛關注。文字生成視頻:普遍以Token為中介,關聯文本和圖像生成,逐幀生成所需圖片,最后逐幀生成完整視頻。但由于視頻生成會面臨不同幀之間連 續性的問題,對生成圖像間的長序列建模問題要求更高,以確保視頻整體連貫流程。按技術生成難度和生成內容,可區分為拼湊式生成和完全從 頭生成。圖片/視頻生成文字:具體應用包括視覺問答系統、配字幕、標題生成等,這一技術還將有助于文本—圖像之間的跨模態搜索。代表模型包括 METER、ALIGN等。
策略生成:主要應用展望在游戲行業,其余場景發展較緩
策略生成是指生成一個可以在給定環境下執行任務的算法。普遍采用深度強化學習技術(早期曾采用決策樹及監督學習),其本 質原理是讓AI感知環境、自身狀態并基于特定目標決定當下需要執行的動作,然后基于下一個狀態給到系統的反饋進行獎勵或 懲罰,最終使系統在不斷的“強化”過程中優化“策略”。策略生成可應用于游戲智能(Game AI)、虛擬人交互、機器人控制、智慧交通等領域。游戲智能是決策生成目前應用最為廣泛和明確的場景。由于游戲本身存在于計算機虛擬環境,并產生大量數據,因此游戲本身 為AI提供了極佳的研發場景;而在其他業務場景中,還需先搭建能夠充分還原現實因素的虛擬環境,并合理設置Reward等關 鍵因素,目前距離現實應用較遠。國內多家AI企業已在嘗試這一方向,但如何精準完成環境學習仍然具有關鍵意義。
新時代生產力工具, AIGC賦能內容生產
AIGC+游戲:高效輔助游戲測試,保證質量并降低成本
游戲測試通常是游戲開發周期中的一大關鍵 環節,其目的是保證游戲質量,減少發布后 的風險,并為玩家提供更好的游戲體驗。在 游戲測試中,測試人員將會對不同的測試目 標使用不同的測試技術,就游戲玩法、游戲 流程內容、游戲系統、機型適配等進行測試, 記錄游戲中發現的問題,并通過管理工具報 告Bug,向開發人員反饋問題。
伴隨游戲生產量的增長以及游戲復雜度的提 高,游戲測試的需求爆發,而AI可以在游戲 測試中執行一些自動化任務,如執行基本的 功能測試、性能測試、兼容性測試等,以實 現更高效地測試。但AI目前還無法像人類測 試人員那樣進行用戶體驗、情感反饋等測試。
AIGC+廣告營銷:加快案頭工作效率,提供廣告營銷思路
AI技術支持能快速縮短耗時,較大提升前期準備效率。前期準備過程中時間占比70%的資料收集整理等案頭工作可通過ChatGPT等模型抓取大數據縮短耗時;占比20%的調研訪談、頭 腦風暴產生靈感等創意工作可以通過AI運算快速實現。
AIGC+互聯網:AIGC激活內容平臺,互為供給加速發展
互聯網內容平臺將作為重要數據來源。圖文 內容社區的內容庫可以作為大語言模型的語 料庫,提高模型自主學習和深度挖掘能力。這樣,無論是知乎用戶10年前的回答,還是 小紅書用戶的冷門筆記,抑或是豆瓣上的海 量書評、影評,都可以被AI有效地檢索、利 用和生成,展現出新的價值。
AIGC將成為平臺重要的內容形式。AI技術 將顯著降低內容制作門檻,提高內容制作效 率,增加內容供給,如今已有不少內容創作 者利用AI輔助生成圖文,視頻及音頻內容, 同時也有AI直接生成的內容,未來AIGC有望 成為內容平臺供給的重要形式。
AIGC+娛樂:開啟元宇宙之匙,基礎設施拔地而起
AIGC在元宇宙內容生產方面發揮了重要作用:元宇宙旨在構建用戶的第二空間,為了讓用戶獲得沉 浸式的體驗,內容生產者需要提供各種類型的虛擬內容。與第一空間不同的是,元宇宙內的內容是 原生的,能夠刺激用戶的全感官。在這樣的背景下,僅靠PGC和UGC產生的內容數量遠遠不足以支 撐一個完整的第二空間。因此,AI協助內容生產成為必然趨勢。大量個性化、多元化的數字內容將 顯著提升用戶體驗。
數字人是元宇宙的關鍵要素:數字人是元宇宙中最早落地的應用場景之一,也是連接用戶情感與VR、 AR等硬件設備的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占據核心位置,那么數字 人可被看作是元宇宙的關鍵要素。
AIGC是元宇宙中用戶交互界面的重要組成部分:在元宇宙中,智能NPC可以由AIGC生成并驅動,而 ChatGPT則可以作為語言模型集成到智能體中,使它們成為元宇宙中逼真的虛擬助手或伙伴,能夠執 行“智能”動作和復雜任務。
AI基礎數據服務
(報告出品方:國金證券)
1. AI 基礎數據服務脫胎于專業數據標注需求,2025 年國內百億規模可期
1.1 產業圖譜:AI 基礎數據服務脫胎于專業數據采標分工需求
國內 AI 基礎數據服務產業主要包括上游數據產生及產能資源、中游訓練數據生產、下游 AI 算法研發三大產業環節。其中,部分產業環節重合度較高,AI 基礎數據服務商主要脫 胎于專業數據采標分工需求。
上游主要包括數據生產者和數據生產組織者,主要提供原料數據的采集服務。
中游主要由基礎數據服務商構成,通過數據處理能力和項目管理能力完成訓練數據集 結構設計、數據加工和質量檢測等工作,為下游客戶提供訓練數據產品和相關服務。AI 基礎數據服務整體可分為兩大類,一種是具備自有的標注基地或全職標注團隊, 這類企業也參與產業上游部分直接提供產能資源,另一種是依靠眾包或外包模式,專 注于數據產品的開發與項目執行。
下游包括科技公司、行業企業、AI 公司和科研單位等,主要負責算法研發。部分下 游 AI 公司擁有自主的標注工具,也可通過 AI 中臺獲取一些通用標注工具,少數數據 需求大的企業還孵化了自主的數據服務團隊。
1.2 發展歷程:站在人工標注市場出清與機器標注迭代的十字路口
理論層面:數據工程系 AI 工程基礎環節,核心在于高效的數據標注。AI 工程=數據工程+ 模型工程。其中,數據工程主要包括數據采集與數據標注,約占 AI 工程時長的 80%;模 型工程主要包括模型訓練與模型部署,約占 AI 工程時長的 20%。數據工程是 AI 工程的 前置且基礎環節,直接影響到模型的質量與精度。數據工程的核心在于高效的數據標注, Garbage in garbage out 效應顯著。
實踐層面:AI 模型訓練數據需求規模大,訓練數據質量不佳、效率低下情況普遍。據Dimensional Research 全球調研報告,72%的受訪者認為至少使用超過 10 萬條訓練數據 進行模型訓練,才能保證模型有效性和可靠性,96%的受訪者在訓練模型的過程中遇到訓 練數據質量不佳、數量不足、數據標注人員不足等難題。為應對訓練數據所帶來的多方面 挑戰,AI 企業開始從第三方購買原料數據收集、訓練數據生產和數據專家咨詢等服務。
AI 數據工程發軔于 AI 產業落地元年,系 AI 下游應用的基礎且必備環節。目前行業處于市 場格局漸趨清晰,新老技術面臨迭代,下游需求加速釋放的關鍵節點。
產業初生期(2010~2016):2010 年語音識別和計算機視覺領域產生重大突破,國 內開始萌生 AI 概念。后續數年,早期的 AI 基礎數據服務門檻較低,質量參差不齊。
產生成長期(2016~2022):近五年來,供給側高烈度的業內競爭加速市場出清,需 求側對產業落地以及垂直場景的定制化數據采標需求逐漸凸顯。最終引致行業頭部企 業浮出水面,行業格局逐漸清晰。
產業成熟期(2022~至今):2022 年以來,AIGC 產品集中爆發,高 level 自動駕駛 需求加速釋放。傳統人工標注的效率已不能完全滿足算法需求,行業護城河轉向自動 化機器標注技術,預計產業將進入向技術要市場的新階段。
1.3 市場規模:AI 快速落地疊加數據量指數級躍升,2025 年國內百億規模可期
國內 AI 市場規模超百億美金,約占全球市場 10%份額。目前,AI 已在金融、醫療、交通、 安防等多個垂直場景深度落地,且應用場景拓展勢能強勁,商業化進程加速。從全球市場 看,據 IDC,2021 年全球 AI 產業規模達 885.7 億美元,預計 2025 年將達到 2,218.7 億 美元,CAGR 高達 25.8%。從國內市場看,據 IDC,2022 年我國 AI 產業規模或達 116 億美元,預計未來數年仍保持兩位數增長。以 2021 年計,國內 AI市場規模約占全球 10%, 國內市場成長潛力巨大,國內企業出海空間廣闊。
全球數據量呈指數式增長,中國數據量增速跑贏全球。據 IDC,全球每年生產的數據量將 從2018年的33ZB猛增至2025年的175ZB,其中結構化數據僅占到全部數據量的20%, 其余 80%都是以文件形式存在的非結構化和半結構化數據,日志文件、機器數據等占非 結構化數據的 90%,產生了源源不斷的數據清洗與標注需求。相比之下,中國的數據量 增速領跑全球,平均每年增速比全球快 3%。2018 年,中國的數據量為 7.6ZB,占全球總 量的 23.4%,預計到 2025 年將增至 48.6ZB,占全球總量的 27.8%,CAGR 高達 30.4%。
中國 AI 基礎數據服務行業市場規模 2025 年有望突破百億。一方面,隨著算法模型、技 術理論和應用場景的優化和創新,AI 產業對訓練數據的拓展性需求和前瞻性需求均快速 增長;另一方面,隨著業內對訓練數據需求類型的增加以及對服務標準要求的提高,產業 鏈的專業化分工將愈加清晰,專業化的訓練數據服務提供商將扮演更加重要的角色。據艾瑞咨詢,2019 年中國 AI 基礎數據服務行業市場規模達 30.9 億元,其中圖像類、語 音類、NLP 類數據需求規模占比分別為 49.7%、39.1%和 11.2%。預計 2025 年國內 AI 基礎數據服務行業市場規模將突破 100 億元,年復合增長率高達 21.8%。
1.4 政策支持:近五年國家政策加持國內 AI 產業發展
近五年國家系列政策推動國內 AI 產業蓬勃發展。《“十四五”規劃》指出要加快數字化發 展,建設數字中國,同時打造數字經濟新優勢,充分發揮海量數據和豐富應用場景優勢, 促進數字技術與實體經濟深度融合,賦能傳統產業轉型升,催生新產業新業態新模式,壯 大經濟發展新引擎。在國家頂層設計的支持下,我國 AI 基礎數據服務行業穩步發展,行 業訓練資源庫等細分應用領域的產業價值逐步凸顯。
2. AI 大模型催生高要求新需求,專業化數據集及 AI 訓練師需求利好優質專業數據提供廠商
2.1 場景特質:AI 大模型時代無監督/半監督訓練成為主流,RLHF 催生新興需求
大模型時代無監督/半監督訓練成為主流。AI 模型的訓練方法主要包括監督學習和無監督 學習兩種典型方式,后隨模型訓練數據量的增加衍生出半監督學習方法。AI 訓練方法的 發展歷經“監督-無監督-監督-無監督/半監督”4 個階段,在目前的大模型階段,無監督/ 半監督訓練再次成為主流。監督學習與無監督學習的主要區別在于是否使用帶有人工標注 的數據集訓練數據,半監督學習則是使用大量未標注數據+少量標注數據進行訓練。
大模型時代“基礎模型+微調”成為 AI 開發新范式,RLHF 微調技術催生更高要求的數據 標注需求。AI 大模型由海量數據通過無監督學習訓練得到,本身并不能直接應用于具體 任務,必須經過微調才可投入應用。微調是指基于大規模基礎模型,在現有訓練得到的模 型參數之上,針對特定任務類型、應用特定場景的數據對模型進行二次訓練。通俗來說, 大規模基礎模型為AI提供了基礎知識,而微調則是讓AI獲特定領域知識,并賦予其組織、 應用知識的能力。以近日備受關注的 ChatGPT 為例,在其微調技術 RLHF(強人工反饋) 系統當中:
第一步,預訓練階段。模型首先需要在標注完備的大數據集上進行預訓練,得到監督 學習模型。
第二步,交互獎勵階段。模型與專業的人工智能訓練師進行交互,專業標注人員會對 ChatGPT 生成的回答進行標注、評估和反饋,給出一個針對回答的分數或者標簽。這些標注數據可以作為強化學習過程中的“獎勵函數”來指導 ChatGPT 的參數調整, 得到獎勵模型。
第三步,迭代優化階段。基于獎勵模型的獎勵函數以 PPO(一種使用兩個神經網絡 的強化學習算法)的方式微調監督學習訓練出來的生成模型,基于強化學習 loss 持 續迭代生成模型,最終幫助模型進行強化學習和不斷優化。
2.2 場景需求:預訓練階段高質量專業數據集+交互獎勵階段人工智能訓練師
伴隨業界大模型市場競爭的白熱化,RLHF 系統也將得到進一步的推廣及迭代使用,從而 帶來兩大類新興數據標注需求。一是預訓練階段催生 AI 廠商對于標注完善、清洗完備的 各類專業化場景數據集的需求;二是交互獎勵階段催生 AI 廠商對于具備專業的事實判斷 與規范的價值判斷的人工智能訓練師的需求。目前,上述兩類新興需求尚未得到充分有效的市場供給,利好海天瑞聲這類優質專業數據 解決方案提供商。針對 RLHF 預訓練階段需求,由于傳統數據采標廠商的主流商業模式 以銷售工具系統和標注服務為主,所以普遍缺少自有數據,較少經營出售精準數據集的服 務。針對 RLHF 交互獎勵階段需求,聚焦專業垂類的模型訓練師則更為稀缺,市場藍海 亟待業務開拓。
2.3 場景價值:超大規模預訓練模型推動訓練數據數級躍升,市場需求持續延展
超大規模預訓練模型推動訓練數據指數級躍升。自 OpenAI 于 2020 年推出 GPT-3 以來, 谷歌、華為、智源研究院、中科院、阿里巴巴等企業和研究機構相繼推出超大規模預訓練 模型,包括 Switch Transformer、DALL·EMT-NLG、盤古、悟道 2.0、紫東太初和 M6 等。目前,預訓練模型參數數量、訓練數據規模按照 300 倍/年的趨勢增長,繼續通過增大模 型和增加訓練數據仍是短期內主流演進方向,RLHF 技術的推廣使用或將推動訓練數據市 場需求持續延展。
3. 自動駕駛領域訓練數據需求方興未艾,海天瑞聲發力布局
3.1 場景特質:自動駕駛客戶需求全棧式閉環數據解決方案
自動駕駛場景對于 AI 數據服務需求較為剛性。自動駕駛基礎數據主要是道路交通圖像、 障礙物圖像、車輛行駛環境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主。L3 級別以上的自動駕駛系統需對雷達、攝像頭等傳感器采集的點云和圖像數據進行抽取、 處理和融合,構建車輛行駛環境,為預測和決策做依據。目前自動駕駛的視覺技術主要應用有監督的深度學習,是基于已知變量和因變量推導函數關系的算法模型,需要大量的標 注數據對模型進行訓練和調優。近幾年,汽車廠商在 ADAS 和自動駕駛方向的投入明顯, 對于數據的采集和標注需求也逐年增加,汽車廠商有望成為需求主力。
自動駕駛領域對于基礎數據服務商提出更高要求,業內客戶需要全棧式閉環數據解決方案。數據獲取和處理能力是自動駕駛企業的核心競爭要素之一,自動駕駛能力取決于高效的數 據閉環和數據的利用效率,并能利用大量有效數據訓練智能駕駛算法。因此,自動駕駛客 戶要求數據服務商能夠提供閉環數據解決方案,以滿足智能駕駛業務數據處理量大、數據 處理需求迭代頻次高等特點,專業知識、服務經驗及準入資質將成為衡量的重要標準。
3.2 場景需求:自動駕駛領域數據標注分為 2D 圖像標注與 3D 點云標注
自動駕駛領域的數據可分為車載攝像頭采集的 2D 圖像數據和激光雷達采集的 3D 點云數 據。一般而言,低 level 的自動駕駛技術以 2D 圖像數據為主,3D 點云標注數據是中高 level 自動駕駛技術的基礎訓練數據,在自動駕駛領域中發揮著愈發重要的作用。3D 點云標注 數據在自動駕駛領域的應用可以分為兩個方面,一是基于場景理解和目標檢測的實時環境 感和處理,二是 SLAM(即時定位與地圖構建)加強定位。
2D 標注:通過精確理解來自可見光攝像頭的信息,尋找能夠創建用于目標物體的可 擴展邊界框。
3D 點云標注:通過識別和跟蹤場景中的對象,了解汽車前方和周圍的場景。將點云 數據和視頻流合并到要標注的場景中。
視頻對象和事件跟蹤 3D 點云標注:鎖定隨時間移動的對象,并標注時間事件。在多 幀視頻和 LiDar 場景中跟蹤進入和離開本體中的關注區域的對象(如其他汽車和行 人)。在整個視頻中,無論對象進入和離開視線的頻率如何,都會保持對其特性的一 致理解。
3.3 場景價值:自動駕駛訓練數據市場方興未艾,2025 年國內市場規模或達 25 億元
自動駕駛約占我國 AI 基礎數據服務市場規模的 35%,2025 年市場規模或達 25 億元。自 動駕駛的視覺技術主要應用于有監督的深度學習,需要大量的標注數據對模型進行訓練和 調優。目前該領域的數據采集和標注需求已成為AI基礎數據服務的主要下游之一。據IDC, 2020 年我國自動駕駛領域占 AI 基礎數據服務市場規模的 35%,系第一大下游場景。另 據艾瑞咨詢,2025 年我國自動駕駛 AI 基礎數據服務市場規模或達 24.9 億元,預計 18~25 年 CAGR 高達 23.2%,跑贏 AI 基礎數據服務整體增速 21.8%。
4. 國內市場集中度趨勢性收斂,海天瑞聲具備領先優勢
4.1 發展趨勢:品牌商價值效應凸顯,國內市場集中度持續收斂
品牌數據服務商未來將替代中小型供應商成為市場主要供應力量。我國 AI 基礎數據服務 行業主要市場主體包括需求方自建基礎數據團隊與基礎數據服務商(品牌數據服務商、中 小數據服務商)。截至 2019 年,中小數據供應商是主要供應力量,占比高達 47%。其中 百度眾包、海天瑞聲分居 top2,占比分別為 11.0%、8.0%,2019 年行業 CR5 僅為 26.2%。結合本文 1.2 部分分析可知,近年間需求端垂直場景及專業化需求凸顯,業務門檻提高;供給端競爭加劇擠壓中低端業務利潤空間,加速市場出清。預計當前我國 AI 基礎數據服 務行業市場主要以品牌數據供應商與需求方自建團隊為主,行業龍頭逐漸浮出水面,中小 供應商份額顯著下降。
業內品牌數據商包括海外巨頭 Appen、國內領軍廠商海天瑞聲、慧聽數據、標貝科技等:
Appen:1996 年成立于澳大利亞,面向機器學習和人工智能開發的高質量人工標注 數據集,于 2015 年 1 月于澳大利亞證券交易所上市。Appen 在采集并豐富語音、文 字、圖像和視頻等各種數據類型上積累多年經驗,與全球技術、汽車和電子商務公司, 以及政府部門建立了合作。
海天瑞聲:成立于 2005 年,是國內領先的訓練數據提供商。主要從事訓練數據的研 發設計、生產及銷售業務。目前已成為同時具備核心技術、產品資源、優質客戶為一體的本土訓練數據提供企業。核心收入來源為數據資源定制服務。
慧聽科技:成立于 2011 年,業務包括語音識別、語音合成、語音評測、語言文本類、 多媒體類等多領域數據制作,以及語音合成、語音識別、輸入法系統的研發等。公司 提供服務涵蓋語音訓練數據制作、音樂數據制作標注、語音質量評測等,經營模式包 括定制開發和自有訓練數據產品銷售。
標貝科技:成立于 2016 年,主要提供智能語音交互相關服務,包括語音合成整體解 決方案,以及語音合成、語音識別、圖像識別等數據服務,經營模式包括定制開發和 自有訓練數據產品銷售。
4.2 競爭格局:業內主要玩家發展各有側重,Appen 及海天瑞聲具備領先優勢
據 IDC,2021 年海天瑞聲在國內 AI 基礎數據服務行業市占率高達 12.9%,位居第一。其 技術實力、語種/方言覆蓋能力、專利及軟著數量、成品訓練集數量均位居行業前列。相 比之下,Appen 在覆蓋區域、語種/方言覆蓋能力等方面更具優勢。慧聽科技與標貝科技 則在音樂領域具備差異化業務覆蓋能力。
在語音類數據產品中,海天瑞聲在結構方面的差異主要體現在覆蓋的噪聲類型、錄音通道 數量、錄音文本內容類型等方面。相比之下,海天瑞聲的訓練數據產品結構整體而言可覆 蓋更豐富的錄音文本內容類型、噪音環境類型、錄音通道數量,Appen 則在稀有語言覆 蓋數量上更勝一籌。
在自然語言訓練數據產品中,不同自然語言訓練數據產品的結構差異主要體現在文本來源、 內容、標注屬性等方面。Appen 具備更為豐富的產品數量與更為全面的語言覆蓋能力, 海天瑞聲在上述指標上緊隨其后。
在計算機視覺訓練數據產品中,海天瑞聲在結構方面的差異主要體現在人像識別檢測相關 數據產品領域。主要玩家均可覆蓋不同類型的人臉、姿勢、場景等,因計算機視覺數據產 品個性化特征較強,各類訓練數據產品在具體的人臉類型、姿勢范圍、場景等方面具備一 定差異。與 Appen 相比,海天瑞聲的 OCR 訓練數據產品可覆蓋更多語種的光學字符識 別需要,具備廣泛性、強適用性特征。
4.3 他山之石:Appen 發展復盤,全球 AI 基礎數據服務巨頭的崛起之路
Appen 系 AI 基礎數據服務行業全球巨頭,經歷爆發式成長后收入利潤短期雙雙回落。Appen 成立于 1996 年,面向機器學習和人工智能開發的高質量人工標注數據集,于 2015 年于澳大利亞證券交易所上市。2015~2019 年,公司經歷了爆發式成長期,營收增速一 度沖高至 100%以上,同期凈利率接近 10%。2020~2022 年,受到全球疫情及公司內生 發展階段調整影響,2022 年公司營收規模相較 2021 年回落 13.1%,凈利率由 9.1%回落 至 5.9%。
Appen 業務類型齊全,客戶質量較高。Appen 主要業務類型包括數據采集、數據預處理 與模型評價三大類。其中,數據采集環節基于公司預先標記完備的海量數據集為下游客戶 提供大量其所需的高質量數據,數據集語種覆蓋范圍領先優勢較大。數據預處理環節,公 司具備全類型數據標注能力。模型評價環節,公司通過用戶測試及針對客戶競爭對手的性 能基準測試,診斷模型潛在問題,并為此提供能夠優化模型的訓練數據。公司主要客戶質 量較高,包括 Google、Amazon、Microsoft 等知名 IT 巨頭。
Appen 位居同業員工量能及數據標注技術前列。全球范圍來看,Appen 位居全球 AI 基礎 數據服務行業收入體量首位。其員工量能(數量及質量)與數據標注技術領先程度均位居 行業頭部,緊隨之后的是 Telus 和 Lionbrigde。以數據堂、海天瑞聲為代表的國內頭部廠 商距離 Appen 等海外大廠仍存在一定差距。
編輯:黃飛
?
評論
查看更多