人工智能技術已經從理論走向市場,滲透到千千萬萬的行業之中。作為人工智能基石的數據,發揮出越來越重要的作用,影響著人工智能場景應用的最終效果。現階段,在各個細分應用場景的需求下,人工智能對數據的還原度、準確度提出了更高要求。那么,怎樣的“數據”才最符合人工智能越來越精細化的場景落地需求?
細分場景數據的缺失
舉個例子,根據佐治亞理工學院的一項研究——通過對8個圖像識別系統的測試,發現自動駕駛汽車的傳感器和攝像頭,更善于檢測膚色較淺的人,而膚色較深被檢測出的準確率平均會低5%。
結論一經報道,諸如「AI行業也存在種族歧視」的言論便充斥在各大媒體上。
然而,從技術角度來看,計算機視覺是通過RGB或RGBD識別人(物體)的信息,黑色或深色的RGB整體數值偏小,是最難被識別的。在實際情況中,算法在訓練時由于欠缺黑色及深色的細分場景數據,由此導致算法模型不夠精確,最終技術在實際落地應用時出現差錯。
其實,不僅是圖像識別,各個行業領域對場景化數據的需求也十分迫切。AI在各種各樣垂直領域進行落地,比如說教育、法律、智能駕駛、銀行金融等,每個領域都有細分專業化的要求。比如道路安防攝像頭,攝像頭中囊括行人、機動車、自行車數據,卻唯獨缺少行人跌倒數據;在自動駕駛領域,監測系統需要采集駕駛員各種狀態數據,但缺少疲勞狀態的數據。
云測數據的場景化數據采集實踐
這些數據采集需求相對復雜、聚焦,難度較大,對AI數據服務商的場景化采集能力提出了很高的要求。隨著人工智能對長尾場景的數據需求進一步擴大,未來,場景數據將擁有更廣闊的增量空間,具有相關采集工具、資源、能力的數據采集標注服務商將擁有極大的競爭優勢。以數據采集標注頭部企業——云測數據為例,為進一步滿足場景化數據的需求,首創了“數據場景實驗室”進行相應的場景化數據生產。
以多角度多姿態的動作采集為例,云測數據總經理賈宇航表示,云測數據專門在橫店建了一個數據采集基地,根據項目需求,進行特定動作和表情的捕捉。據了解,云測數據也是現在市面上唯一采用群演來做人工智能數據采集的數據服務商。目前,云測數據深度合作伙伴覆蓋了汽車、手機、工業、家居、金融、安防、教育、新零售、地產、生態系統等行業。其中包含眾多世界500強企業、高校科研機構、政府機構,頭部AI企業和大型互聯網企業覆蓋率超90% ,涵蓋了計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術領域。
正如賈宇航所言,云測數據的采標業務正是整個人工智能產業所迫切需要的,橫店群演的采集只是場景化數據的一個縮影。根據企業數據需求,還原AI應用真實場景,這不僅需要深入理解需求,還需要快速構建場景。這背后,需要云測數據根據項目經驗及實地調查來明確需求,此后再細化、優化需求,運用專業的軟/硬件設備,以達到覆蓋盡可能多的實際場景及邊際場景的目的,保證采集數據契合算法模型,為人工智能提供高精度的采集數據,保證算法訓練所需數據的純凈。
精耕細作是行業趨勢
當然,這些不僅是有趣或者單一客戶需求所驅動的成果,而是整個AI數據服務行業從粗放的勞動密集型時代走向精耕細作所必須的過程。
從細分結構來看,隨著人工智能技術的不斷成熟,更多的場景和行業開始嵌入使用人工智能技術,AI行業應用場景逐漸趨于長尾和碎片化,產生了大量新興垂直領域的數據需求,如疫情期間的口罩識別應用等;同時,從AI應用迭代、用戶體驗完善的角度來看,AI應用需要更加貼合具體使用場景的數據進行迭代更新。
《2020年中國AI數據服務行業研究報告》中指出,隨著互聯網技術發展,市場AI需求愈發明顯,同時在經濟、政策不斷利好下,AI數據服務行業市場前景廣闊。優秀的AI數據服務商作為人工智能產業上游的關鍵,必須至少具備三種能力:對場景數據深度還原的采集能力、高精確度的標注能力、領先的標注平臺技術能力。
場景數據深度還原的采集能力決定著最終AI產品是否貼合使用場景乃至產品生命周期,高精確度的標注能力影響著最終AI應用的用戶體驗,標注平臺技術能力則影響著數據生產的效率、質檢等方方面面。在這幾點上,云測數據已經準備好,運用更專業、更高質、更大的實力規模,幫助現代企業從AI數據開始,一起開啟人工智能化的浪潮。
責任編輯:YYX
-
AI
+關注
關注
87文章
30998瀏覽量
269329 -
人工智能
+關注
關注
1791文章
47352瀏覽量
238791
發布評論請先 登錄
相關推薦
評論